帮助分析化学拥抱大数据
最近的许多研究进展都旨在最大化我们所能产生的数据量。随着数据处理存储成本的急剧下降,为什么不呢?但是,任何花了几个小时用未经校准的移液管移液的人,或者看过所有29部《辛普森一家》的人都会告诉你,质量比数量更重要。许多公司都意识到了这一点,这些公司现在被一堆存储质量很差的数据所淹没,这些数据无法同步到其他数据筒仓,占用了许多tb的存储空间。在分析化学中,这些数据比日常的电子表格更复杂,更有价值,需要匹配这种复杂性的工具来让数据恢复原状。
总部位于多伦多的分析软件供应商创新与信息战略副总裁安德鲁•安德森表示:“如果你没有正确的数据,那么下游的任何人,包括你自己,几乎都无法使用它,用于你最初打算做的任何事情。ACD /实验室.Anderson认为,在数据生命周期的开始和结束阶段,人们都认识到了这种对正确性的需求:“食品和药物管理局等组织要求制药公司和药物制造商拥有安全、有效和高质量的药物,他们提供的用于描述这些药物的数据必须符合数据完整性的指导方针。从一开始到最后都有务实的动力。如果你要把一种产品推向市场,让人们受益,你的期望是什么?如果这不是它应该是什么,可能会有非常严重的后果。”
安德森的观点是,从设计到药物,数据完整性在研究管道的所有阶段都很重要。随着技术的进步,可以从更多来源、更大容量地记录数据,这种观点变得至关重要:“工业创新的一个趋势是利用我们所说的从数据中获得的第二或第三价值。从历史上看,如果你看看分析数据是如何在行业中被利用的,它是问题和答案,输入和输出。人们已经认识到,通过拥有数据,你可以推断趋势,你可以将数据应用和使用到训练集,或者像预测分析、机器学习之类的事情。如果我使用分析数据来释放一种物质,用于药房或商业环境中,释放的数据被用来开绿灯,说,是的,你可以释放该批次的预期用途。如果你将这些数据保存在曾经发布过的每一批产品上,你就可以看到趋势,并推断出运营优化决策——例如,我是否看到了一个站点的质量与另一个站点不同的趋势?”
有了这些潜在的好处,令人惊讶的是,分析化学比其他领域更慢地接受大数据技术,可用的数据集和算法往往无法完成分析复杂化学数据的任务。Andrew的同事、ACD/Labs战略合作伙伴总监Graham McGibbon说,数据的复杂性和容量是简单采用自动化技术的最大障碍:“你有跨越波长范围的光谱,你不仅要对特定采样频率进行实验,还要在所有频率上进行实验。运行它们需要时间——色谱运行可能需要半个小时。如果你在那整整半小时内获取数据,你有一个质谱仪,可能会有数千或数百万个数据点。此外,你有多个维度的信息,你可以探测原子是如何相互连接的。人们想知道哪个峰代表哪个原子或特征,而复杂性是化学数据的关键。我认为它比人们选择存储在其他领域的其他数据要复杂得多。”
Andrew指出,进行大规模化学分析的实验室或公司最终可能会获得令人难以置信的数据量:“如果我们想做大数据分析,我们每天会生成1tb的数据,随着时间的推移,你将很快达到1pb。如果你不以某种方式减少数据量,就很难进行我们想做的分析。”
如此大量的数据听起来确实是避免改变全公司范围内的数据系统的一个很好的理由,但Andrew坚信,即使采用大数据技术不是一条容易走的路,另一种选择也要糟糕得多:“我个人熟悉食品和饮料公司处理农药的情况,他们必须对农药受到监管做出反应。他们花了18个月的时间对他们的商业产品和原材料供应链进行危险评估。如果你有一个大数据系统,它是一个查询,一个简单的查询,而不是他们必须做的事情,因为大数据系统没有发挥作用。他们必须收集样本,重新分析,然后从那里开始。如果您打算在分析化学中采用大数据技术,请考虑其价值主张——这就是他们如何证明数据中心投资的合理性。如果你建造了这个房子,并以正确的方式建造它,它会得到回报,你可以避免那18个月的成本来解决一个问题。”
虽然发展大数据技术的必要性似乎很明显,但企业选择采用这些技术的方式却不那么明确。到底是谁在公司内推行更以数据为中心的战略?安德鲁表示:“并不是任何一个部门都要承担这样的创新战略,所有的利益相关者都必须参与进来。”“你必须有一个协调一致的计划,从当前的战略能力迁移到新的能力。所以,我不会把任何一个部门置于枪口之下,也就是说,要有责任建立这样的东西,它必须是一个跨部门的职能。”
现代信息学解决方案显然有潜力改善整个行业处理数据的方式,并终结过时的做法。同样清楚的是,实现这些解决方案需要密集但值得的努力。Andrew总结了那些想要改善数据处理和分析方式的公司面临的任务:“如果有人可以挖掘数据,那么我认为这很好,但与他们最初所做的相比,这是一个不确定的额外价值。我认为,认识到在哪里收集数据的本质,以及在获得完整和准确的数据并使其有用方面存在哪些权衡,这一点非常重要。”