为什么分析数据的未来必须考虑人工智能原则
阅读时间:
数据科学是实现人工智能的计算方法的集合。过去十年,研发领域的关键战略举措利用了人工智能(AI)和数据科学。这两个关键领域都要求系统能够有效地管理大量数据。为了使战略计划能够为利益相关者创造价值,需要以可扩展和健壮的方式收集、存储和组织数据,以确保其结构正确,便于使用。要做到这一点,生物技术和制药公司应该:
1)确保每一个科学家- - - - - -无论是合成的,分析的,化学的等等。- - - - - -参与数据科学规划和策略;而且
2)确保提供基于软件的数据访问,以帮助管理化学智能信息。
此外,随着自动化在科学实验工作流程中的应用越来越多,以及COVID-19推动了人们对数据科学和人工智能的兴趣,数据可访问性比以往任何时候都更加重要。这是为什么。
数据科学属于所有科学家
“没有数据,你只是一个有观点的人。”
- w。爱德华兹•戴明
科学方法依赖于收集观察数据、进行分析和证明自己的解释和结论的能力。传感器、网络和数据存储方面的技术进步使科学家在实验前、实验中和实验后可以“访问”的数据数量和种类呈指数级增长。
例如,在许多科学和生物医学行业中,化学家、生物学家和材料科学家在原子/分子尺度上研究物质。这些研究人员运用他们的知识和经验来设计合理的实验策略,以产生理想的结果。
在这些过程中,现在的数据来源比以往任何时候都多。在许多这样的实验中,特别是对于合成和催化等“分子生成”过程,在整个实验过程中测量“过程属性”(例如温度、时间、压力和成分)的传感器为科学家提供了路线选择、优化和过程鲁棒性的见解。然后,研究人员利用这些传感器数据对材料、工艺和下一步进行决策。为了充分利用这些数据,应该将其输入人工智能算法。然而,在使用这些传感器生成的信息作为人工智能的训练数据时,存在几个关键挑战。
数据异构性和正交性
传感器数据的一个用途是跟踪实验进展。对于确认物质的“质量属性”(如身份和成分)的传感器,生成的结果数据通常来自各种分析仪器。例如,多维核磁共振(用于身份确认)和LC/MSn(用于成分)的格式和数字结构对数据科学系统提出了重大挑战。对于每种分析技术,系统必须支持一套详尽的数字格式,并包括解释相关数据“特征”的应用程序逻辑。此外,通常解释需要包含正交数据:具体来说,样品和实验元数据,相关的化学/生物物质数据和规格验收数据。
数据量和频率
传感器(因此仪器)可以产生的数据量和采样频率也是数据科学系统的一个挑战。如果科学家需要在一段时间内进行成分分析来有效地描述一个过程,那么数据量是相当大的。例如,每五分钟对一个小时的反应进行一次采样,结果是12次全扫描,精确的质量LC/MSn实验。这首单曲纵向研究中,支撑系统将需要12GB的存储空间。在整个机构中预测这些数据的使用时,必须仔细考虑人工智能相关系统功能的数据量和相应的性能要求。
数据汇编和符号学
“总结”多属性分析实验的传统方法(并相应得到数字系统的支持)是将它们简化为表格、文本、数值和/或图像抽象。
机构和组织应该投资于解决数据抽象挑战的系统。收集相关流程见解的能力允许进行简单的、完全知情的决策- - - - - -有可能识别“潜在”因素- - - - - -这些因素对实验结果有影响,但可能没有提前预测到。
图1:LC/MSn数据显示了可视化图的价值。信贷:ACD /实验室
此外,利用相关的可视化图可以增强分析结果的表示。在LC/MSn数据的情况下(见图1),三个包含二维色谱图的交互图,每个“特征”(在这种情况下检测和表征的峰)链接到相应的MS1和MS2图(其中MS通道图由前体离子值连接)。当然,这允许更容易的人工审查;但是这种视觉表现的附加价值,也就是所谓的符号学,也可以用于基于机器的图像分析。
展望未来
随着数据科学计划在各机构之间激增,关注利用分析结果的利益相关者应该考虑以下关键能力:
- 分析数据工程:能够从相关仪器中提取和转换详尽的分析数据集,满足各种“数据组装”需求。转换后的数据结构应该允许基于人和机器的可访问性/使用。
- 分析数据管理:根据相关数据完整性原则存储结果数据集的能力。
- 系统集成:能够将数据管理集成到相关系统:ELN, LIMS,物质注册系统和实验室执行系统。
- 数据可视化:能够为人类和机器使用提供相关的分析数据集显示。
结论
随着机构寻求将各种实验性“操作”自动化,产生的数据量和种类只会继续增加。负责实施并最终利用数据科学的利益相关者应该仔细考虑如何最好地解释这种(不断增加的)分析数据集的数量和种类。
作者简介:安德鲁·安德森,ACD/Labs创新与信息战略副总裁
广告