为什么分析数据必须考虑未来的人工智能原理
阅读时间:
数据科学的计算方法,使人工智能。过去十年重要战略举措研发利用人工智能(AI)和科学数据。这两个关键领域需要的能力系统来有效地管理大量的数据。战略计划向利益相关者产生价值,需要收集数据,存储和组织在一个可伸缩的和健壮的方式,以确保它是正确使用结构化。要做到这一点,生物技术和制药公司组织:
1)确保每个科学家- - - - - -是否合成、分析化学等。- - - - - -参与数据科学规划和策略;和
2)确保提供基于软件的数据访问来帮助管理化学智能信息。
此外,随着越来越多地使用科学实验工作流程的自动化和COVID-19驾驶更感兴趣数据科学和人工智能,数据可访问性比以往任何时候都重要。这是为什么。
数据科学是所有的科学家
“如果没有数据,你只是另一个人的意见。”
- w。爱德华兹•戴明
科学方法的能力依赖于收集观测数据,进行分析和证明的解释和结论。技术进步在传感器、网络和数据存储创建了指数增长的数量和种类的数据,科学家可以“访问”之前,期间和之后他们的实验。
例如,在许多科学和生物医学行业,化学家、生物学家和材料科学家研究物质在原子/分子尺度。这些研究人员应用他们的知识和经验来设计合理的实验策略来产生理想的结果。
在这些过程中,现在有比以往更多的数据来源。在这些实验中,特别是对于“molecule-generating”过程,如合成和催化、传感器,测量“过程”属性(如温度、时间、压力和成分)在实验为科学家提供的见解,允许路由选择、优化和过程的鲁棒性。然后研究者们使用这种传感器数据决定材料、过程和步骤。充分利用这些数据,它应该被送入人工智能算法。然而,有几个关键的挑战时使用信息所产生的各种传感器作为人工智能的训练数据。
数据异构性和正交性
一个使用传感器数据跟踪试验进展。为传感器,证实一种物质的质量属性,“身份和组成、合成生成的数据通常来自各种分析仪器的。的格式和数字结构,例如,多维核磁共振(用于身份确认)和LC / MSn(成分),提出了一种数据科学系统的重大挑战。对于每个分析技术,系统必须支持一套详尽的数字格式,并包括应用程序逻辑来解释相关数据”功能。“此外,通常需要包含正交数据解释:具体来说,样本和试验元数据、相关化学/生物物质数据和规范验收数据。
数据量和频率
的体积数据,传感器(因此工具)可以生成和抽样的频率对数据科学系统也是一个挑战。科学家需要成分分析在一段时间内有效地描述一个过程,数据的数量是相当大的。例如,一小时的反应是采样每五分钟,导致12全扫描,准确质量LC / MSn实验。对于这个单纵向研究中,支持系统需要12 gb的存储空间。当预测的使用这些数据在一个机构,数据量和相应的性能要求人工智能相关的系统功能都必须仔细考虑。
数据组装和符号学
传统的手段多属性分析实验是“总结”(由数字系统和相应的支持)是减少到表格,文本、数值和/或图像的抽象。
机构和组织应该投资于系统地址数据抽象的挑战。收集相关的流程的见解的能力允许的,全面的决策- - - - - -与识别“潜伏”因素的可能性- - - - - -这些因素导致实验结果但可能没有预期的提前。
图1:LC / MSn数据显示可视情节的价值。信贷:ACD /实验室
此外,分析结果的表示可以增强利用相关视觉情节。LC / MSn的数据(参见图1),三个互动情节包含二维色谱图,每个“特性”(在本例中检测和特征峰)与相应的MS1和一块(女士通道情节联系在一起的前体离子值)。当然,这样可以更容易人类审查;但附加价值从这样的可视化表示,叫做符号学,也可以允许使用基于机器的图像分析。
展望未来
随着数据科学项目在机构滋生蔓延,利益相关者关心利用分析结果应考虑以下主要功能:
- 提取和分析数据工程:能力把详尽的分析数据集从相关仪器,占各种“数据组装”的要求。数据结构转换以后应该允许人类和基于机器的可访问性/使用。
- 分析数据管理:储存能力合成数据集按照相关数据完整性原则。
- 系统集成:能力集成数据管理相关系统:ELN (LIMS,实验室物质登记系统和执行系统。
- 数据可视化:能够为人类提供相关的分析数据集和机器使用。
结论
随着机构寻求自动化各种实验“操作”和各种各样的数据量生成的规模只会继续增加。利益相关者负责实现,最终利用数据科学应该仔细考虑如何最好地解释这种(增加)体积和各种分析数据集。
关于作者:安德鲁·安德森是创新和信息战略副总裁在ACD /实验室
广告