我们已经更新了隐私政策为了更清楚地说明我们如何使用您的个人资料。

我们使用cookie为您提供更好的体验。你可参阅我们的饼干的政策在这里。

广告

使生物测定数据更容易检索和共享

信贷:Pixabay

想要一个免费的PDF版本的这个行业洞察?

填写下面的表格,我们会将PDF版本的“让生物检测数据更容易检索和共享”

188金宝搏备用科技网络有限公司需要您提供给我们的联系信息,以便就我们的产品和服务与您联系。您可以随时退订这些通讯。有关如何退订的信息,以及我们的隐私惯例和保护您隐私的承诺,请查看我们的隐私政策

由于生成的数据量大、复杂、缺乏行业标准和当前数据模型的局限性,检索和共享生物测定数据对研究人员来说是一个困难和耗时的过程。作为努力解决其中一些问题和实现更大的数据共享的一部分皮斯托亚联盟最近启动了DataFAIRy项目的第二阶段。

188金宝搏备用
有幸与皮斯托亚联盟人工智能和机器学习卓越中心的项目经理Vladimir Makarov博士交谈,了解更多关于DataFAIRy项目,其目标和重要性。

安娜·麦克唐纳(AM):你能告诉我们DataFAIRy项目的起源和目标吗?

Vladimir Makarov博士(VM):
管理和利用非结构化数据一直是科研领域面临的挑战。随着科学数据的数量和种类不断增加,这个问题也变得越来越复杂。

例如,生物分析协议——在出版物的“方法”部分中找到的“如何”信息,构成了分析元数据——代表了直到最近还只以非结构化文本形式存在的数据类型。这是创新的主要障碍。很难找到、评估和验证检测方案。我们的访谈显示,科学家花费了很长的时间——每次实验长达12周——来选择和计划新的实验。化验方案已经过时。研究的可重复性受到影响。分析元数据也是一种流行的数据类型事后数据挖掘。如果不能以FAIR(可查找、可访问、可互操作、可重用)的格式随时提供数据,也会使这项研究变得困难。

这就是皮斯托亚联盟开发DataFAIRy项目的原因。我们使用“人在循环”的方法,其中自动自然语言编程(NLP)引擎的输出由人类专家审查。然后将结果用于NLP软件的持续改进。注释的生物测定方案被存入PubChem,这是一个主要的公共数据资源,免费提供。科学界获得这些信息将有助于加快研发,从而更快地将新药等产品推向市场。

问:
公平的指导原则是什么?为什么它们如此重要?

虚拟机:很多
有价值的数据目前被隔离在不同的格式和位置。这使得检索和共享它变得极其困难和耗时——导致它基本上无法使用。公平原则旨在克服这一问题。FAIR标准于2016年首次制定,为组织提供了关于如何记录和存储他们生成的信息的指导,以保持其价值。

具体来说,重点在于使数据具有机器可读性。这意味着计算机可以自动查找和处理相关数据,从而减轻科学家的负担。使数据公平还可以提高其质量,使整个行业能够更好地实施人工智能(AI)和机器学习(ML)方法。FAIR数据还通过使数据可互操作来帮助促进协作。正如过去一年所表明的那样,协作和数字化对于推动突破至关重要。

问:
传统上生物测定方案数据是如何记录的?与此相关的问题是什么?

虚拟机:
像许多类型的实验室数据一样,分析协议以纯文本格式存在。目前,有超过130万份生物分析方案,包括已发表的论文和参考笔记。这些数据大部分都在公共数据库中进行了部分注释,但是这些注释的深度和质量还不足以使这些数据用于自动化挖掘或用于回答新的业务问题。

对于科学家来说,这是一个问题,因为他们必须花时间手动筛选大量的旧出版物,而不是进行新的研究。寻找特定实验条件的信息需要广泛的,因此昂贵的专家评审。分析描述中的错误从一个出版物传播到另一个出版物,使得研究难以重现。一些已知会失败的实验会在无意中重复。对已经积累的数据进行元分析也很困难。反过来,这些问题最终会导致新药发明的延迟,并最终对患者产生长期影响。

AM: DataFAIRy模型将如何自动化数据注释?

虚拟机:
我们首先对制药行业的典型科学家的需求进行了广泛的分析。然后,我们开发了一个基于本体的数据模型,使人们能够回答典型的数据挖掘问题。我们在一个NLP软件应用程序中使用了这个模型,它允许我们对提取的值进行专家评审,然后从专家评审中学习。这种“人在循环”的方法保证了输出注释的高质量。目前,我们正在考虑如何将注释过程扩大到100倍。这可能需要新的方法来进行机器学习和人类用户界面设计。

问:这个模型会给科学家带来什么好处?该项目将如何帮助人工智能在生命科学领域的成功应用?

虚拟机:
主要的好处是提高了研究质量和可重复性,便于发表研究方法以及为未来研究选择和验证化验方案。我们还看到了简化监管提交的潜力。总之,这意味着科学家的生产力将会提高。随着新药研发成本的持续上升,这一点至关重要。

问:这个项目的下一步是什么?

虚拟机:
我们对项目的下一阶段有两个主要目标。首先,
将注释过程扩大10到100倍,从单一的数百个检测协议扩展到数万个检测协议。其次,根据我们的分析方案数据模型制定一个标准,并在业界和科学界推广。我们希望试剂供应商、出版商和主要学者参与这一过程,并渴望听取他们的意见。从长远来看,我们的工作将在组织之间实现更大的数据共享,并帮助科学家应对日益增长的数据量和复杂性。

Vladimir Makarov博士接受了科技网络科学作家Anna MacDonald的采访。188金宝搏备用

与作者见面
安娜·麦克唐纳
安娜·麦克唐纳
科学作家
广告
Baidu