我们已经更新我们的隐私政策使它更加清晰我们如何使用您的个人资料。

我们使用cookie来提供更好的体验。你可以阅读我们的饼干的政策在这里。

广告

使生物测定数据更容易检索和共享

信贷:Pixabay

想要一个免费的PDF版本的这个行业洞察力?

完成下面的表格,我们将电子邮件您的PDF版本“生物测定数据容易获取和分享”

听与
喋喋不休地说
0:00
注册免费听这篇文章
谢谢你!听这篇文章使用上面的球员。
阅读时间:

检索和共享生物测定数据可以是一个困难和耗时的过程,研究人员将生成数据的大容量和复杂性,缺乏行业标准和当前的数据模型的局限性。作为努力的一部分,解决这些问题,使更大的数据共享,皮斯托亚联盟最近推出了其DataFAIRy项目的第二阶段。

188金宝搏备用
有幸与弗拉基米尔·马卡洛夫博士说,项目经理皮斯托亚联盟的人工智能和机器学习卓越中心,了解更多关于DataFAIRy项目,其目标和重要性。

安娜·麦克唐纳(AM):你能告诉我们关于的起源和目的DataFAIRy项目吗?

弗拉基米尔·马卡洛夫(VM)博士:
管理和利用非结构化数据在科学研发一直是一个挑战。体积和各种科学数据继续增长,这个问题变得更加复杂。

例如,生物分析协议——“入门”信息中发现的“方法”部分出版物,这构成了分析元数据——代表的数据类型直到最近只在非结构化文本的形式存在。这是一个创新的主要障碍。很难找到,评估和验证试验协议。我们的采访表明,科学家花费很长一段时间- 12周/试验选择和新的实验计划。试验协议变得过时。再现性的研究受到损害。分析元数据也是一个受欢迎的数据类型事后数据挖掘。没有现成的在一个公平的(访问,可发现的可互操作、可重用)格式使这项研究困难。

这就是为什么皮斯托亚联盟DataFAIRy项目开发。我们使用一个“human-in-the-loop”的方法,一个自动化的输出自然语言编程(NLP)引擎是由人类专家审查。结果被用于NLP的持续改进软件。带注释的生物鉴定协议存入PubChem一个重大的公共数据资源,它们是免费的。访问这些信息的科学界将有助于加速新药研发,这样产品,如可以带到市场更快。

问:
公平的指导原则是什么,为什么他们如此重要?

虚拟机:很多
有价值的数据目前孤立的在不同的格式和位置。这使它非常困难和耗时的检索和共享,使其基本上无法使用。公平原则出发来克服这个问题。2016年首次开发、公平标准组织提供指导如何记录和存储信息的生成,因此,它保留了它的价值。

具体来说,有一个强调使机器可读的数据。这意味着计算机可以自动发现和行动相关数据科学家减少负担。使数据公平也提高了它的质量,从而能够更好的实现人工智能(AI)和机器学习(ML)方法整个行业。公平的数据也有助于促进合作通过数据互操作。在过去的一年表明,协作和数字化驾驶突破至关重要。

问:
传统生物测定如何协议数据记录?与此相关的问题是什么?

虚拟机:
像许多类型的实验室数据,分析协议中存在纯文本格式。目前,有130万多个生物试验协议,包括发表论文和长椅上笔记。这些数据大多部分注释在公共数据银行,但这些注释的深度和质量不够好数据用于自动挖掘或适用于回答新业务问题。

对科学家来说,这是一个问题,因为他们必须花时间手动筛选庞大老库的出版物,而不是进行新的研究。寻找信息在特定的实验条件需要广泛,因此昂贵,专家审查。错误分析描述旅行从一个发布到另一个,让研究很难繁殖。一些实验已经知道失败是无意中重复。荟萃分析已经积累的数据也很难。反过来,这些问题最终导致延误发明新药,并最终影响患者长期的。

问:如何DataFAIRy模型自动注释数据?

虚拟机:
我们首先进行了一次广泛的分析一个典型的科学家在制药行业的需求。然后,我们开发了一个基于本体的数据模型,将使一个回答典型的数据挖掘问题。我们在一个NLP的软件应用程序中使用这个模型,允许我们进行专家审查提取的值,然后学会的专家审查。这种“human-in-the-loop”的方法保证高质量输出的注释。目前,我们正在想办法扩大注释过程100倍。它可能需要新的方法来毫升和人类的用户界面设计。

问:科学家模型会带来什么好处呢?项目将如何帮助成功采用人工智能的生命科学吗?

虚拟机:
研究的主要好处是改进质量和再现性,在出版选择和验证的研究方法和分析协议为未来的研究。我们也看到潜在的精简监管意见书。在一起,这意味着科学家的生产力将会上升。这是至关重要的开发新药的成本持续上升。

问:项目的下一步是什么?

虚拟机:
我们有两个主要目标项目的下一阶段。首先,
规模注释过程由10到100倍,从单一数百成千上万的试验协议。其次,开发一个标准的数据模型,基于我们的分析协议,促进它在工业和科学社区。我们希望包括试剂供应商,出版商和知名学者在这一过程中,渴望听到他们。从长远来看,我们的工作将使更大的组织之间的数据共享和帮助科学家应对日益增长的数量和复杂性的数据生成。

弗拉基米尔·马卡洛夫博士是安娜·麦克唐纳,科普作家技术网络。188金宝搏备用

满足作者
安娜·麦克唐纳
安娜·麦克唐纳
科学作家
广告
Baidu