本体是什么,他们是如何创建一个更公平的未来生命科学吗?
近年来,药物发现已经指明了新课程目标精确治疗,当我们进入的年龄niche-buster药物——即。疾病,药物针对供不应求的亚种群和个性化医疗。倡议100000人基因组计划和精密医学项目提供一个令人兴奋的一瞥有针对性的方法如何促进病人的结果,以及提高我们的整体对人类生物学的理解。同时,这些项目强调精密医学的成功将取决于企业能够利用庞大的数量和各种数据,包括出版文学、专有和实验数据,以及病人和医疗记录。
人工智能(AI)生命科学公司提供一个有吸引力的选择从复杂多变的数据中提取知识,和许多正在探索如何技术可以加速他们的研究计划。但有一个重要的警告——很多今天的数据没有AI-ready。孤立的数据并存储在无数与足够的元数据格式,使得它难以检索、分析和共享。这意味着许多人设置自己的失败如果喂养人工智能模型的数据不高质量、信任和机器可读的。因此,人工智能的一个关键前提是让数据公平(可发现的,可,可互操作、可重用)。这就是本体进入画面。
本体是什么?
知识本体是人为的,机器可读的描述,可以是一个重要的工具在数据的大数据挑战公平。然而,专家圈子外,几乎没有对科学的理解,本体可以带来商业价值,甚至意识到它们的存在,这只会阻碍成功的数据项目。
一般来说,本体描述“类型”的东西(也称为类)以及它们之间的关系。例如,一个“蛋”是一种“食物”。我们可能会有亚型根据鸡蛋是如何准备的——例如,炸、炒、水煮。可能的类文本定义,人类可以使用理解类包含,以及同义词和其他类之间的关系。例如“鸡蛋”来源于“母鸡”。同义词可以有助于理解不同的方式由一个本体类的东西可以代表。在生命科学领域,一个例子是不同的方式来引用一个基因,如PSEN1,这也可以PSNL1或Presenilin-1。
本体努力成为社会共识的领域,不断发展和更新最新与我们对世界的理解。许多在生物医学领域存在的本体是公开和维护社区,例如人类表型本体(HPO)或基因本体论(去)。所以,如果一个新的同义词PSEN1发现,这个领域的专家——遗传学家更新本体合并。在生命科学、人类生物学专业知识是必不可少的,远比我们的鸡蛋更复杂的类比。生物医学本体将驱动算法在药物发现和交付将作出重要决定诊断或药物病人应该接受,因此它是至关重要的,他们是准确的。
本体FAIRify如何克服大数据挑战?
生命科学公司目前面临双重挑战:FAIRifying遗留数据,确保新生成的数据也是公平的。规划数据与特定领域的本体通过结构化数据有助于克服这些挑战,蜱虫公平盒子。
非结构化的遗留数据构成持续的组织成本和错失的机会。太多的时间被浪费在寻找和清洁数据重用。这种生产力损失反过来减缓了上市时间和ROI。此外,潜在有价值的科学见解仍是模糊信息时不带注释的和有组织的。元数据在哪里它可能并不总是一致的,有空吗往往是缺乏标准或通用术语应用整个组织。很容易发现,这样可以防止数据集成和重用的科学家。
复合遗留数据的挑战,新生成的数据往往是不被抓获FAIR-compliant的方式。这可能会导致85%的研究仅仅是浪费了由于缺乏数据标准。确保数据是“公平”从出生在防止他们成为至关重要的一部分,大量的遗留数据公司已经竞争。例如,数据进入电子笔记本(eln)通常自由文本,使这些数据在未来很难搜索。一个解决方案,这可能是聪明的数据输入,科学家使用例如ontology-powered类型输入分析信息时,这些数据规范化与本体的入口点。
本体为惟一标识符提供相关的名称和同义词可以帮助科学规范化的语言——有时被称为“事情不是字符串”。与这些标识符标记数据更容易搜索和分析对于科学家而言,它包括结果包含同义词或相关条款相关的本体认识到作为搜索查询。此外,由于本体是基于一个公认的社会模型,提出了数据的方式被广泛理解,减少实例的数量竞争使用术语。
至关重要的是,本体确保机器可读数据,协调他们与人工智能和机器学习进行分析。本体数据结构化,公司可以确定他们的算法学习信息的全貌,减少错误的风险,提高结果的准确性。
案例研究:一个古老的用例使今天的数据相关
正确的专业知识,可以应用于任何遗留数据本体。最近的一个项目标记文本有关中药(TCM)开放为现代生物医学科学家利用新的资源。中医是越来越感兴趣,预计国内价值上升到1070亿美元到2025年。领域都有古文本与众多拼写、同义词、翻译和符号,多种方式指的是同样的药。
研究人员用他们的专业领域构建本体,联系中国传统和现代英语语言对化合物的名称让研究人员了解特定中药的成分的化合物。本体做出了数以百计的古代资源公平和被用于功率算法,将使开发创新药物的使用知识古老的药物。这只是一个例子,演示了本体不仅是提高生产力的方法,但真正对医学发展的影响。
部署人工智能,是时候来部署本体
如果您的组织希望利用人工智能驱动精密治疗突破,是时候开始您的数据。这样做不仅会加速研发,但还将推动业务价值——欧盟估计没有公平的数据成本超过€102亿每年。公平的实现解锁的长期潜力数据,使更快和更详细的分析。业务,有严重的生产率增长。和最重要的利益相关者——病人有新的路径识别为了创造新的靶向治疗和更好的结果。
本体将这种转变的中心,de-siloing、规范和协调数据来源不稳定的文本和图像转换成数据,发现。学习如何启动你的本体项目,看这个空间本系列的第二篇文章。