我们已经更新了隐私政策为了更清楚地说明我们如何使用您的个人资料。

我们使用cookie为您提供更好的体验。你可参阅我们的饼干的政策在这里。

广告

采用本体以创造更公平科学数据的十大准则

信贷:Pixabay

在一个前一篇文章,我研究了本体如何通过fairi化数据来帮助解决生命科学的一些大数据挑战,使其可发现、可访问、可互操作和可重用。本体论——人工生成的、机器可读的领域模型——可以帮助从创建点就使数据变得公平和可用。这减少了科学家花费在搜索信息上的时间,避免了重复的实验工作,并使数据“机器就绪”,为人工智能和机器学习项目提供动力。

然而,决定在数据管理实践中实现本体可能会令人生畏。它也很难向业务涉众推销,因为ROI通常不是立竿见影的。在本文中,我概述了这些挑战,并为您开启本体之旅提供了10条指导方针。

这是一个商业、文化和科学的挑战

实现任何本体都是一项专门的任务。要成功做到这一点,需要从许多来源整理的数据保持一致的格式、结构和协调。在任何数据密集的领域,这都是一个挑战。但在生命科学领域,这一挑战尤其严峻——数据来源包括已发表的文献、实验数据以及患者和临床记录,其中包括图表和表格、生物医学图像、社交媒体数据和语音记录。

生命科学组织还必须考虑业务和监管需求。公司希望确保任何本体都符合严格的治理流程,并具有健壮的版本控制,以提供可见的审计跟踪,同时还需要一个足够敏捷的系统,以便轻松地进行更改。构建一个能够同时支持这些级别的灵活性和控制的本体网络是困难和耗时的。

此外,越来越多的人要求本体论更加“民主”,允许业务范围内的一系列用户为其开发做出贡献。这扩大了提供本体的知识池,因此它更准确,反映了用户的需求。然而,这需要文化观念的转变-不再“这是我的实验室和我的数据”;而是“这是公司的数据和公平”。

最后,可能也是最关键的挑战是向利益相关者证明本体和FAIR项目的价值。与任何大规模、复杂的项目一样,ROI是中长期的,而本体项目可能在短期内处于风险之中。因此,为了最大化你的本体项目的成功,你需要记住以下10件事:


1. 发现已经存在的东西

在计划一个新项目之前,数据团队应该确定他们的组织中已经使用了哪些本体——是公共本体还是内部创建的定制术语。在现有工作的基础上进行建设,可以加速进展,并提供早期成果,以便向利益相关者展示。

  1. 重建,再利用,再循环

    关于生命科学本体的工作已经进行了几十年,这意味着有一个现有的开源框架可以利用。公共本体,例如是一个很好的起点。使用已经可用的内容作为您自己的本体的基础,是取得切实进展的简单方法。

    1. 找到你的公平拥护者

      我所知道的最成功的公司是那些拥有“公平拥护者”的公司,他们理解上述讨论的挑战。FAIR冠军不必是语义学或数据科学方面的专家,他们需要有毅力,致力于项目,并能够围绕目标和里程碑激发利益相关者的热情。

      4.创建URI策略


      统一资源标识符(uri)应该在任何本体之旅的开始时建立。uri提供了一种在网络上定位和检索资源的方法——类似于web地址url。uri一旦就位就很难更改,因为它们表示实体的唯一ID。从一开始就使用公共URI策略可以减少出错的机会,并提高整个业务的标准化。

      1. 地图很少

        绘制本体论是一项耗时且永无止境的任务,随着我们对生命科学的理解,本体论也在不断发展,目标也在不断变化。尽可能限制映射,每个领域只使用少量的本体(理想情况是一个!),不要在该领域已经使用了本体的情况下引入或创建新的本体。

        6.简化本体选择

        最小化使用的本体数量可以减少必须保持它们同步或在它们之间进行映射的负担。选择公共本体进一步简化了公共数据和私有数据的集成。例如,如果您的领域是疾病,您可能会使用Mondo疾病本体减轻你的工作量。

        1. 从小规模开始,不断迭代

          您不能一次处理所有数据。这需要很长时间才能看到回报,而且这可能是不可能的。从一个用例开始时间-原型,看看什么是有效的,并使用这些学习迭代。化验注册等数据输入项目是一个很好的起点,因为它们已经有了特定的结构。这可以是一个简单的交换,从输入自由文本到从您选择的领域本体的分析下拉列表中进行选择。这使得数据从一开始就是公平的;标准列表确保信息被一致记录、可互操作并便于将来重用。

          1. 不要因为问题的规模而却步

            在开始本体项目之前,组织不需要整个策略的模型。如前所述,迭代成功是关键。例如,整合术语列表并在人们可以贡献的地方集中上传它们,或者从一个您知道已经有相对良好的数据管理的领域开始,可以在此基础上快速显示价值。

            1. 发现业务价值

              任何数据管理的挑战之一是业务价值是中长期的。为了赢得资金并确保项目向前推进,要找到短期影响并将其与业务结果联系起来。例如,说明将本体应用于生物分析创建已经将搜索数据的时间减少了X个小时。或者表明使用本体可以重用以前被隔离的有价值的数据集。切实的结果必须尽早并经常与商业领袖分享。

              1. 授权主题专家

                授权并信任你的主题专家是很重要的。这包括您的数据科学家和领域专家,他们可以为您提供该领域的关系和知识,以正确地开发本体。给他们正确的工具来完成这项工作,并给他们一个切实可行的交付时间框架。


                推动未来创新

                在数据管理中使用本体是推动未来创新的基础。变革的生命科学领导者正在花费时间和资源嵌入稳健的数据实践。他们知道,当科学家能够有效地利用产生的数据时,新发现的道路就会加快。错误的开始、死胡同或在错误的轨道上比他们需要的更常见。这可能会让人失去动力和沮丧。

                缩短药物发现生命周期不仅在股东价值和患者利益方面有价值,还将提高团队的生产力。当科学家们确信他们所追求的道路最终会成功或“很快就会失败”时,他们会更投入。有了正确的策略和专业知识,组织可以使用本体论来确保他们处于新突破的前沿。

                广告
                Baidu