我们已经更新了隐私政策以更清楚地说明我们如何使用您的个人资料。

我们使用cookies是为了给您提供更好的体验。你可以阅读我们的饼干的政策在这里。

广告

生命科学中的数据挑战

数据分析和存储日益成为生命科学实验室关注的主要问题。数据管理的时间、成本和复杂性已经超过了数据生成的成本和速度,成为主要的瓶颈。所有这些都给科学家们带来了巨大的挑战,他们的工作就是弄清楚这一切。在这里,我们汇集了科学家目前面临的7个最大的数据挑战。


把它全部储存起来


与几年前的尖端系统相比,现代实验室设备产生的数据要多出数量级。从测序数据到化学结构信息,数据密集型仪器、方法、应用和监管要求不断增加。


考虑到这一点,基因组学研究每天产生的数据量每7个月翻一番这些原始数据需要昂贵的高端计算来处理,并且引入了数据存储的挑战。传统的物理存储解决方案通常是首选,但价格昂贵且体积庞大。云存储正在获得动力,但即使在信息减少方面取得进展,数据归档的成本仍然很昂贵。而且,由于许多行业都在严格的监管下工作,仅仅存储所需的数据往往是不够的。相反,大量的数据和元数据必须安全保存多年,以保证完全的可再现性。


数据标准化


现代科学依赖于一种综合的方法,将庞大的专家团队和他们可以从世界各地获得的资源聚集在一起。这种合作的方法使研究人员能够解决巨大的项目,但也带来了巨大的挑战。不同的仪器产生不同的数据,不同的科学家用不同的方式记录数据。如果没有标准化,一些简单的事情,比如你是把一个病人记录为“女性”还是仅仅是“F”,就可能使数据分析变得不可能。现在,将这种小的不一致性扩展到制作药物批准申请等所需的所有数据中——异质性的潜力是巨大的!


这些问题由于缺乏标准化的数据格式、标识符和松散的内部数据标准而变得更加复杂。我们不能忘记的事实是,许多实验室仍在缓慢地进入21世纪,将他们的数据记录系统从传统的纸质系统过渡到数字世界。


数据的可用性


在任何给定的项目中,你可能有cro、协调员、科学家、患者和一大堆其他人生成数据——所有这些都可能是你研究的关键。当你准备审核时,当你对你的研究方向做出重大决定时,这就给你带来了挑战。如何确保所需的所有数据都可用?


很可能所有这些数据都被锁定在由多个人员管理的多个系统中。简单地说,您的数据到处都是!看看这个例子,100,000基因组计划的目标是在短短5年内对100,000个人类基因组进行测序。由数千名卫生保健专业人员组成的13个区域卫生服务小组正在作出贡献,他们随后依靠多个合作伙伴进行测序、分析和储存。从这里可以很容易地看出,有这么多人参与其中,数据的可用性如何成为一个巨大的挑战。


缺乏数据所有权


考虑一下,谁最终对你的公司或实验室产生的数据负责?许多实验室都面临着使用他们能找到的最新数据的问题,因为根本没有人了解如何确保最相关的数据可用。这个人还需要确信来自多个来源的数据是准确可靠的。如果不加以检查,就不可能知道你的结果是否有价值。


所有权也自然地与知识产权和数据是否应该开放获取联系在一起。科学界对自由共享数据的态度差异很大。在一些领域,比如基因组学,数据共享是完全正常的。许多研究人员实时分享他们的发现,任何人都可以访问!不幸的是,在这些开放领域中往往没有正式的协议,导致缺乏技术基础设施或支持。其他社区则在bet188真人数据可访问性方面苦苦挣扎,将其屏蔽在付费墙后,或者干脆不分享所有数据。许多人认为,这直接阻碍了科学进步——这种观点不太可能在短期内消失!


安全


科学界在数据安全方面面临着几个重大挑战。由于电子数据是任何组织最宝贵的资产之一,因此必须管理未经授权的访问。还必须遵守有关隐私法和数据可追溯性的日益严格的规定问题是,如何在促进协作方法和促进数据可访问性的同时解决这些问题?


这当然是科学界需要解决的一个挑战。到目前为止,影响有限。但是,2013年的一项研究表明,利用易于获取的“去识别”基因组数据以及家谱数据库和公共记录,重新识别研究参与者是可能的。考虑到这些数据可能被用于身份盗窃、勒索、有针对性的健康营销,甚至根据你易患的疾病提高你的保险价格,这真是太可怕了!


缺少生物信息学家

许多人认为,吸引科学家进入生物信息学领域的努力多年来一直没有得到重视。这可能是最大的挑战,找到有技能和经验的人从原始数据中得到结果。一个明显的问题是,生物信息学家历来缺乏明确的职业道路。科学界在为在不断发展的多学科项目中分享他们的技能提供奖励方面还有很长的路要走。在过去的十年中,许多研究所已经启动了核心生物信息学设施,以加强他们有限的数据专业知识。但是,即使有了这些中心设施,新的挑战也会出现。例如,一个小组发现,在18个月的时间里,79%的技术应用于不到20%的项目从本质上讲,这意味着大多数研究人员来到生物信息学团队寻找完全定制的、定制的分析。


缺乏明确的工作范围、职业道路和有吸引力的报酬似乎都是导致世界各地生物信息学职位空缺数量不断增加的原因。看来这次我们得从头开始了!


整理噪音


那么,您已经克服了目前为止我们提出的所有挑战,您的数据也可以使用了。但是从哪里开始呢?在一大堆杂乱无章的数据中,你需要确定哪些对你的具体目标是重要的。问题是,在你看到它之前,通常很难确定你在寻找什么。所以,你可以从嘈杂的数据中挖掘出相关的信息。同样重要的是要记住,对您无用的数据可能对其他人至关重要。此外,在许多领域,实验学家生成新数据的速度比生物信息学家做出明智预测的速度还要快


让我们看一个例子,扫描电子显微镜研究一立方毫米的脑组织产生大约2000tb的数据科学家可能只想研究样本组织中的一种特定结构。非常耗时,而且有很多出错的空间。特别是当生物信息学家被叫来作为事后的想法时,他们不参与实验设计。


有了这些想法,就很容易理解为什么大数据已经成为科学研究中最普遍的问题之一。而且,如果没有技术上的重大发展,以及我们对整个行业数据的看法没有更大的改变,这种情况只会变得更糟。


参考文献


1.Stephens, Z. D, Lee, S. Y., Faghri, F., Campbell, R. H., Zhai, C., Efron, M. J.,…& Robinson, g.e.(2015)。大数据:天文数据还是基因组数据?中国生物医学工程学报,2013(7),391 - 391。


2.Helvey, T., Mack, R., Avula, S., & Flook, P.(2004)。生命科学研究中的数据安全。现代药物发现:生物化学,2(3),97-103。


3.Gymrek, M., McGuire, a.l., Golan, D., Halperin, E.和Erlich, Y., 2013。通过姓氏推断识别个人基因组。科学,339(6117),pp.321-324。


4.《自然》520卷,7546期,评论文章。核心服务:奖励生物信息学家。可在http://www.nature.com/news/core-services-reward-bioinformaticians-1.17251#/unique获得(2017年4月23日访问)。


5.Fuller, j.c., houeiry, P., Dinkel, H., Forslund, K., Stamatakis, A., Barry, J.,…& Rajput, a.m.(2013)。生物信息学面临的最大挑战。EMBO报告,14(4),302-304。

认识作者
广告
Baidu