我们已经更新了隐私政策为了更清楚地说明我们如何使用您的个人资料。

我们使用cookie为您提供更好的体验。你可参阅我们的饼干的政策在这里。

广告

生命科学中的数据挑战

数据分析和存储越来越成为整个生命科学实验室的主要关注点。数据管理的时间、成本和复杂性已经超过了数据生成的成本和速度,成为主要的瓶颈。所有这些都给科学家们带来了重大挑战,因为科学家们的工作就是弄清楚这一切。在这里,我们总结了科学家目前面临的7个最大的数据挑战。


储存起来


与几年前的尖端系统相比,现代实验室设备产生的数据要多几个数量级。从测序数据到化学结构信息,数据密集型仪器、方法、应用和监管要求不断增加。


考虑到这一点,基因组学研究每天产生的数据量每7个月翻一番这些原始数据需要昂贵的高端计算来处理,并引入了数据存储的挑战。传统的物理存储解决方案通常是首选的,但价格昂贵且体积庞大。云存储正在获得吸引力,但即使在信息减少方面取得了进步,数据归档的成本仍然昂贵。而且,由于许多行业在严格的监管下工作,仅仅存储所需的数据通常是不够的。相反,大量的数据和元数据必须安全保存数年,以保证完全的可重复性。


数据标准化


现代科学依赖于一种综合的方法,将庞大的专家团队和他们可以从世界各地获得的资源聚集在一起。这种合作的方法使研究人员能够解决巨大的项目,但也带来了巨大的挑战。不同的仪器产生不同的数据,不同的科学家以不同的方式记录数据。如果没有标准化,像记录病人是“女性”还是“F”这样简单的事情都可能使数据分析成为不可能。现在,将这种小的不一致性扩展到所需的所有数据,比如药物批准申请——潜在的异质性是巨大的!


由于缺乏标准化的数据格式、标识符和松散的内部数据标准,这些问题更加严重。我们不能忘记这样一个事实,即许多实验室仍在缓慢地进入21世纪,将他们的数据记录系统从传统的纸质系统过渡到数字世界。


数据的可用性


在任何给定的项目中,你可以让cro、协调员、科学家、患者和其他大量的人生成数据——所有这些都可能是你研究的关键。当你准备审核,对你的研究方向做出重大决定或整理出版物时,这就会带来挑战。您如何确保所需要的所有数据都是可用的?


可能所有这些数据都被锁定在由多人管理的多个系统中。简单地说,你的数据到处都是!看看这个例子,10万个基因组计划的目标是在短短5年内对10万个人类基因组进行测序。13个区域卫生服务集团正在做出贡献,由数千名卫生保健专业人员组成,他们依赖多个合作伙伴进行测序、分析和存储。从这里很容易看出,有这么多人参与,数据的可用性如何成为一个巨大的挑战。


缺乏数据所有权


考虑一下,谁最终对您的公司或实验室产生的数据负责?许多实验室都面临着使用他们能找到的最新数据的问题,因为根本没有人了解如何确保最相关的数据可用。这个人还需要确信来自多个来源的数据是准确和可靠的。如果放任不管,你根本不可能知道你的结果是否有价值。


所有权也自然地与IP以及数据是否应该开放访问联系在一起。科学界对自由分享数据的态度大相径庭。在某些领域,比如基因组学,数据共享是完全正常的。许多研究人员实时分享他们的发现,任何人都可以访问!不幸的是,这些开放领域通常没有正式协议,导致缺乏技术基础设施或支持。其他社区则在bet188真人数据可访问性方面苦苦挣扎,将其屏蔽在付费墙之后,或者干脆不共享所有数据。许多人认为这直接阻碍了科学的进步——这种争论不太可能很快消失!


安全


科学界在数据安全方面面临着若干重大挑战。由于电子数据是任何组织最有价值的资产之一,必须对未经授权的访问进行管理。还必须遵守日益严格的有关隐私法和数据可追溯性的规定问题是,如何在协商这些问题的同时,培养一种协作的方法,并促进数据的可访问性?


这无疑是科学界需要解决的一个挑战。到目前为止,影响有限。但是,2013年的一项研究表明,使用易于获取的“去识别”基因组数据以及家谱数据库和公共记录,可以重新识别研究参与者。考虑到这些数据可能被用于身份盗窃、勒索、有针对性的健康营销,甚至根据你易患的疾病来提高你的保险,这很可怕!


缺乏生物信息学家

许多人认为,吸引科学家进入生物信息学领域的努力多年来一直没有得到重视。这可能是最大的挑战,找到有技能和经验的人从原始数据中得到结果。一个明显的问题是历史上缺乏一个明确的生物信息学家的职业道路。在不断发展的多学科项目中,为分享他们的技能提供奖励,科学界还有很长的路要走。在过去的十年中,许多研究所已经启动了核心生物信息学设施,以加强他们有限的数据专业知识。但是,即使有这些中心设施,新的挑战也会出现。例如,一个小组发现,在18个月的时间里,79%的技术应用在不到20%的项目上从本质上讲,这意味着大多数研究人员来到生物信息学团队寻找完全定制的分析。


缺乏明确的工作范围、职业道路和有吸引力的奖励,似乎都导致了世界各地生物信息学职位空缺的数量不断增加。看来我们得从头来过了!


从噪音中分类


到目前为止,您已经克服了我们提出的所有挑战,您的数据已经就绪。但是从哪里开始呢?在一大堆乱七八糟的数据中,你需要确定对你的特定目标来说什么是重要的。问题是,在你看到它之前,通常很难定义你在寻找什么。所以,你要从嘈杂的数据中挖掘出相关的内容。同样重要的是要记住,对你没用的数据可能对其他人来说是关键任务。此外,在许多领域,实验学家生成新数据的速度比生物信息学家做出明智预测的速度还要快


让我们看一个例子,扫描电子显微镜研究一立方毫米的脑组织产生大约2000兆兆字节的数据科学家可能只想研究样本组织中的一种特定结构。非常耗时,而且有很多出错的空间。特别是当生物信息学家被称为事后的帮助,所以不参与实验设计。


有了这些想法,就很容易理解为什么大数据已经成为科学研究中最普遍的问题之一。而且,如果技术没有重大发展,我们对整个行业数据的看法也没有更大的改变,情况只会变得更糟。


参考文献


1.斯蒂芬斯,郑东,李世勇,法格里,F.,坎贝尔,R. H.,翟,C.,埃夫隆,M. J.,……Robinson, g.e.(2015)。大数据:天文数据还是基因组数据?科学通报,13(7),e1002195。


2.Helvey, T., Mack, R., Avula, S., & Flook, P.(2004)。生命科学研究中的数据安全。今日药物发现:生物硅,2(3),97-103。


3.Gymrek, M., McGuire, a.l., Golan, D., Halperin, E.和Erlich, Y., 2013。通过姓氏推断识别个人基因组。《科学》,37(6),第41 - 44页。


4.自然杂志第520卷,第7546期,评论文章。核心服务:奖励生物信息学家。可在http://www.nature.com/news/core-services-reward-bioinformaticians-1.17251#/unique(2017年4月23日访问)。


5.富勒,J. C.,库伊里,P.,丁克尔,H.,福斯隆德,K.,斯塔马塔基斯,A.,巴里,J.,……Rajput, a.m.(2013)。生物信息学面临的最大挑战。EMBO报告,14(4),302-304。

与作者见面
杰克拉德
杰克拉德
主编
广告
Baidu