7数据在生命科学领域的挑战
数据分析和存储日益成为整个生命科学实验室的一个主要担忧。时间、成本和数据管理的复杂性已经超过数据生成的成本和速度作为主要的瓶颈。所有这些给科学家们带来重大挑战的工作就是把所有的都弄懂。这里我们汇集7最大的数据科学家现在所面临的挑战。
存储起来
现代实验室设备生产订单的大小比尖端系统更多的数据仅仅几年前。从测序数据化学结构信息,有一个不断增长的数据密集型仪器、方法、应用程序和监管要求。
考虑这一点,每天的数据量是由基因组研究是每7个月翻一番。1这个原始数据需要昂贵的高端计算过程,介绍了数据存储的挑战。传统的物理存储解决方案通常是首选,但昂贵和笨重。云存储中站稳脚跟,但即使减少信息的进步,数据归档的成本仍然可以是昂贵的。,许多行业工作严密的规定通常是不够的你需要简单地存储数据。相反,大量的数据和元数据必须保持多年来安全地保证完整的再现性。
数据标准化
现代科学取决于一个集成的方法,齐心协力庞大的专家团队和他们获得的资源来自世界各地。这种合作方式允许研究人员应对巨大的项目,但也引入了巨大的挑战。不同的仪器产生不同的数据以不同的方式和不同的科学家记录数据。没有标准化,这样简单的事情你是否记录病人如“女性”或简单的“F”可以使数据分析是不可能的。现在,这种规模小不一致在所有所需的数据使类似药物的批准程序——以外的异质性的潜力是巨大的!
这些问题只是加剧了缺乏标准化的数据格式,标识符和松散的内部数据标准。我们不能忘记这样一个事实,许多实验室仍然进展缓慢进入21世纪,转变他们的数据记录系统从传统的纸质系统到数字世界。
可用性的数据
在任何给定的项目,你可以横,协调员,科学家、病人和一大堆人生成数据——所有这些可能是你的研究的关键。这提出的挑战,当你你准备审计,做重大决定前,你的研究方向或齐心协力出版。你怎么能确定你需要的所有数据是可用的吗?
机会是所有这些数据,至今仍被关在多个系统由多个人管理。简单地说,你的数据是得到处都是!看看这个例子中,100000人基因组计划旨在100000年人类基因组序列在短短5年。13个地区卫生服务组织的贡献,由成千上万的卫生保健专业人员依赖于多个合作伙伴测序,分析和存储。从这里不难看出,很多人参与,数据的可用性成为一个巨大的挑战。
缺乏数据所有权
认为这是最终负责你们公司或实验室产生的数据?许多实验室面临着用他们能找到的最新数据与理解,以确保没有一个最相关的数据可用。那个人也需要自信来自多个数据源的数据准确、可靠。置之不理,它是不可能知道你的结果是什么都值得。
所有权也自然联系到IP和是否应该开放存取数据。态度自由共享数据变化在科学界广泛。在某些领域,如基因组学、数据共享完全是正常的。实时与许多研究人员分享他们的发现,任何人都可以!不幸的是,往往没有正式协议在这些开放的领域,导致缺乏技术基础设施或支持。其他社区的斗bet188真人争与数据的可访问性、屏蔽付费墙后面还是没有分享这一切。许多人认为,这个直接抑制科学的进步与发展,认为不太可能很快消失!
安全
科学界在数据安全面临着一些重大挑战。电子数据是任何组织的最有价值的资产之一,未经授权的访问必须进行管理。日益严格的法规隐私法和数据可追溯性也必须坚持。2问题是,你怎么能协商这些问题同时培养协作的方法和促进可访问性的数据?
这当然是科学界需要解决的挑战。到目前为止有影响有限。但是,2013年的一项研究表明,有可能再识别研究参与者使用方便的“消除识别信息”基因组数据与系谱数据库和公共记录。3可怕的考虑,这些数据可以用于身份盗窃、敲诈,有针对性的医疗营销甚至飘起你的保险基于疾病你倾向于!
缺乏bioinformaticians
许多人认为,努力吸引科学家到生物信息学under-prioritised多年。导致可能的最大挑战,找到有技能和经验的人从原始数据得到结果。一个明显的问题是历史bioinformatician缺乏定义的职业道路。科学界仍有很长的路要走在提供奖励分享他们的技能在一个不断变化的多学科项目的范围。在过去的十年里许多机构都推出了核心生物信息学工具来支撑他们的有限的数据专业知识。但是,即使这些核心设施,新的挑战出现。例如,一个小组发现,在18个月期间79%的技术应用到少于20%的项目。4从本质上讲,这意味着大多数研究人员来到了生物信息学小组寻找完全定制,定制的分析。
缺乏明确的工作职责,职业道路和有吸引力的回报似乎都有助于世界各地日益增长的数量的空缺生物信息学的位置。看来我们需要回到绘图板上这个!
整理的噪音
你克服所有的困难,我们提出了到目前为止,你的数据是好的。但是从哪里开始呢?在你大堆乱七八糟的数据需要确定什么对你是重要的特定的目标。问题是,通常很难定义什么你正在寻找在你看到它。所以,去挖掘你嘈杂的数据试图发现什么相关。同样重要的是要记住,这是无用的数据你可能是别人的关键任务。此外,在许多领域,实验可以生成新的数据的速度比bioinformaticians能够作出合理的预测
让我们来看一个例子,一个一立方毫米的扫描电镜研究脑组织产生大约2000 tb的数据。5一个科学家可能只想研究样本内一个特定的结构组织。非常耗费时间和许多容易出错的地方。特别是在帮助bioinformatician称为事后也没有参与实验设计。
与所有的头脑,很容易看到为什么大数据已成为跨科学研究最普遍的问题之一。没有一些严重的技术的发展和更大的改变我们思考方式数据整个行业,这是一个只会变得更糟。
引用
1。斯蒂芬斯,z D。李,美国Y。Faghri F。坎贝尔,r . H。翟,C。埃夫隆,m . J。,……&罗宾逊,g . e . (2015)。大数据:天文或基因组?。公共科学图书馆杂志,13 (7),e1002195。
2。Helvey, T。麦克,R。、Avula年代。&福,p (2004)。在生命科学研究中数据安全。今天药物发现:BIOSILICO 2 (3), 97 - 103。
3所示。Gymrek, M。McGuire, A.L.戈兰高地,D。Y,霍尔柏林,大肠和埃利希。,2013年。识别个人基因组姓推理。科学,339 (6117),pp.321 - 324。
4所示。自然卷520年发行7546,评论文章。核心服务:Bioinformaticians奖励。可以在http://www.nature.com/news/core -服务-奖励- bioinformaticians - 1.17251 # /独特(2017年4月23日通过)。
5。Fuller, j . C。Khoueiry, P。、斯佩耳特小麦H。Forslund, K。Stamatakis A。巴里,J。,……&拉其普特人,a . m . (2013)。生物信息学中最大的挑战。EMBO报道,14 (4),302 - 304。