我们已经更新我们的隐私政策使它更加清晰我们如何使用您的个人资料。

我们使用cookie来提供更好的体验。你可以阅读我们的饼干的政策在这里。

广告

7项目利用大数据的力量

大数据。似乎这句话无处不在。科学家在许多领域较早采用了大数据的生产、管理和分析。此举推动了大型和复杂的科学数据的快速生成由全球实验室仪器和设备。更小、更容易获得工具能够产生大量的数据。离开有些担心这海量数据可能升级失控,使它很难找到相关数据,得出有意义的模式和见解,解决这个问题。但是,现实世界中的大数据是什么意思?生产所有的数据是谁?重要的是,他们在干什么?


这个列表汇集了7巨大的项目,是利用大数据的力量来解决大问题的科学。


1。广泛的基因组学


Broad研究所研究人员20 tb的序列数据生成的顺序每俊(大致相当于超过66亿条或3300高清长篇电影)。这使得它们的最大生产国,世界上的人类基因组信息。到目前为止,他们已经处理150万多在50 counties2样本超过1400组。在广泛的核心实验室之一,世界著名的实验室,是开拓CRISPR-Cas9和CRISPR-Cpf13的开发和应用。支持这样的开创性的项目,广泛采用专用LIMS和分析组织开发和维护一个定制的定制软件和现成的solutions4。经过多年的取决于内部存储,广泛与谷歌合作,利用谷歌云平台(本质上是无限的)。从这里,他们利用开源java工具,内部开发,包括他们的基因组分析工具箱,为数据处理和analysis5皮卡德,6。


2。雀巢食品安全和质量测试


世界上最大的食品公司,雀巢公司大数据是一个巨大的翻译。在“食品工业的未来”家伙罂粟教授解释说,去年该公司进行每年大约1亿的分析测试。这相当于每天约200000测试在工厂层面和大约10000名安全结果每day8区域实验室进行。测试进行验证每批每个产品离开工厂符合内部和外部的标准,包括有害化合物或微生物在他们使用的材料,他们操作的环境,在产品本身。区域实验室仅是由超过950人包括30组和地区专家工作在整个world9 25个ISO认证实验室国家。自2015年以来雀巢卷入一场运动来提高本身这样的大公司之间的数据共享和监管机构金融服务管理局,使数据挖掘来跟踪新兴食品安全问题。


3所示。阿斯利康- 200万的基因组测序


去年阿斯利康发动了大规模的努力,编译基因组序列和从未来decade10二百万人健康记录。Menelas潘加洛斯执行副总裁,该公司的创新药物计划声称这将花“数亿美元”。他接着解释说,这个项目就会产生大约5 pb的数据说,“如果你把5 pb dvd,这将是四倍的高度310米高的伦敦碎片”。这些数据将由他们的合作伙伴,生产和管理人类长寿的最终目标是1000万年人类基因组序列,对医疗记录。采用改进的生物信息学,这个项目的目的是识别罕见的基因序列与疾病和治疗反应相关。


4所示。EMBL-EBI——骄傲存档


蛋白质组学识别(骄傲)数据库是一个中央集权的标准兼容,公众对蛋白质组学的数据存储库数据,包括蛋白质和肽识别、转录后修饰和支持光谱证据。在2016年开设个人储蓄账户,多特蒙德,胡安·安东尼奥·防御率,蛋白质组组长EMBL-EBI描述了档案是由50多个国家的4000多个数据集,包括超过1700 groups11产生的数据。这一个数据库的时候,许多之一EMBL负责,包括超过560000个文件占用225字节的存储空间。大约150每月提交新的数据集,速度,只会把。的挑战,超过一半的公开数据库,用户下载每一year11价值200 tb的数据。目前,EMBL-EBI是由20 Gbit网络连接,> 40000 CPU核心和访问70 pb的storage12。骄傲等数据库中扮演关键角色映射人类蛋白质组通过支持研究人员访问、下载和建立在先前发表的数据。当前项目专注于光谱的识别约75%,通常在任何蛋白质质量规范experiment13不明。


5。人类大脑计划


HBP旗舰店是由欧盟委员会发起的未来和新兴技术(场效应晶体管)计划2013年10月,并将运行十years14。该项目旨在建立一个协作信息通信技术——基于科研基础设施允许研究者在欧洲神经科学领域的知识,计算和大脑相关药品。燃料的核心数据这个项目是由人类的大脑切成几千60微米厚的部分,使用3 d偏振光成像扫描它们。这些扫描然后聚集在一起来创建一个3 d数字重建个人神经纤维最终将结合在大范围内产生一个数字地图的人类大脑。每个片产生大约40 g的数据相当于整个brain15几拍的原始数据。


该项目依赖于四个高性能计算基础设施。其中之一,Cineca HBP大规模数据分析的超级计算机,提供2 Petaflop / s计算能力的峰值性能和200字节的内存,结合大量存储设备超过5 pb的工作空间。这个系统也将与另一个数据集成设施提供额外的5 pb在线磁盘存储库和进一步10 pb preservation16长期数据。服务的架构都是被仔细设计以规模数以百万计的文件和pb的数据,加入鲁棒性和多功能性。


6。NCI -基因组数据共享


基因组数据共享(环球数码创意),是一个统一的数据系统,促进researchers17之间基因组和临床数据的共享。国家癌症研究所(NCI)的倡议,国家癌症的环球数码创意是一个核心组件月球探测器和总统的精密医学倡议(PMI),从7000万美元和福利分配给国家领导努力在癌症基因组学作为肿瘤的PMI的一部分。环球数码创意旨在集中、标准化和大规模的NCI的访问数据项目如癌症基因组图谱(TCGA)及其儿科,治疗适用于研究生成有效的治疗(目标)18、19。一起,TCGA和目标代表了一些世界上最大的和最全面的癌症基因组数据集,由两个以上的pb的数据(相当于223000张dvd 1 pb装满数据)。


除此之外,环球数码创意一直肩负着创造一个标准化的数据提交过程,确保数据质量,协调大型基因组数据集,并提供安全的数据访问。三个癌症基因组学云(公司治理文化)的飞行员也推出了为癌症研究人员提供对基因组数据的访问和利用cloud20的弹性计算能力。这消除了需要研究人员下载pb的数据,这样下载所需的高昂成本和时间。云的飞行员也允许研究人员利用托管尖端分析管道或自带工具到云上。通过合作和协作之间的内部和学术界、政府和私营行业,环球数码创意以及公司治理文化飞行员的技术和经验教训将继续加强癌症数据,进一步的民主化NCI的使命。


7所示。瑞士生物信息学研究所——通过它


SIB瑞士生物信息学研究所(SIB),建立了18年前,旨在培养卓越科学数据支持生物研究的进展和health21。由750名科学家在60组分散在瑞士他们供应和维护150多个高质量的数据库和软件平台为全球生命科学研究社区。在SIB,一个较小的组织通过它负责提供数据存储和analysis22方面的专长。过去5年这组处理超过75个研究项目大量的话题从生态学药效学。导致该组织参与超过90的出版物。


为了达到这个目标,通过它利用7000 cpu和7.5 pb级的存储,坐落在五个不同的sites23。他们利用这个基础设施档案大约30 tb的原始测序,每周成像、血清学分型和行为数据。除此之外,然后负责归档的结果分析这类数据通常相当于每周增加120 tb的数据。这都是进行同时启用高速访问所有数据,900000名科学家和未来防他们的数据存储,这样就可以可靠地访问come23几十年。


由:



引用


1。广泛的研究所。科学数据。可以在https://www.broadinstitute.org/data-sciences(2017年8月25日)访问。


2。广泛的研究所。基因组学。可以在https://www.broadinstitute.org/genomics(2017年8月25日)访问。


3所示。广泛的研究所。张实验室领域的焦点。可以在https://www.broadinstitute.org/zhang-lab/areas-focus(2017年8月25日)访问。


4所示。广泛的研究所。LIMS和分析。可以在https://www.broadinstitute.org/genomics/lims-and-analytics(2017年8月25日)访问。


5。广泛的研究所。基因组分析工具。可以在https://software.broadinstitute.org/gatk/(2017年8月25日)访问。


6。广泛的研究所。皮卡德。可以在https://broadinstitute.github。io /皮卡德(2017年8月25日通过)。


7所示。《福布斯》。雀巢公司位列榜首的世界上最大的食品和饮料公司。可以在https://www.forbes.com/pictures/gimf45klj/nestle-tops-the-list-of/ # 70 bb04924398(2017年8月25日通过)。


8。雀巢。雀巢公司如何确保食品安全:我们的全球标准。可以在http://www.nestle.com/asset-library/documents/about_us/ask-nestle/nestle-ensures-safe-food-lead.pdf(2017年8月25日)访问。


9。雀巢。食品安全在雀巢结合远见,警惕和统一标准。可以在http://www.nestle.com/asset library/documents/investors/nis - 2013 - vevey/john obrien randd -食物- safety.pdf(2017年8月25日通过)。


10。Ledford, h (2016)。阿斯利康发射200万基因组测序项目。自然,532 (7600),427。


11。EMBL——欧洲生物信息学研究所。蛋白质组学与“大数据”的趋势:挑战和新的可能性(在开设个人储蓄账户,多特蒙德的讲话)。可以在https://www.slideshare.net/JuanAntonioVizcaino/proteomics-and-the-big-data-trend-challenges-and-new-possibilitites-talk-at-isas-dortmund(2017年8月25日)访问。


12。EMBL-EBI。欧洲的欧洲生物信息学研究所基因组现象学存档。可以在https://www.turing-gateway.cam.ac.uk/sites/default/files/asset/doc/1609/Helen-parkinson.pdf(2017年8月25日)访问。


13。偶联,J。Perez-Riverol, Y。刘易斯,S。泰伯,d . L。黛安娜,j . A。del toro, N。,……r & Wang (2016)。认识到成千上万猎枪持续不明的光谱在蛋白质组学数据集。自然方法,13 (8),651 - 656。


14。人类大脑计划概述。可以在https://www.humanbrainproject.eu/en/science/overview/ *(2017年8月25日通过)。


15。光谱。人类的大脑项目重新启动:搜索引擎对大脑在望。可以在http://spectrum.ieee.org/computing/hardware/the-human-brain-project-reboots-a-search-engine-for-the-brain-is-in-sight(2017年8月25日通过)。


16。Cineca。可以在https://www.cineca.it/en(2017年8月25日通过)。


17所示。国家癌症研究所-基因组数据共享。可以在https://gdc.cancer.gov/(2017年8月25日通过)。


18岁。国家癌症研究所癌症基因组图谱。可以在https://cancergenome.nih.gov/(2017年8月25日通过)。


19所示。国家癌症研究所-目标:治疗研究适用于生成有效的治疗方法。可以在https://ocg.cancer.gov/programs/target(2017年8月25日通过)。


20.国家癌症研究所-生物医学信息学与信息技术中心。NCI云资源。可以在https://cbiit.nci.nih.gov/ncip/cloudresources(2017年8月25日访问)。


21。瑞士生物信息学研究所。可以在http://www.sib.swiss/(2017年8月25日通过)。


22。通过它在生物信息学和计算生物学——能力中心。可以在https://www.vital-it.ch/services(2017年8月25日通过)。


23。明亮的谈话——几十年来数据:SIB长期生物信息学总经理。可以在https://www.brighttalk.com/webcast/13139/186673/data-for-decades-managing-bioinformatics-for-the-long-term-at-sib(2017年8月25日通过)。

满足作者
杰克拉德
杰克拉德
主编
广告
Baidu