7个利用大数据力量的项目

Listicle

发布日期:2017年8月31日

杰克拉德

大数据。这句话似乎无处不在。在生产、管理和分析方面，许多领域的科学家都是大数据的早期采用者。全球实验室的仪器和设备快速生成大量复杂的科学数据，推动了这一举措。更小、更容易获得的仪器能够产生大量的数据。这让一些人担心，这种数据泛滥可能会失控，使人们难以找到相关数据，难以得出解决问题的有意义的模式和见解。但是，大数据在现实世界中意味着什么呢?谁在生成这些数据?重要的是，他们在用它做什么?

本榜单汇集了7个利用大数据力量解决科学大问题的大型项目。

1.广泛的基因组学

布罗德研究所的研究人员每天生成约20tb的序列数据1(大致相当于66亿条推文或3300部高清长片)。这使他们成为世界上最大的人类基因组信息生产者。迄今为止，他们已经处理了来自50个县1400多个群体的150多万份样本2。作为博德的核心实验室之一，举世闻名的张实验室率先开发和应用了CRISPR-Cas9和CRISPR-Cpf13。为了支持这样的突破性项目，博德聘请了一个专门的LIMS和分析小组，他们开发和维护定制软件和现成解决方案的定制组合。在多年依赖内部存储之后，远大与谷歌合作，利用(基本上无限的)谷歌云平台。从这里开始，他们利用内部开发的基于java的开源工具，包括他们的基因组分析工具包和用于数据处理和分析的Picard。

2.雀巢-食品安全与质量检测

对于全球最大的食品公司雀巢来说，大数据是一个大问题。盖伊·波比教授在去年的“食品工业的未来”演讲中解释说，该公司每年进行大约1亿次分析测试。这相当于在工厂层面每天进行约20万次测试，在区域实验室每天进行约1万次安全测试8。进行测试是为了验证出厂的每一批产品都符合内部和外部标准，包括使用的材料、操作环境和产品本身中的有害化合物或微生物。仅区域实验室就有950多人，其中包括30名小组和区域专家，他们在世界各国的25个ISO认证实验室工作9。自2015年以来，雀巢参与了一项运动，旨在改善像雀巢这样的公司与英国食品安全局等监管机构之间的大数据共享，使数据挖掘能够跟踪新出现的食品安全问题。

3.阿斯利康-测序200万个基因组

去年，阿斯利康(AstraZeneca)发起了一项大规模行动，在未来10年里汇编200万人的基因组序列和健康记录。该公司创新药物项目执行副总裁梅内拉斯•潘加洛斯(Menelas Pangalos)表示，这将耗资“数亿美元”。他接着解释说，单是这个项目就能产生大约5pb的数据，“如果你把5pb的数据放在dvd上，它将是310米高的伦敦碎片大厦高度的4倍”。其中大部分数据将由他们的合作伙伴人类长寿公司(Human Longevity)生产和管理，该公司的最终目标是对1000万个人类基因组进行测序，并将其与医疗记录配对。在改进的生物信息学的支持下，该项目的目的是识别与疾病和治疗反应相关的罕见基因序列。

4.EMBL-EBI骄傲档案

PRoteomics identiizations (PRIDE)数据库是一个集中的、符合标准的、用于蛋白质组学数据的公共数据存储库，包括蛋白质和肽鉴定、翻译后修饰和支持光谱证据。EMBL-EBI蛋白质组学团队负责人Juan Antonio Vizcaino在多特蒙德举行的ISAS 2016上发言时，描述了该档案是如何由来自50多个国家的4000多个数据集组成的，包括1700多个小组的数据11。当时这个数据库是EMBL负责的众多数据库之一，包含超过560,000个文件，占用225tb的存储空间。每个月大约有150个新数据集提交，这个速度只会越来越快11。更困难的是，超过一半的数据库是公开的，用户每年下载价值200tb的数据11。目前，EMBL-EBI由20 Gbit互联网连接，>40,000个CPU核心供电，并可访问70 pb的存储12。像PRIDE这样的数据库通过使研究人员能够访问、下载和构建先前发表的数据，在绘制人类蛋白质组图谱方面发挥着关键作用。目前的项目集中于识别大约75%的光谱，这些光谱通常在任何蛋白质组质谱实验中都未被识别13。

5.人脑计划

HBP旗舰项目由欧盟委员会的未来和新兴技术(FET)计划于2013年10月启动，计划运行10年14。该项目旨在建立一个基于协作信息通信技术的科学研究基础设施，使欧洲各地的研究人员能够推进神经科学、计算和脑相关医学领域的知识。这个项目的核心数据是通过将人类大脑切成几千个60微米厚的切片，并使用3D偏光成像扫描产生的。然后，这些扫描结果被收集在一起，创建单个神经纤维的3D数字重建，最终将在更大的范围内结合，生成人脑的数字地图。每个切片产生大约40gb的数据，相当于整个大脑的几pb原始数据15。

该项目依赖于四个高性能计算基础设施。其中之一，HBP海量数据分析超级计算机Cineca，在峰值性能下提供2 Petaflop/s的计算能力和200tb的主存，集成了超过5pb工作空间的大容量存储设施。该系统还将与另一个数据设施集成，提供额外5pb的在线磁盘存储库和10pb的长期数据保存。该服务的架构经过精心设计，可扩展到数百万个文件和pb的数据，兼具健壮性和多功能性。

6.基因组数据共享

基因组数据共享(GDC)是一个促进研究人员之间基因组和临床数据共享的统一数据系统。GDC是美国国家癌症研究所(NCI)的一项倡议，是美国国家癌症登月计划和总统精准医疗计划(PMI)的核心组成部分，并受益于分配给NCI的7000万美元，作为肿瘤PMI的一部分，用于领导癌症基因组学方面的工作。GDC旨在集中、标准化和可访问的大型NCI项目的数据，如癌症基因组图谱(TCGA)及其儿科对等物，产生有效治疗的治疗应用研究(TARGET)18,19。TCGA和TARGET共同代表了世界上最大、最全面的癌症基因组数据集，包含超过2pb的数据(1pb相当于223,000张dvd满容量的数据)。

除此之外，GDC的任务是创建标准化的数据提交流程，确保数据质量，协调大型基因组数据集，并提供安全的数据访问。此外，还启动了三个癌症基因组云(CGC)试点项目，为癌症研究人员提供基因组数据，并利用云的弹性计算能力。这消除了研究人员下载pb级数据的需要，也减少了这种下载所需的高昂成本和时间。云试点还允许研究人员利用托管的尖端分析管道或将他们自己的工具带到云中。通过学术界、政府和私营企业之间的合作与协作，GDC以及从CGC试点项目中获得的技术和经验教训将继续加强癌症数据的民主化，并进一步实现NCI的使命。

7.瑞士生物信息学研究所- VITAL-IT

SIB瑞士生物信息学研究所(SIB)成立于18年前，旨在促进数据科学的卓越发展，以支持生物研究和健康的进展21。由分布在瑞士各地的60个小组的750名科学家组成，他们为全球生命科学研究界提供和维护150多个高质量的数据库和软件平台。在SIB内部，一个名为VITAL-IT的较小小组负责提供数据存储和分析方面的专业知识22。在过去的5年里，这个小组处理了超过75个研究项目，涉及从生态学到药效学等广泛的主题。迄今为止，该小组参与了90多份出版物。

为了实现这一目标，VITAL-IT利用位于五个不同站点的7000个cpu和7.5 pb存储23。他们利用这一基础设施每周存档大约30tb的原始测序、成像、血清分型和行为数据。除此之外，他们还负责存档分析这些数据的结果，这通常相当于每周额外的120tb数据。这一切都是为了让多达90万名科学家能够高速访问他们的所有数据，并在未来验证他们的数据存储，以便在未来几十年都能可靠地访问23。

由:

参考文献

1.广泛的研究所。科学数据。可在https://www.broadinstitute.org/data-sciences(2017年8月25日访问)。

2.广泛的研究所。基因组学。可在https://www.broadinstitute.org/genomics(2017年8月25日访问)。

3.广泛的研究所。张实验室-重点领域。可在https://www.broadinstitute.org/zhang-lab/areas-focus(2017年8月25日访问)。

4.广泛的研究所。LIMS和分析。可在https://www.broadinstitute.org/genomics/lims-and-analytics(2017年8月25日访问)。

5.广泛的研究所。基因组分析工具包。可在https://software.broadinstitute.org/gatk/(2017年8月25日访问)。

6.广泛的研究所。皮卡德。可在https://broadinstitute.github.io/picard/(2017年8月25日访问)。

7.《福布斯》。Nestlé是世界上最大的食品和饮料公司。可在https://www.forbes.com/pictures/gimf45klj/nestle-tops-the-list-of/#70bb04924398(2017年8月25日访问)。

8.雀巢。Nestlé如何确保食品安全:我们的全球标准。可在http://www.nestle.com/asset-library/documents/about_us/ask-nestle/nestle-ensures-safe-food-lead.pdf(2017年8月25日访问)。

9.雀巢。食品安全Nestlé结合了远见、警惕和协调标准。可在http://www.nestle.com/asset-library/documents/investors/nis-2013-vevey/john-obrien-randd-food-safety.pdf(2017年8月25日访问)。

10.莱德福德，H.(2016)。阿斯利康启动200万个基因组测序项目。自然杂志，532(7600)，427。

11.EMBL -欧洲生物信息学研究所。蛋白质组学和“大数据”趋势:挑战和新的可能性(多特蒙德ISAS会议上的演讲)。可在https://www.slideshare.net/JuanAntonioVizcaino/proteomics-and-the-big-data-trend-challenges-and-new-possibilitites-talk-at-isas-dortmund(2017年8月25日访问)。

12.EMBL-EBI。欧洲生物信息学研究所的欧洲基因组表型档案。可在https://www.turing-gateway.cam.ac.uk/sites/default/files/asset/doc/1609/Helen-parkinson.pdf(2017年8月25日访问)。

13.格里斯，J.，佩雷斯-里弗尔，Y.，刘易斯，S.，塔布，D. L.，戴安斯，J. A.，德尔-托罗，N.……王锐(2016)。通过数百个鸟枪蛋白质组学数据集识别数百万个一致未识别的光谱。自然学报，13(8)，651-656。

14.人脑计划-概述。可在https://www.humanbrainproject.eu/en/science/overview/ *(2017年8月25日访问)。

15.光谱。人类大脑计划重启:大脑搜索引擎在望。可在http://spectrum.ieee.org/computing/hardware/the-human-brain-project-reboots-a-search-engine-for-the-brain-is-in-sight(2017年8月25日访问)。

16.Cineca。可在https://www.cineca.it/en(2017年8月25日访问)。

17.国家癌症研究所-基因组数据共享。可在https://gdc.cancer.gov/(2017年8月25日访问)。

18.国家癌症研究所-癌症基因组图谱。可在https://cancergenome.nih.gov/(2017年8月25日访问)。

19.国家癌症研究所-目标:产生有效治疗的治疗应用研究。可在https://ocg.cancer.gov/programs/target(2017年8月25日访问)。

20.国家癌症研究所生物医学信息与信息技术中心。NCI云资源。可在https://cbiit.nci.nih.gov/ncip/cloudresources(2017年8月25日访问)。

21.瑞士生物信息学研究所。可在http://www.sib.swiss/(2017年8月25日访问)。

22.生命信息技术-生物信息学和计算生物学能力中心。可在https://www.vital-it.ch/services(2017年8月25日访问)。

23.光明的谈话-数据几十年:长期管理生物信息学在SIB。可在https://www.brighttalk.com/webcast/13139/186673/data-for-decades-managing-bioinformatics-for-the-long-term-at-sib(2017年8月25日访问)。