我们已经更新我们的隐私政策使它更加清晰我们如何使用您的个人资料。

我们使用cookie来提供更好的体验。你可以阅读我们的饼干的政策在这里。

广告

我们可以序列世界…然后呢?


希望这篇文章的一个免费的PDF版本吗?

完成下面的表格,我们将电子邮件您的PDF版本“我们可以序列世界…然后呢?”

188金宝搏备用科技网络有限公司需要您提供的联系方式联系你关于我们的产品和服务。你可以随时取消订阅这些通讯。如何取消订阅的信息,以及我们的隐私实践和承诺保护你的隐私,看看我们隐私政策

阅读时间:

地球上大约有870万种,你可能会认为的DNA测序都将需要几十年的时间。根据克努特看看教授,博士,柏林自由大学的,大规模的事业可以使用大约10000在10天之内就可以完成今天最快的DNA测序仪。这是因为测序已经成为快4000倍在过去10至15年。

在相同的时间内,测序已经成为便宜约1000万倍。现在可以测序人类基因组的1000美元的大容量实验室。根据麦肯锡全球研究所,这个价格将下降10在未来十年内的另一个因素。收集基因组数据变得快速、廉价和相对容易。

处理大量基因组数据

更大的挑战将会分析所有数据生成。一项研究估计,1亿年到2025年将有20亿个人基因组测序,生成2 - 40艾字节的数据。埋在所有数据将见解,可能从根本上改变我们对生活的理解,从细胞生物学和疾病机制,药物发现和农业。发现这些见解将需要大量的分析。

看看教授和他的团队正在与英特尔为研究人员和实验室提供新的工具来帮助他们解决这个巨大的分析挑战。因为他们的开创性工作在生物信息学中,柏林自由大学被选为新的英特尔并行计算中心(IPCC)在2015年,教授看看掌舵。从那时起,他的团队一直在努力提高性能的重要基因算法优化代码以更好地利用现代多核多线程处理器。

一个灵活的软件图书馆高速基因组学

一旦看看教授的团队优化算法,他们包SeqAn *, genomics-focused应用程序的开源库。SeqAn不仅优化的算法性能,而且对易用性、可维护性和可移植性在基于标准的硬件环境。他们可以创建复杂的相结合,灵活的分析可以使用管道和他们自由学术和商业组织。

SeqAn的目的是加速基因组学研究和增加使用通过简化管道开发,降低成本,提供数量级和更高的性能收益。已取得良好的进展向这些目标和SeqAn越来越受欢迎了。看看教授表示,它已经在超过300个研究。

为高性能现代化代码

复杂的软件算法已经开发多年来分析基因组数据。这些算法提供了神奇的功能,但一直主要使精确的科学。大多数开发人员遗传学和生物信息学的专家,而不是复杂的硬件和软件问题的计算效率和应用程序吞吐量最大化。因此,性能和可伸缩性问题常常出现在大容量和时序要求严格的环境。持续增加的基因组数据的规模和复杂性增加了这些挑战。

花了这么久的一个原因发生算法优化是它需要跨多个学科的专家完全理解科学、数学、软件和硬件。每个碱基对都很重要当寻找遗传标记,所以软件开发人员必须了解他们的优化工作不仅影响分析的速度,而且结果的准确性和可靠性。在某些情况下,看看教授和他的团队不得不创造新的有效算法的方法,这样可以扩展的代码在大量的线程和核心。

他们的代码优化的努力集中在两个主要策略:向量化和多线程。

更多的性能/核心

今天大多数处理器包括集成支持单指令多数据(SIMD)执行策略。SIMD,单指令同时可以应用到多个数据点,这一过程称为向量处理。


根据算法,向量处理可以显著增加计算的数量可以每个时钟周期执行。硬件支持向量处理继续进步。例如,最新的英特尔至强可伸缩的处理器支持512位向量,与上一代的256位向量。这有效地加倍的最大数量的计算,可以在每个时钟周期内执行。

更多的核心工作负载

二十年前,主流计算机处理器设计处理单个流的软件指令。每个处理器将处理一个又一个软件指令以线性方式。今天,单个处理器可能包括数十名“核心”,每个功能作为一个独立的执行引擎可以处理自己的软件流,或“线程。“通过这种方法,一个处理器可以同时执行几十个甚至几百个同步指令流。


然而,大多数软件代码的目的是作为一个单独的线程运行,这意味着应用程序可以只利用一个处理器核心。提高并行的吞吐量,软件开发人员通常可以连续流的代码分解成多个线程可以并发运行多个处理器核心。软件,有足够的内在并行性,可以使用这个过程来生成代码,可以在现代处理器,利用所有可用的核心服务器和集群。

主流多核服务器处理器,如英特尔至强可伸缩的处理器,包括多达28核心,支持两个并发线程每核心。许多核心处理器,如英特尔®Xeonφ™处理器,提供最多72核和支持每个核4个线程。充分利用这些并行资源可能会对性能产生重大影响。

数量级和更高的性能

向量化和多线程是适合基因组分析的计算需求,依靠一系列的相对简单的计算,在大型数据集进行迭代。增加performance-per-core同时利用更多的内核有乘法的影响,并且可以提供戏剧性的总体性能收益。性能测试日期显示:

  • 大量通过向量化每个核的性能改进。更高的每个核性能显然是表示6148年黄金基准使用最新的英特尔至强处理器(图1)。尽管这些新处理器提供增量增加核心(最多20个核与上一代处理器18),额外的内核不能占1.6 x 2.7 x新处理器提供更高的性能。大部分这些收益可以归因于支持增强的向量。


图1。优化SeqAn代码充分利用先进的矢量支持最新的英特尔®Xeon®黄金6148处理器,这有助于使性能收益高达1.6 x 2.7 x一系列SeqAn工作负载和代英特尔®Xeon处理器e5®- 2697 v4。8


  • 在大量的核近似线性可伸缩性。之前的代码进行优化,SeqAn只在一个线程可以高效运行。基准使用新的优化的代码展示出色的可伸缩性在大量的核心和线程提供的Intel®Xeonφ™处理器7250。运行时下降了多达55 x和当运行在所有68核单核心上运行相同的工作负载(图2)。


图2。优化SeqAn代码还提供了近似线性可伸缩性在大量的核心,显然是在基准测试使用的许多核心英特尔®Xeonφ7250.9™处理器


性能和可伸缩性改进如此大规模的变革,可能减少复杂的基因组分析所需的时间从几天到几分钟。看看教授的软件优化工作重点从代码中提取尽可能多的并行性,因此性能优势将继续增加在未来的处理器代核心密度增加

释放生命的秘密

高性能的优化算法是关键一步处理基因数据的洪流。存在很高的风险。麦肯锡全球研究院估计,下一代基因组有可能影响全球经济以每年高达1.6万亿美元,到2025年,并最终将远远超出了经济学的影响。


我们站在一个转折点能力理解遗传密码及其详细的对植物的影响,动物,人类,人口,甚至整个生态系统。今天的DNA测序技术的进步正在发生与互补的生命科学研究工具的进步,如分子成像和分子动力学(原子和分子相互作用的计算机模拟)。


结合这些技术、快速基因组分析提供了基础的理解,以前所未有的细节,单个基因的作用和在细胞过程的基因的组合。这些进步将深化我们对生活的多种形式,提高我们治愈和形状的能力的生态系统,为精密医学铺平道路,可以适应每个人的独特生理。


性能和基准可以找到的信息http://www.intel.com/performance/datacenter。

引用

  1. 来源:地球上的物种数量标记在870万年,由李Sweetlove,自然,2011年8月23日。https://www.nature.com/news/2011/110823/full/news.2011.498.html
  2. 来源:克努特Reinhert教授的演讲在英特尔HPC开发者大会超级计算2015年12月2日,2015年出版。https://www.youtube.com/watch?v=YVDaQFTeBlwGenerally speaking, there are “107 species on earth with 108 average number of base pairs per genome; therefore, the earth’s genome has 1015 base pairs. 104 Illumina HiSeq sequencers could sequence 1011 base pairs each per day, so they could sequence the earth’s genome at 10x coverage in approximately 10 days.”
  3. 来源:英特尔克努特Reinhert演示教授HPC开发者大会在超级计算2015年12月2日,2015年出版。https://www.youtube.com/watch?v=YVDaQFTeBlw
  4. 来源:英特尔克努特Reinhert演示教授HPC开发者大会在超级计算2015年12月2日,2015年出版。https://www.youtube.com/watch?v=YVDaQFTeBlw
  5. 来源:颠覆性技术:进步将改变生活,商业,和全球经济。麦肯锡全球研究所,2013年5月。
  6. 在大数据来源:基因组研究人员提高报警,由艾丽卡检查海登,自然,2015年7月7日。https://www.nature.com/news/genome -研究人员提高-报警- -大-数据- 1.17912
  7. http://www.fu-berlin.de/en/presse/informationen/fup/2015/fup_15_285-professor-reinert-leitet-intel-parallel-computer-center/index.html
  8. 结果基于局部和全局比对的带状和unbanded细胞Illumina公司读取150个基点(2.85 x 1011 unbanded, 3.21 x 1010带状)。基线配置:2 x英特尔®Xeon处理器e5®- 2697 v4 (2.30 GHz, 18个核)。系统测试:2 x英特尔®Xeon®黄金处理器6148 (2.4 GHz, 20芯)。所有测试使用Linux 3.10.0-514.21.1.el7运行。7.2.0 x86_64, GNU编译器。
  9. 结果基于Pac生物读取全局比对的2.66 x 1013细胞。测试配置:英特尔®Xeonφ7250™处理器(1.4 GHz, 68芯,16 GiBi MCDRAM)。所有的测试运行使用seqan_global, Linux 3.10.0-514.21.1.el7。7.2.0 x86_64, GNU编译器。
  10. 来源:颠覆性技术:进步将改变生活,商业,和全球经济。麦肯锡全球研究所,2013年5月。

本文是作为英特尔的HPC编辑程序的一部分,强调目标的尖端科学研究和创新驱动的HPC社区通过先进的技术。出版商的内容拥有最终的编辑权限,并确定哪些文章发表。

广告
Baidu