达尔文的生命之树项目将有一个“变革效应”对我们了解地球上的生命

文章

发表:2020年1月6日

莫莉坎贝尔

图片由卢卡斯Szmigiel Unsplash。

希望这篇文章的一个免费的PDF版本吗?

完成下面的表格,我们将电子邮件您的PDF版本“达尔文的生命之树项目将有一个“变革效应”我们对地球上的生命的理解”

名字*

姓*

电子邮件地址*

国家*

公司类型*

工作职能*

你愿意接受进一步的电子邮件通信技术网络吗?188金宝搏备用

听与

喋喋不休地说

0:00

注册免费听这篇文章

谢谢你！听这篇文章使用上面的球员。✖

阅读时间:

达尔文的生命之树(DToL)项目是全球倡议的一部分序列所有复杂的地球上的生命,被称为地球BioGenome项目。DToL项目将所有60000个真核生物的基因组序列在不列颠群岛,以更好地理解DNA转化为生活的多样性。

威康桑格研究所领导的项目,是一个共同努力,将汇集各种机构、资助机构、大学、博物馆和园艺组织。一旦可用,从项目收集的数据将会使研究人员在全球范围内开放访问和利用在他们自己的研究。

188金宝搏备用最近采访了Fergal马丁,脊椎动物注释协调员EMBL的欧洲生物信息学研究所(EMBL-EBI)想要了解更多关于这个项目的发展,其目标和面临的挑战,60000年测序的生物。

莫莉·坎贝尔(MC):“第六次大灭绝”是什么?

Fergal马丁(FM):这是一个正在进行的跨物种的大量灭绝模式可以与人类活动有关。大规模森林砍伐、破坏珊瑚礁,污染水平的提高,人类对气候变化的影响和世界总体上是其他物种灭绝的速度加速。其他的物种大灭绝一般都与深刻的地质事件,而这可以联系的直接和间接的行动主要是为了一个物种,我们。

主持人:请您能告诉我们关于达尔文生命之树的发展项目?涉及的是谁?

FM:DToL项目领导的威康桑格研究所。我们的角色在EMBL-EBI是双重的。首先,我们想使基因组序列,结果从项目免费提供到我们的数据库,欧洲核苷酸存档(ENA)。ENA将永久记录的数据,以便任何人都能找到并分析这些基因组从他们完成许多年后。

我们的第二个重要贡献是通过的项目运用,这是我们的网上公共资源为那些希望分析整个基因组。分析的运用提供了一个收集原始基因组序列(称为“注释”),以及通过我们的基因组浏览器的数据可视化方法和编程访问数据通过我们的应用程序编程接口。

作为注释过程的一部分,运用计算至关重要的信息,比如基因所在的地方,他们的结构是什么,如何比较不同物种的基因组序列。这些分析有助于快捷下游科学研究人员我们可以运行在一周的空间分析,将较小的研究小组数月甚至数年才能完成。这样我们可以使研究团体迅速开始问基于数据复杂的科学问题。

除了EMBL-EBI和威康桑格研究所项目的其他合作伙伴包括领先的研究机构和大学(厄研究所海洋生物学协会,普利茅斯,剑桥大学,爱丁堡大学,埃克塞特大学、牛津大学),国家集合(自然历史博物馆、皇家植物园、丘,皇家植物园,爱丁堡),宣传和参与组织(连接科学)和资助机构(Wellcome BBSRC)。它真的是一个令人印象深刻的合作!

主持人:项目的主要目标是什么?

FM:这个项目的目标是重建所有60000种真核物种的基因组在英国和爱尔兰这些数据免费提供给任何人有兴趣,从公众公民科学家,进化生物学家。这是一个关键的全球努力的一部分地球上所有生命的基因组序列,将形成一个无与伦比的资源科学。

确保数据是公开和快速基因组功能注释,ENA和运用是再造他们的基础流程尽可能有效和可伸缩的。帮助我们达到项目的总体目标,我们的目标是创建一个平滑的、高效的数据流在未来几年数据生产者可以立即通过ENA的原始数据和运用。从那里,基因组数据将注释和发布到社区在尽可能短的时间内。

主持人:哪些技术使这个项目成为现实?

FM:许多因素使项目成为可能,包括基因组测序技术,显著改善大型测序成本的减少,新算法更高效和有效地有效地无限通过云计算。

在EMBL-EBI我们一直致力于改善我们的基础设施的项目的规模DToL好几年了。一个很好的例子是运用基因注释管道,将一个物种的DNA序列,然后计算出隐藏在它的位置和结构基因。不久以前发现的基因是一个集中手动过程。需要有人为三到六个月找到全职工作在一个物种的基因。现在是一个人可以花5分钟为10种配置注释管道返回的结果几周之后。

实现这样一个根本性转变吞吐量我们必须重建整个管道。分析了每个组件是多么有用,多少可以并行,如何提高错误宽容,如何最好地副工作部署到集群计算。

如果我们想点燃所有的汽缸在这一点上,我们有更多的能力在这些基因组注释的基因比他们目前的生产。那就是说,我们也认识到有很多需要改进的地方和DToL链的其他部分一样,我们需要持续发展,不断优化和自动化达到项目的最终目标。

主持人:该项目将收集、识别和提取和大约60000个物种的DNA和RNA序列在英国和爱尔兰。在这个过程中你会遇到怎样的挑战?

FM:有很多挑战,将会出现在这个项目。这包括从如何样本,提取和跟踪DNA如何有效地分析数据可视化和现在的结果返回给公众。

EMBL-EBI,我们最大的挑战来自于数据分析方面。由于生产这些基因组,我们如何确保我们注释基因组功能的方式尽可能准确和高效?这本身是一个挑战。很容易迅速做的不好,但这不是非常有用的研究社区如果结果是错误的,需要重新计算。同样,制造一个完美的结果也不是有用的如果需要我们一年完成每个物种。所以,我们总是看如何最好地平衡速度与准确性。

另一个挑战是跟踪所有的发展是一个快速变化的领域。除了更新和提高自己的软件和管道我们也花时间分析第三方解决方案是否适合集成到我们的流程。

我们所做的最后一个主要方面是如何优化我们的工作为不同物种数据分析代码。底层的不同物种的DNA可以在出人意料的方式不同。例如,蝾螈可以有超过10倍的DNA作为人类,鸟类基因组的重复DNA,而哺乳动物很少有很多重复和小麦相比有许多份染色体在人类的两个副本。所有这些差异,在底层数据方面,可能会打破我们的管道或使他们更高效地运行。为了应对这一问题,我们总是试图更好地理解底层生物为了使我们的软件和管道更健壮。

主持人:将数据从项目公开在生物学研究中可以重用,保护,生物技术。你希望什么样的应用程序的数据将会在这些空间?

FM:之前我想动用领域潜在的应用程序是很重要的欣赏是多么大的差距在我们的知识将由这样的一个项目。迄今为止,大约有一万真核基因组数字化重建并存入公共档案。这些质量差异极大,许多老一辈的基因组被不能有效地使用任何类型的详细的科学分析。如果我们只考虑现有高质量的基因组,我们所说的绝对是生成至少一个数量级创建高质量的基因组比过去20年左右。仅此一项就将从根本上改变我们如何理解生物科学的多个领域。

潜在的应用而言,我们知道,可能有很多很多,我们才意识到项目正在有条不紊地进行中。从生态的角度看,我们将能够序列和分析所有物种在英国和爱尔兰。结果,我们会有一个无与伦比的窗口所有生态系统。

一个很好的例子就是Wytham树林。这是维护和牛津大学的研究自1942年以来,有超过500种植物和800种飞蛾和蝴蝶(在许多其他事情)。已经有一个巨大的生态记录Wytham森林,由于DToL,我们将能够把这个记录与真核基因组完整记录整个生态系统。这样只是从未做过的。我们真的可以得到一个洞察一个生态系统在分子层面的动力。可以帮助我们理解任何基因组机制都与一个物种是否繁荣的挣扎,最终导致决策,帮助改善保护实践在个体水平的物种和生态系统本身的水平。

另外两个字段,将大大受益于这些数据是比较基因组学和生物进化。更多物种我们有高质量的基因组序列,我们更多的权力在定义这些物种之间的差异的关键。如果我们看到一个物种有一些我们不懂的小说的能力,能够把它比作其他物种能真正帮助隔离的部分基因组产生新鲜感。同样的,如果我们想要重建基因或基因组的进化历史,拥有尽可能多的物种的数据使我们能够更好地理解如何进化,他们看起来像灭绝祖先物种,甚至在未来如何发展。

我们获得更多的信息在这方面更好的我们能够了解细微的差别导致生物的结果。这将是极有价值的行业,如医药和生物技术。经常出现的一个关键问题是如何适用的实验在一个非人类生物模型是人类当翻译。我们就越能理解的模式生物模型和我们自己之间的差异,这些差异如何更好的我们可以模型影响的实验结果。例如牲畜和庄稼,我们可能能够获得洞察影响产量和抗性基因将有助于确保未来粮食安全。很可能突破农业基因组学将节省尽可能多的如果不是比基因组医学在未来更多的生命。

关闭在应用程序,当人类基因组计划(HGP)成立,这将是公平地说,没有人确定最终的整体结果将是什么方面的翻译是一个非常大的和昂贵的科学努力变成实实在在的真实世界的应用程序。现在我们可以说HGP基本上改变了我们对人类健康的理解。我毫不怀疑,DToL项目,以及其他全球测序的努力,会有一个更深刻的变革影响我们对地球上的生命的理解。EMBL-EBI我们希望帮助确保这些数据快速处理和提出研究团体,这样我们可以看到现实世界应用程序尽快出现。

EMBL-EBI Fergal马丁,脊椎动物注释协调员,与莫莉坎贝尔说,科普作家、技术网络。188金宝搏备用

应用科学

应用科学

达尔文的生命之树项目将有一个“变革效应”对我们了解地球上的生命