第一个完整的人类基因组序列是出版
3月31日是科学界的一个关键时刻,作为第一个“无缝”发表的人类基因组序列。
人类基因的历史
在1990年代,研究人员开始了一项任务,将重塑科研永远的风景:人类基因组计划(HGP)。的项目的目标——协调由美国能源部和国家卫生研究院——包括:
- 确定所有的基因在人类DNA
- 确定序列的30亿化学构成人类DNA碱基对
- 存储的信息
- 提高数据分析工具
- 相关技术转移到私人部门
- 解决社会、伦理和法律问题,可能承担项目的结果
最初预期的15年(1990 - 2005),加速了HGP的进步新一代测序技术在2003年,导致其早期完成。
分子生物学见解和新的测序技术产生直接和间接计画的结果改变了科学研究、医学和社会更普遍。在个性化医疗现在,医生可以开定制,有针对性的治疗方案基于独特的DNA组成的癌症患者的肿瘤。在农业,农民可以获得基因组信息及时对农作物和动物。这有助于提高选育程序之前依赖于跨代明显观察表型变化。各种各样的大规模genome-based“大项目”正在世界的不同角落,等我们的研究项目和地球BioGenome项目——名字几个例子。所有这些进步和更多的存在,因为计画的成功。
遗传学家教授理查德·吉布斯提供最贴切的总结项目的全球影响人类基因组计划改变了一切:“今天是不可想象的,我们就不会基因组在我们的指尖,”他写道。
一个不完整的图片
2003年宣布计画完成时,它不是“技术”完成;相反,它是尽我们最大的能力完成。
“计约92%的人类基因组序列。剩下的序列在本质上是复杂的和必需的技术进步没有,”解释道埃文为基因组科学教授,华盛顿大学医学院和霍华德休斯医学研究所的研究员。
剩下的百分之八包含高度重复序列的DNA“读取”在2000年代初,由于技术、细胞系和计算的局限性。考虑人类基因组的惊人的大小:估计有30亿个碱基对。大量的信息的过程。因此,门店需要DNA方法切成块。这些块放大(复制),重组和匹配到正确的顺序使用计算方法来创建更大的序列。如果序列包含许多重复的元素,匹配过程将变得非常困难。比作拼凑一个拼图的一些片段是相同的。你怎么知道哪些拼图就在更大的照片吗?
繁重的技术限制,再加上一个不完整的了解未知的基因可以负责,导致部分序列在2003年完成。“因为这百分之八的基因组并不丰富的基因,许多科学家都不感兴趣所需的额外的努力来完成它,”为补充道。
因此,“失踪”百分之八的基因组被戏称为“黑暗”基因组,或由一些“垃圾”DNA。但为和他的许多同行没有看到垃圾;他们看到潜在的宝藏。
为过去20年的研究一直致力于这一行的询问和解决序列。DNA在此期间,他和其他世界各地的研究人员已经证明,在这个“未知”领土谎言重要监管元素,其他基因组宝石。
重复的元素,如移动基因组,因此被称为“跳跃基因”。功能影响,这种运动可以有需要进一步的理解,因为它可能导致人类疾病和演化。“我们的基因组的重复区域最具活力,因此他们在很短的时间内变异非常快。我推测,这些地区是基因组热点贡献不成比例的人类疾病与进化,”为说。
来源:国家人类基因组研究所。
没有更多的未知
由于其概念为计画的一部分,人类基因组——被称为标准的参考38岁的基因组参考财团建立或GRCh38-不断更新,关闭一些“差距”的基因,我们的知识。但它没有完全完成,直到现在。
为是大协作——的一部分Telomere-to-Telomere T2T财团——成功整个人类基因组测序,包括“失踪”百分之八。新的参考基因组,这叫做T2T-CHM13,可以通过访问加州大学圣克鲁斯UCSC基因组浏览器通过一系列的讨论和论文发表在杂志上科学。
T2T财团为首教授凯伦多边投资担保机构副主任,加州大学圣克鲁斯UCSC基因组研究所亚当Phillippy博士基因组信息学部分主管和高级调查员计算和统计国家人类基因组研究所基因组学分支。
这关键时刻在基因组学是如何成为可能?
成功完成T2T-CHM13成为可能是由于几个因素,T2T团队解释。
在2000年代,科学家们思考如何克服障碍当全基因组的测序。我们的基因组携带两套染色体,一个来自母亲,一个来自父亲。当DNA序列切成小块和展品,序列我们继承母亲或父亲可以混,这使得它很难识别跨基因组变异。为解释说:“大规模的差异你父母的染色体-尤其是在重复很难解决,因为有时你两者之间切换,创造差异。”
为有了一个主意。如果研究者关注的一个基因组,而不是导航的父系和母系基因在同一时间吗?2004年,他转向Urvashi Surti教授、生殖遗传学家和实验室主任匹兹堡大学医学院的。Surti正与一个特定的细胞系,有趣的是,两个的副本的DNA,和所有的产妇DNA,称为葡萄胎。
“我是项目的三位领导人之一凯伦多边投资担保机构和亚当Phillippy。我最初提出Urvashi Surti早在2004年,测序葡萄胎(父亲的材料)将大大简化完成人类基因组,”为说。
葡萄胎是什么?
的葡萄胎通常发生在一个卵母细胞缺乏一个活跃的原子核是由精子受精后的重复的染色体。
”只关注一个我们发现任何差异,我们知道代表一个不同的地区,这一基因组大会期间帮助我们从犯错。在二倍体基因组难以区分来自父母和变异的等位变异与重复区域,”为解释道。”一位家长,通过消除我们知道任何差异我们发现是真实必须对应一个不同的(重复区域)[…)当Urvashi同意与我建立基因组资源工作早在2004年,这是一个激动人心的时刻,因为我知道的资源将使我们能够解决任何地区的基因组[…]换句话说,每个重复区域原则上可以解决。”
为属性的能力这个细胞株组装完整的基因组和基因测序技术的进步,比如读测序。
读测序,有时被称为“第三代测序”,不同于门店“削减”DNA的方法分成小块。相反,读测序技术可以实时序列单个DNA分子,通常没有放大,使长DNA链的阅读通常在10000 - 100000个碱基对长度。对于这个工作,研究小组使用两种不同类型的读排序,一个能够阅读到的100万个碱基对一读,适度的准确性,和另一个可以用几乎完美的20000个碱基对序列的准确性。
“我是一个读测序和早期采用者显示它的潜力更精确地描述大型重复”,为说。到2017年,多边投资担保机构和Phillippy利用读大的DNA序列的测序。现在发生的研究团队,细胞株和新颖的排序功能,是时间去面对“失踪”基因组的百分之八。所以,T2T财团——顾名思义,每个染色体测序,端粒,端粒。
没有更多的“头脑”的差距
一旦可用的完整基因组,T2T人员仔细看看它每个组件发现可以看看小说。为总结了“关键缺口”是由T2T-CHM13 GRCh38相比:
- 第一序列的核糖体DNA (rDNA)从近端着丝,着丝粒卫星和重复基因现在可用
- 我们现在有一个完整的基因组改善发现的变异和更复杂的变化我们再交换数据这个复杂的基因组
- 蓝图如何顺序和装配其他基因组完全在未来现在存在由于项目
为实验室主要集中在组装和表征的重复区域和标识的新基因在前面“失踪”的地区,他解释说:“大部分的新基因复制家庭,生成的数据是用来描述基因。”
访问完整的基因组还帮助研究人员识别复杂区域的变异。“一个人可能有10一个特定基因的副本,而另一些则可能只有1或2。这种变化可以带来麻烦在受精,当染色体从爸爸妈妈排队和交换。不匹配的基因可能导致基因改变的“地震”,“为说。这些新发现的区域包含在GRCh38将进一步了解疾病易感性的关键,人类的快速进化,他强调:“我们是解决遗传疾病病例以前错过了因为我们发现更复杂的形式的变化。”
在加州,多边投资担保机构和同事的工作集中在卫星DNA。
是什么卫星脱氧核糖核酸吗?
很长一段DNA,这段DNA包含许多重复的短单位。卫星位于基因组内的非常具体的点,如某些染色体的短臂和近着丝粒。
着丝粒染色体分离是重要的细胞分裂,这一过程被成为功能失调在许多人类疾病,如癌症。“我们从来没有能够序列在序列水平,”多边投资担保机构在一份新闻稿中说。“第一次,我们可以研究“作为”序列,定义着丝粒和可以开始理解它是如何工作的。”
一个多样化的人类基因组参考
T2T-CHM13现在已经完成,但T2T财团的工作还远未结束。为解释说,下一步将是对二倍体生物,重复项目。,父亲和母亲的基因组进行了分析。“我们接近实现这一目标,”他提示。一旦完成,它将被应用到全球理解人类基因组的多样性,也应用于患者样本。
T2T还联手人类Pangenome参考财团,旨在开发一种新型的人类pangenome参考使用的完整基因组序列创建350人。这项工作与增加要求基因组研究更加多样化。
随着DNA分析继续通知越来越多的临床医学,如果利用参考基因组遗传风险评估不考虑多样化的人口,全球卫生差距可能会扩大。“前所未有的基因组测序研究的规模和范围的增加,迫切需要一种改进的参考,可以获取额外的独特序列不同的人群中流行,”写年代黄等人在向一个参考基因组,抓住全球遗传多样性。
让我们不再称之为“垃圾”
花了两倍的时间完成丢失8%的人类基因组序列的第一个92%一样。这些努力没有白费,方法开发的团队提供了一个蓝图病人基因组将如何在未来的特征。为说:“T2T基因组将意味着更完整的变异的发现,和改进的理解和遗传性疾病的诊断。”这个项目已确认为整个T2T财团的怀疑,一旦“失踪”区域的基因组遗传荒地,他们对生命至关重要。“种族隔离的染色体着丝粒卫星是必要的在细胞分裂过程中,rDNA对细胞产生蛋白质在细胞至关重要。节段重复基因区分我们和黑猩猩和编码的一些基因,为构建一个更大的大脑至关重要。从本质上讲,序列对生命至关重要,使我们人类,”结束前为说:“我们不叫它‘垃圾’了。”
埃文教授为莫莉坎贝尔说,高级科学技术网络作家。188金宝搏备用