新路线图将不合规则的基因整合到基因组数据库
当研究人员致力于人类基因组计划完全在2001年绘制人类基因蓝图,他们惊讶地发现只有大约20000个基因产生的蛋白质。有没有可能,人类只有两倍的基因作为共同飞呢?科学家们预期的更多。
现在,研究人员从20全球机构汇集超过7200未识别的新蛋白基因片段,潜在的代码。首次研究利用新技术来发现可能的人类蛋白质——详细看具有机械细胞中。这项新研究表明,基因发现的人类基因组计划只是一开始,和研究协会旨在鼓励科学界的数据整合到主要的人类基因组数据库。
这项研究最近发表的故事自然生物技术博士,是共同的豪尔赫·鲁伊斯- Orera马克斯·德尔布吕克分子医学中心的亥姆霍兹联合会(MDC)在德国,博士Sebastiaan van Heesch从公主Maxima儿科肿瘤学中心在荷兰,乔纳森博士玛吉从欧洲分子生物学实验室,欧洲生物信息学研究所(EMBL-EBI)在英国,和约翰博士Prensner从麻省理工和哈佛大学在美国。
新基因序列仍然是无法实现的
在过去的几年里,成千上万的经常非常小的开放阅读框(orf)已经发现了在人类基因组中。这些是跨越的DNA序列中包含有形成蛋白质的指令。以前几个作者目前的研究发现羊痘疮,描述他们在科学期刊:范Heesch,连同MDC-Professors Norbert大,乌维奥新mini-proteins在人类心脏和报道他们在“细胞”2019年;Prensner也发表于子”自然生物技术”在2021年。然而这些以前几乎未开拓的领域包括后来在参考数据库。其他序列等期刊报道”科学”或“化学生物学性质”大部分时间,但仍然遥不可及科学界的成员——尽管证据表明它们产生随后结合核糖体RNA分子,细胞的蛋白质工厂。
传统上,蛋白质编码区域的基因已经被鉴定通过比较来自多个物种的DNA序列:最重要的编码区域一直保存在动物进化。但是这种方法有一个缺点:编码区域相对年轻,即。出现在灵长类动物的进化,因此失踪的漏网之鱼的数据库。
现在的任务是将很大程度上忽略了气体并集成到最大的参考数据库,因为迄今为止,研究人员已经为他们专门搜索文献中如果他们想研究它们。
作为第一步,国际研究小组收集的信息序列,发现了使用核糖体分析——技术决定哪一部分的信使核糖核酸(mRNA)核糖体与。然后组装数据标准化的目录。这是一个不小的壮举,以各种各样的方式获得的数据从不同的实验室不能简单地加起来还要多。
这是完成后,国际财团的核心问题,定义我们人类基因组的概念:一个基因是什么?蛋白质是什么?我们需要灵活的概念是否核糖体总是产生一种蛋白质,而其他细胞输出?
这个组织现在呼吁全球科学家使用的人类基因组数据库加以修订。Ensembl-GENCODE配置这个子目录作为参考注释数据库的组件。方法将支持许多其他像UniProt HGNC, PeptideAtlas国际。
子可能在常见疾病中发挥作用
Sebastiaan van Heesch博士组长在公主Maxima儿科肿瘤学中心说:“我们的研究是一个巨大的进步在理解人类基因组成和完整的蛋白质。这是非常激动人心的,使研究团体与我们的新目录。过早地说所有的未知的DNA片段是否真正代表蛋白质,但我们可以清楚地看到,一些未知的整个人类基因组,世界正在发生应该注意。”
“长久以来,科学界一直都在黑暗中对这些羊痘疮,”乔纳森说EMBL-EBI玛吉。“我们非常自豪,我们的工作能够让世界各地的研究人员开始研究它们。在这一点上,他们进入主流基因组和医学科学的努力,我们希望有广泛的连锁反应。”
“这尤其令人刮目相看,其中大部分7200 orf独家灵长类动物和可能代表进化创新独特的物种,”豪尔赫Ruiz-Orera报道,进化生物学家在争取民主变革运动在大的实验室工作。“这显示了这些元素可以提供重要的线索是什么让我们人类。”
所以,接下来是什么?广泛的麻省理工学院和哈佛大学约翰•Prensner表示:“这些羊痘疮几乎肯定将对许多人类的特征和疾病因素,罕见疾病和癌症等常见的。现在的挑战是找出哪些疾病有哪些角色。”
联合新闻发布会上,MDC,普林斯Maxima中枢& EMBL-EBI
参考:玛吉JM, Ruiz-Orera J, Prensner JR, et al .标准化翻译开放阅读框架的注释。生物科技Nat》。2022:1-6。doi:10.1038 / s41587 - 022 - 01369 - 0
本文从以下转载材料。注:材料可能是长度和内容的编辑。为进一步的信息,请联系引用源。