数学框架预测基因调控的进化
尽管大量的每个人体细胞包含的基因,这些所谓的“编码”的DNA序列占整个基因组的1%。剩下的99%是由“非编码DNA——与编码DNA,不携带指令构建蛋白质。
一个至关重要的功能的非编码DNA,也叫做“监管”DNA,是帮助打开和关闭基因,控制多少(如果有的话)的蛋白质。随着时间的推移,作为细胞DNA复制他们的生长和分裂,突变经常出现在这些非编码区域——有时调整其功能和改变他们的方式控制基因的表达。这些突变是微不足道的,甚至有些是有益的。偶尔,它们可以与常见疾病的风险增加相关,如2型糖尿病、或更致命的,包括癌症。
为了更好地理解这种突变的影响,研究人员一直在努力在数学地图上,让他们看一个有机体的基因组,预测哪些基因表达,并确定该表达式将如何影响生物的身体特征。这些地图,称为健身景观,被概念化大约一个世纪前了解基因构成影响一个有机体的健康的常见指标:生殖成功。早期的健身景观是非常简单的,经常关注有限数量的突变。现在可以使用更丰富的数据集,但研究人员仍然需要额外的工具来描述这种复杂的数据并将其可视化。这种能力不仅会促进更好的理解单个基因是如何进化而来的,但也有助于预测序列和表达变化可能发生在未来。
在一个新的研究3月9日出版自然,一组科学家已经开发了一个框架,研究监管的健身景观DNA。他们创造了一个神经网络模型,当训练成千上万的实验测量,能够预测改变这些非编码序列在酵母基因表达的影响。他们还设计了一个独特的代表风景在二维空间的方法,使其容易理解过去和预测未来的非编码序列进化生物酵母之外,甚至设计定制基因表达模式基因疗法和工业应用。
“我们现在有了一个“甲骨文”,可以查询问:如果我们尝试所有可能的突变序列?或者,我们新的序列应该设计给我们所需的表情?”特拉维夫Regev麻省理工学院的生物学教授(休假),广泛的哈佛和麻省理工学院的核心成员(休假),基因泰克研究和早期发展,这项研究的资深作者。“科学家们现在可以使用自己的进化问题或场景的模型,和其他问题,如序列,控制基因表达希望的方式。我也兴奋的可能性机器学习研究人员感兴趣的可解释性;他们可以反过来问他们问题,更好地理解底层的生物。”
在这项研究中,许多研究人员训练他们的模型对已知突变(或细微变化),在自然界中存在。然而,Regev的团队想更进一步通过创建自己的无偏模型能够预测有机体的健康和基因表达基于任何可能的DNA序列——即使他们之前从未见过的序列。这也将使研究人员能够使用这样的模型细胞用于制药工程师,包括新的治疗癌症和自身免疫性疾病。
为了实现这一目标,Eeshit Dhaval Vaishnav,麻省理工学院的一名研究生,co-first作者,卡尔德布尔,现在英属哥伦比亚大学的助理教授,和他们的同事们建立了一个神经网络模型来预测基因表达。他们在训练数据集生成的数以百万计的完全随机的非编码DNA序列插入酵母,并观察每个随机序列基因表达的影响。他们专注于一个特定的子集称为启动子的非编码DNA序列,作为蛋白质结合位点可以开关附近的基因。
“这工作突出可能性开放,当我们设计一种新的实验生成正确的数据训练模型,“雷格夫说。“在更广泛的意义上,我相信这些方法将重要的很多问题——比如理解监管区域的基因变异,赋予疾病风险在人类基因组中,而且对预测的组合突变的影响,或设计新的分子。”
Regev Vaishnav, de Boer和他们的合作者继续测试模型的预测能力在各种各样的方面,为了显示它如何有助于阐明某些进化过去和未来可能的推动者。“创建一个精确的模型无疑是一个不小的成就,但是,对我来说,只是一个起点,“Vaishnav解释道。
首先,确定他们的模型可以帮助与合成生物学应用程序(如生产抗生素、酶、和食品,研究人员用它来练习设计启动子,可以生成所需的任何感兴趣的基因的表达水平。然后他们在其他科学论文识别基本的进化问题,为了看看他们的模型可以帮助回答这些问题。球队甚至给他们的模型实际人口数据集从一个现有的研究中,含有遗传信息从世界各地的酵母菌株。在这一过程中,他们能够描绘过去几千年的选择压力,塑造当今酵母的基因组。
但是,为了创建一个强大的工具,可以调查任何基因组,研究人员知道他们需要找到一种方法来预测非编码序列的进化,即使没有这样的综合人口数据集。为了解决这个目标,Vaishnav和他的同事们设计了一个计算技术,允许他们阴谋的预测框架在一个二维图。这帮助他们,以一种非常简单的方式,任何非编码DNA序列将如何影响基因表达和健身,而不需要进行耗时的实验在实验室。
“健身景观的尚未解决的问题之一是,我们没有可视化的方法他们的方式有效地捕获序列的进化特性,“Vaishnav解释道。“我真的很想找到一种方法来填补这一差距,并有助于创建一个完整的健身景观的长期愿景。”
遗传学教授马丁·泰勒,爱丁堡大学的医学研究理事会人类遗传学单位并没有参与这项研究,说,研究表明,人工智能不仅可以预测监管DNA变化的影响,也揭示出其潜在的原则管理数百万年的进化历程。
尽管模型训练只是一小部分酵母DNA监管几生长条件,他的印象,它是能够这样有用的预测基因调控哺乳动物的进化。
”有明显的短期应用,如监管的定制设计DNA在酿酒酵母发酵,和生物技术,”他解释说。“但扩展这项工作也可以帮助识别疾病的DNA突变在人类的监管,目前很难找到和很大程度上忽略了在诊所。这项工作表明有一个光明的未来的人工智能模型基因调控训练更丰富,更复杂,更多样化的数据集。”
甚至在研究正式发表之前,Vaishnav开始从其他研究人员希望利用接收查询模型设计非编码DNA序列用于基因疗法。
“人们一直在研究监管进化和健身景观几十年来,“Vaishnav说。“我认为我们在回答基本框架,将会是一个漫长的过程,公开质疑基因调控DNA的进化和可发展性,甚至帮助我们设计生物序列为激动人心的新应用程序。”
参考:Vaishnav ED, de Boer CG, Molinet J, et al。进化,基因调控基因的可发展性和工程。自然。2022年。doi:10.1038 / s41586 - 022 - 04506 - 6
本文从以下转载材料。注:材料可能是长度和内容的编辑。为进一步的信息,请联系引用源。