人工智能系统预测基因修改的影响
斯顿研究院研究员,麻省理工和哈佛,和丹纳-法伯癌症研究中心的研究转向了人工智能(AI)来帮助他们了解大型网络相互连接的人类基因控制细胞的功能,以及如何在这些网络中断导致疾病。
大型语言模型,也称为基础模型,是人工智能系统,从大量的通用数据学习基础知识,然后应用这些知识来完成新的“学习过程称为转移。这些系统最近获得了主流关注ChatGPT的释放,从OpenAI聊天机器人建立在一个模型。
在新的工作中,发表在《自然》杂志上,格莱斯顿助理研究员克里斯蒂娜Theodoris,医学博士,建立了一个基础模型为理解基因是如何交互的。新模型,被称为Geneformer,可以从大量的基因数据交互从一个广泛的人体组织和转移这些知识对如何进行预测疾病可能出错。
在新的研究中,Theodoris Ellinor,和他们的同事解决这个问题通过利用机器学习技术称为“转移学习”培训Geneformer作为基础模型的核心知识可以被转移到新的任务。
想要更多的最新消息?
订阅188金宝搏备用的日常通讯,提供每天打破科学消息直接发送到您的收件箱中。
免费订阅首先,他们“pretrained Geneformer有基本的认识基因如何喂养它的数据交互活动水平在大约3000万个细胞的基因从一个广泛的人体组织。
证明学习方法是转移工作,科学家们然后调整Geneformer预测基因之间的联系,或减少某些基因的水平是否会引起疾病。Geneformer能够让这些预测精度远高于替代方法因为pretraining过程中获得的基本知识。
此外,Geneformer能够准确的预测即使只显示少量相关数据的例子。
“这意味着Geneformer可以应用在疾病进行预测,研究进展缓慢,因为我们无法获得足够大的数据集,如罕见疾病和那些困难的影响组织样本在诊所,“Theodoris说。
心脏病的经验教训
Theodoris的团队接下来着手使用学习转移到预先发现心脏病。他们首先要求Geneformer预测哪些基因会有不利影响心肌细胞的发展,心脏肌肉细胞。
前基因确定的模型,很多已经与心脏病有关。
“事实上,我们已经知道的模型预测基因很重要的心脏病给了我们额外的信心,能够做出准确的预测,“Theodoris说。
然而,其他潜在的重要基因被Geneformer之前没有与心脏疾病有关,如基因TEAD4。当研究人员把TEAD4从心肌细胞在实验室里,细胞不再能够打败强劲如健康细胞。
因此,Geneformer使用学习转移到新建一个结论:即使它没有美联储的任何信息在细胞缺乏TEAD4,它正确地预测TEAD4在心肌细胞功能的重要作用。
“转移学习方法允许我们克服的挑战有限的病人数据有效地识别可能的蛋白质药物靶向病变细胞。”– CHRISTINA THEODORIS, MD, PHD
最后,集团要求Geneformer预测哪些基因应该针对使病变的心肌细胞类似于健康细胞在基因网络水平。当研究人员测试两个建议的目标细胞受到心肌病(一种心脏肌肉的疾病),他们确实发现移除预测基因使用CRISPR基因编辑技术恢复了跳动病变心肌细胞的能力。
“在学习正常基因网络是什么样子和病变的基因网络是什么样子,Geneformer能够找出特性可以有针对性的健康和患病的状态之间进行切换,“Theodoris说。“转移学习方法允许我们克服的挑战有限的病人数据有效地识别可能的蛋白质药物靶向病变细胞。”
“使用Geneformer的一个好处是能够预测哪些基因可以帮助细胞健康和疾病状态之间切换,“Ellinor说。“我们能够验证这些预测在心肌细胞在我们实验室Broad研究所。”
研究人员正计划扩大细胞的数量和类型Geneformer分析了为了保持提高其分析基因网络的能力。他们还做了模型开源,这样其他科学家可以使用它。
“用标准的方法,你必须为每一个新应用程序从头重新训练模型,“Theodoris说。“真正令人兴奋的事情对我们的态度是,Geneformer基本知识的基因网络现在可以被转移到回答许多生物学问题,我们期待别人做什么。”
参考:肖Theodoris简历,L, Chopra, et al .传输在网络学习使预测生物学。自然。2023:1-9。doi:10.1038 / s41586 - 023 - 06139 - 9
本文从以下转载材料。注:材料可能是长度和内容的编辑。为进一步的信息,请联系引用源。