机器学习识别“合成极端”的DNA序列

新闻

发表:2023年5月19日

| 圣地亚哥加州大学的故事

信贷:奥特曼Gerd / Pixabay

想要一个免费的PDF版本的这个新闻吗?

完成下面的表格,我们将电子邮件您的PDF版本合成极端“机器学习识别DNA序列”

名字*

姓*

电子邮件地址*

国家*

公司类型*

工作职能*

你愿意接受进一步的电子邮件通信技术网络吗?188金宝搏备用

听与

喋喋不休地说

0:00

注册免费听这篇文章

谢谢你！听这篇文章使用上面的球员。✖

阅读时间:

人工智能在爆炸新闻,ChatGPT及相关人工智能技术越来越广泛的公众监督的重点。除了流行的聊天机器人,生物学家正在设法利用人工智能探测基因的核心功能。

之前,加州大学圣地亚哥分校的研究人员研究DNA序列,基因开关在使用人工智能识别一个谜一样的神秘与基因激活,基本流程参与生长、发育和疾病。使用机器学习、人工智能的一种生物科学学院的教授詹姆斯·t·Kadonaga和他的同事们发现下游核心启动子区域(DPR)“网关”DNA的激活代码参与多达三分之一的操作我们的基因。

建筑从这个发现,Kadonaga和研究人员长期签证官ngoc和托里·e·赖恩表示现在使用机器学习识别“合成极端”DNA序列与专门设计的功能基因激活。发表在杂志上基因与发展,研究人员测试了几百万种不同的DNA序列通过机器学习(AI)通过对比DPR基因活化元素在人类与果蝇(果蝇)。通过使用人工智能,他们能够找到罕见,DPR序列,是活跃在人类但不是量身定制果蝇,反之亦然。更普遍的是,这种方法可以被用来识别合成DNA序列的活动可能是有用的在生物技术和医学。

“在未来,这种策略可以用来识别合成极端的DNA序列与实际和有用的应用程序。而不是比较人类(X)条件与果蝇(Y)条件我们可以测试药物的能力(X)条件但不药B (Y)条件激活的基因,”特聘教授Kadonaga说的分子生物学。量身定制“这个方法也可以用来找到激活基因的DNA序列组织1 (X)条件但不组织2 (Y)条件。有无数的这种基于ai的方法的实际应用。合成极端DNA序列可能是非常罕见的,也许一百万分之一——如果能找到他们存在利用人工智能。”

机器学习是人工智能的一个分支,计算机系统的不断改进和基于数据和经验中学习。Kadonaga在这项新研究,签证官ngoc前加州大学圣地亚哥分校博士后研究员(现在在韦利亚疗法)和赖恩表示(研究助理人员)使用一个方法称为支持向量回归“训练”与200000年机器学习模型建立了DNA序列数据来自真实的实验室实验。这些目标提出了机器学习系统为例。然后他们“美联储”5000万测试DNA序列到人类和果蝇的机器学习系统,要求他们比较序列和识别独特的序列中两个巨大的数据集。

想要更多的最新消息?

订阅188金宝搏备用的日常通讯,提供每天打破科学消息直接发送到您的收件箱中。

免费订阅

而机器学习系统表明,人类和果蝇序列基本重叠,研究者关注的核心问题AI模型是否能识别罕见的例子基因活化是人类高度活跃但不是在果蝇。答案是一个响亮的“肯定的。“机器学习模型成功地识别人类(和水果fly-specific)的DNA序列。重要的是,极端的AI-predicted功能序列在Kadonaga验证的实验室通过使用传统的测试方法(湿实验室)。

“在开始这项工作之前,我们不知道如果AI模型是“智能”足以预测5000万年的活动序列,特别是离群值“极端”序列与不寻常的活动。所以,印象深刻,很了不起,AI模型可以预测极端罕见的一百万分之一的活动序列,“Kadonaga说。他补充说,基本上不可能进行可比1亿湿实验室实验,机器学习技术分析由于每个湿实验室实验需要近三周完成。

机器学习系统发现的罕见的序列作为一个成功的示范和为其他使用机器学习和人工智能技术在生物学。

“在日常生活中,人们发现新的人工智能工具,如ChatGPT申请。在这里,我们已经展示了使用人工智能的设计定制的DNA基因激活的元素。这种方法应该实际应用在生物技术和生物医学的研究中,“Kadonaga说。“在更广泛的层面上,生物学家可能在刚开始的时候利用人工智能技术的力量。”

参考:Ngoc LV,赖恩表示TE Kadonaga JT。果蝇和人类DPR元素的分析揭示了一个独特的人类变异的特性可以通过机器学习得到加强。基因开发。2023年。doi:10.1101 / gad.350572.123

本文从以下转载材料。注:材料可能是长度和内容的编辑。为进一步的信息,请联系引用源。