深度学习合成生物学上的“立足之地”
DNA和RNA已经比“说明书”包含所需信息的生活“机器”。虽然电子计算机和机器人等机器而设计的,服务于特定的目的,生物有机体都是由更复杂,更复杂的功能,缺乏可预测性的二进制代码。发明新生物问题的解决方案需要分离看似棘手的变量——一个艰巨的任务,即使是最勇敢的人类大脑。
Wyss研究所的两个团队的科学家在哈佛大学和麻省理工学院的设计途径在这些路障,超越人类的大脑;他们开发了一组机器学习算法,能够分析大量RNA-based“站稳脚跟”序列和预测哪些最有效感知和响应所需的目标序列。今天在同时发表的两篇论文中报道自然通讯,算法可以适用于其他合成生物学中存在的问题,并能加速生物技术工具,以改善科学和医学的发展,帮助拯救生命。
“这些成就是令人兴奋的,因为他们的起点我们问更好的问题的能力的基本原则RNA折叠,我们需要知道为了达到有意义的发现和构建有用的生物技术,“路易斯Soenksen说,博士,博士后Wyss麻省理工学院研究所和风险Builder Jameel诊所是co-first两篇论文的第一作者。
要抓立足开关
数据科学家之间的合作从Wyss研究所的预测BioAnalytics倡议和合成生物学家在Wyss核心教员吉姆·柯林斯的麻省理工学院的实验室创建应用机器学习的计算能力,神经网络,和其他算法架构复杂的生物学问题,迄今为止,蔑视决议。试验场的方法,两个团队专注于特定的工程类RNA分子:立足开关,折叠成一个“关闭”状态时发针形般的形状。当一个互补的RNA链结合的“触发”序列后从一个发夹,立足开关展开成“on”状态,并暴露在发卡之前隐藏的序列,允许核糖体结合和下游基因翻译成蛋白质分子。这个精确控制基因的表达来响应特定分子的存在使得传感立足开关组件非常强大的物质环境,检测疾病和其他用途。
然而,许多立足开关不工作很好测试实验时,即使他们已经被设计来产生所需的输出响应给定输入基于已知的RNA折叠规则。认识到这个问题后,团队决定使用机器学习来分析大量的开关序列站稳脚跟并使用见解的分析更准确可靠地预测哪些站稳脚跟执行预期的任务,可以让研究人员快速识别高质量站稳脚跟的各种实验。
他们面临的第一个障碍是没有立足之地的数据集开关序列足够大的深度学习技术有效地分析。作者自己承担起责任,生成一个数据集,将有用的训练这样的模型。“我们设计并合成了一个巨大的图书馆立足开关,总共近100000,通过系统取样短触发区域沿整个基因组的23个病毒和906年人类转录因子,”Alex Garruss说,哈佛大学研究生工作Wyss研究所是co-first第一篇论文的作者。”空前规模的数据集可以使用先进的机器学习技术进行识别和理解有用开关立即下游应用和未来设计。”
配备足够的数据,团队首先使用传统工具用于分析合成RNA分子,看看他们能准确地预测立足开关的行为现在有多方面的更多的例子。然而,没有一个他们尝试的方法,包括机械建模基于热力学和物理特性——可以足够精确地预测站稳脚跟的功能更好。
一张图片胜过一千个碱基对
然后研究人员探索各种机器学习技术,看看他们是否可以创建模型有更好的预测能力。第一篇论文的作者决定分析立足开关的碱基序列,而是二维碱基对的“图像”的可能性。“我们知道基线规则如何RNA分子相互碱基对的债券,但是分子扭来扭去的,他们从来没有一个完美的形状,而是一个概率他们可能在不同的形状,”尼古拉斯说Angenent-Mari,麻省理工学院的研究生工作Wyss研究所和co-first第一篇论文的作者。“计算机视觉算法已经成为非常善于分析图像,所以我们创建了一个图像的表示所有可能的折叠状态的每个开关站稳脚跟,并训练了那些照片上的机器学习算法可以识别的模式指示是否一个给定的图片将是一个好的或坏的立足之地。”
他们的基于视觉的方法的另一个好处是,团队能够“看到”的哪些部分立足开关序列算法“注意”最当决定是否一个给定的序列是“好”或“坏”。They named this interpretation approach Visualizing Secondary Structure Saliency Maps, or VIS4Map, and applied it to their entire toehold switch dataset. VIS4Map successfully identified physical elements of the toehold switches that influenced their performance, and allowed the researchers to conclude that toeholds with more potentially competing internal structures were "leakier" and thus of lower quality than those with fewer such structures, providing insight into RNA folding mechanisms that had not been discovered using traditional analysis techniques.
“能够理解和解释为什么某些工具工作或不工作在人工智能社区是一个次要目标一段时间,但可解释性需要在我们关注的前沿研究生物学,因为这些系统的潜在原因行为往往不能凭着直觉,”吉姆·柯林斯说,博士,第一篇论文的资深作者。“有意义的发现和中断是深刻的理解的结果自然是如何工作的,以及这个项目表明,机器学习,经过了正确的设计和应用,可以大大提高我们的能力来获得关于生物系统的重要见解。”Collins is also the Termeer Professor of Medical Engineering and Science at MIT.
现在你说我的语言
虽然第一的团队分析了立足开关2 d图像序列来预测他们的质量,第二个团队创建了两个不同的深度学习架构,接近使用正交技术所面临的挑战。然后他们超越预测立足质量和使用他们的模型优化和重新设计业绩不佳的立足点开关用于不同的目的,他们在第二篇论文报告。
第一个模型,基于卷积神经网络(CNN)和多层感知器(MLP),将立足序列视为一维图像,或行核苷酸碱基,识别模式的基地和基地之间潜在的相互作用预测好坏站稳脚跟。团队使用这一模型来创建一个名为风暴的优化方法(基于立足优化和重新设计模型),它允许的序列完全重新设计的立足点。这个“空白”工具生成小说立足的最优开关来执行一个特定的函数作为合成基因电路的一部分,使创建复杂的生物学工具。
“很酷的部分关于风暴和模型的底层是播种后输入数据从第一篇论文,我们可以调整模型只有168样品和使用改进的模型来优化开关的立足点。,质疑的假设您需要生成大量数据集的每一次你想要机器学习算法应用到一个新问题,并建议深度学习可能比我们想象的更适用于合成生物学家,”杰基co-first作者Valeri表示,麻省理工学院的一名研究生,Wyss研究所。
第二个模型是基于自然语言处理(NLP),和对待每个立足序列组成的“短语”的模式”的话说,“最终学习某些词放在一起做一个连贯的短语。“我想每个开关站稳脚跟的俳句诗:像俳句一样,这是一个非常具体安排的短语在其母语言——在这种情况下,RNA。这个模型我们本质上是培训学习如何写一个好的俳句喂它很多很多的例子,“co-first作者Pradeep Ramesh说博士访问Wyss研究所博士后研究员和机器学习科学家夏洛克生物科学。
拉梅什和他的合作者与CNN-based模型集成这个NLP-based模型创建NuSpeak(核酸演讲),一种优化的方法,让他们重新设计给定的最后9个核苷酸立足开关同时保持其余21个核苷酸完好无损。这种技术允许创建站稳脚跟的设计来检测特定致病RNA序列的存在,并可以用来开发新的诊断测试。
团队实验验证这两个平台上通过优化立足开关设计感SARS-CoV-2病毒基因组dna片段。NuSpeak提高传感器的性能平均为160%,而风暴创建更好的版本的四个“坏”SARS-CoV-2病毒RNA传感器的性能提高了28次。
暴风雨和NuSpeak平台的“一个真正的好处是,它们能使您快速设计和优化合成生物学的组件,我们显示的发展立足COVID-19诊断传感器,“co-first作者凯蒂·柯林斯说,麻省理工学院本科学生Wyss研究所曾与麻省理工学院副教授盖,医学博士博士,第二篇论文的通讯作者。
“数据驱动的方法通过机器学习打开门真正有价值的计算机科学和合成生物学之间的协同效应,我们只是刚开始触及到问题的表面,“•迪奥戈卡马乔说,博士,第二篇论文的通讯作者是谁的高级生物信息学预测BioAnalytics倡议的科学家和位联席Wyss研究所。“也许最重要的工具,我们在这些论文是他们开发的适用于其他类型的如诱导启动子和天然riboswitches RNA-based序列,因此可以应用于广泛的问题和机会在生物技术和医学。”
其他论文的作者包括Wyss核心教员和HMS的遗传学教授乔治教堂,博士;Wyss和麻省理工学院研究生米格尔Alcantar比安卡Lepe。
“人工智能是波,是刚刚开始影响科学和工业,和令人难以置信的潜力帮助解决棘手的问题。这些研究证明中所描述的突破的力量融合计算与合成生物学在板凳上开发新的和更强大的bioinspired技术,除了导致新见解生物防治的基本机制,“不因格贝尔说,医学博士博士,Wyss协会的创始董事。因格贝尔也是Judah Folkman的哈佛医学院和血管生物学教授在波士顿儿童医院血管生物学程序,以及哈佛大学的生物工程教授约翰·a·保尔森工程和应用科学学院。
参考:
Angenent-Mari NM, Garruss Soenksen LR,教会G,柯林斯JJ。深度学习方法可编程RNA开关。自然通讯。2020;11 (1):5057。doi:10.1038 / s41467 - 020 - 18677 - 1
本文从以下转载材料。注:材料可能是长度和内容的编辑。为进一步的信息,请联系引用源。