跟踪实验室DNA简化的生物信息学工具
跟踪合成遗传密码起源的从来都不是简单的,但它可以通过生物或,越来越多的深度学习计算方法。
尽管后者得到最多的关注,新的研究莱斯大学的计算机科学家托德Treangen布朗工程学院专注于序列比对和pan-genome-based方法是否能超越这个地区最近的深度学习的方法。
“在某种意义上,这是格格不入,因为最近深度学习方法优于传统方法,如爆炸,”他说。“我的目标与本研究开始讨论如何将两个领域的专业知识来达到进一步改进这个重要的计算挑战。”
Treangen,专门从事开发计算生物和微生物法医学应用的解决方案,和他的团队在水稻PlasmidHawk介绍,生物信息学方法分析DNA序列来帮助识别感兴趣的工程质粒的来源。
“我们显示一个序列alignment-based方法可以表现一个卷积神经网络(CNN)深度学习lab-of-origin预测的特定任务的方法,”他说。
Treangen为首的研究人员和作者齐王,大米的研究生,他们的研究成果发表在开放获取论文在本质上通信。
这里的开源软件是可用的:https://gitlab.com/treangenlab/plasmidhawk。
程序可能有用不仅跟踪潜在有害工程序列也为保护知识产权。
“我们的目标是帮助保护知识产权的贡献者或帮助跟踪序列合成序列的起源如果坏事发生,“Treangen说。
Treangen指出最近一个备受瞩目的论文描述一个递归神经网络(RNN)深度学习技术跟踪原始序列的实验室。该方法实现了70%的预测单一实验室原产地的精确性。“尽管这个重要的进步在过去的深度学习方法,PlasmidHawk在这两种方法都提供了改进的性能,”他说。
大米程序直接从基因组数据集将未知的字符串的代码和匹配他们pan-genomic地区常见或独特的合成生物学研究实验室
“预测lab-of-origin PlasmidHawk分数每个实验室基于匹配区域非保密序列和质粒pan-genome之间,然后分配未知序列的实验室最低得分,”王说。
在新的研究中,使用相同的数据集的深度学习的实验中,研究人员报道了成功预测“未知序列的沉淀实验室”76%的时间。他们发现,85%的时间里正确的实验室是在前10名候选人。
与深度学习的方法不同,他们说PlasmidHawk需要减少了数据的预处理和不需要再培训当添加新的序列到现有项目。它还通过提供一个详细的解释其不同lab-of-origin预测与以前的深度学习方法。
“我们的目标是来填补你的计算工具箱与尽可能多的工具,”合著者Ryan说狮子座Elworth,博士后研究员大米。“最终,我相信最好的结果将结合机器学习,更传统的计算技术和深入了解特定的生物问题解决。”
参考:王Q, Kille B,刘TR, Elworth文化、Treangen TJ。原产地PlasmidHawk改善实验室预测工程质粒用序列比对。Nat。Commun。2021;12 (1):1167。doi:10.1038 / s41467 - 021 - 21180 - w
本文从以下转载材料。注:材料可能是长度和内容的编辑。为进一步的信息,请联系引用源。