佐治亚理工学院创建自我训练基因预测程序
佐治亚理工学院的研究人员已经开发出计算机程序能够训练本身来预测基因在基因组DNA序列的真核生物,如动物、植物和真菌。
软件程序,GeneMark。hmm-ES,可能帮助研究人员保存一年以上的基因组测序项目和解释。
程序除了GeneMark家族基因预测佐治亚理工学院的项目开发,并免费提供学术研究人员。
目前,有600个正在进行的基因组测序项目的真核生物细胞内细胞核。
解码的DNA序列,甚至从一个单一的基因工程是一项巨大的任务。
不过,解开生物的遗传密码允许科学家理解细胞机制的细节。这些知识有助于产生好的想法的时候,各种各样的未来研究方向。
理解个人基因组的特定特性可能导致个性化医疗的发展,虽然比较相关物种的基因组可以帮助科学家跟踪他们的进化。
“基因组序列是一个基础和蓝图的分子蜂窝网络和过程动力学需要重新理解细胞是如何工作的,”Mark Borodovsky说摄政王的教授生物学和生物医学工程系学院和中心主任乔治亚理工大学生物信息学和计算基因组学。
“这些网络特定为每个生物,所以一旦你知道基因的列表,你开始将所有的零件组装成一幅画。”
的自我训练版本genefinding原核基因组计划是由Borodovsky集团在2001年。
现在Borodovsky乔治亚理工大学和他的团队有了飞跃,建立了一个程序,它可以训练自己做精确的基因预测的众多新真核生物的基因组测序。
“遗传密码的程序使用建立的一般原则组织——调整一般特定基因组的组成特性,帮助确定至少有几个地区的匿名基因组含有蛋白质编码序列。”
“一旦他们有了这个最初的预测,他们独立编码和非编码序列。
“这个集群化允许科学家应用机器学习技术完善的参数识别算法中的特定模式新发现的蛋白质编码序列”。
”研究人员然后重复这种预测和训练步骤,每次检测一组更大的真正的编码序列,用于进一步提高模型统计模式识别中采用。”
“最后的运行,在没有达到创新的预测步骤,产生理想的最终的预测集的基因。”
因为一般原则建立的自我训练方法使用真核基因的组织重建物种特定核苷酸序列模式,这速度了,因为科学家们不必等待外部专家来开发一个序列足以作为训练集。
可以节省一年或更多的测序项目。自我训练方法,程序工作本身。
程序的细节可以在20个数量核酸的研究(卷33)页6494 - 6506。