发现和注释的小型蛋白质利用基因组学、蛋白质组学和计算方法
阅读时间:
文摘
小蛋白(10 - 200个氨基酸(aa)长度)由短开放阅读框编码(sORF)扮演了一个重要的管理角色在不同的生物过程,包括肿瘤恶化、应激反应、开花,和激素信号。然而,从头开始发现小蛋白质相对忽视。最新进展在深转录组测序能够有效地识别sORFs在基因组水平。在这项研究中,我们获得∼260万表达序列标签(EST)读取从摘要叶转录组和重建完整的成绩单EST序列。我们确定了一组初始的12852 sORFs编码蛋白质的10 - 200 aa的长度。三种计算方法被用于丰富真实的蛋白质编码sORFs从最初sORF集:(1)coding-potential预测,(2)p .摘要和其他植物物种之间的进化的保护,和(3)基因家族集群内p .摘要。因此,高信任度sORF候选集包含了1469个基因。蛋白质域的分析,non-protein-coding RNA图案,序列长度分布,和蛋白质质谱数据支持这种高信任度sORF集。在高信任度sORF候选集,已知蛋白质域被确定在1282个基因(信心sORF候选集),其中611个基因,指定为highest-confidence候选人sORF集,通过蛋白质组学数据支持。611年highest-confidence候选人sORF基因,56个新当前杨树基因组注释。本研究不仅表明有潜在sORF候选人在测序的基因组进行注释,但也提供了一个有效的策略发现sORFs物种没有基因组注释。
这篇文章发表在基因组研究和是免费访问。
小蛋白(10 - 200个氨基酸(aa)长度)由短开放阅读框编码(sORF)扮演了一个重要的管理角色在不同的生物过程,包括肿瘤恶化、应激反应、开花,和激素信号。然而,从头开始发现小蛋白质相对忽视。最新进展在深转录组测序能够有效地识别sORFs在基因组水平。在这项研究中,我们获得∼260万表达序列标签(EST)读取从摘要叶转录组和重建完整的成绩单EST序列。我们确定了一组初始的12852 sORFs编码蛋白质的10 - 200 aa的长度。三种计算方法被用于丰富真实的蛋白质编码sORFs从最初sORF集:(1)coding-potential预测,(2)p .摘要和其他植物物种之间的进化的保护,和(3)基因家族集群内p .摘要。因此,高信任度sORF候选集包含了1469个基因。蛋白质域的分析,non-protein-coding RNA图案,序列长度分布,和蛋白质质谱数据支持这种高信任度sORF集。在高信任度sORF候选集,已知蛋白质域被确定在1282个基因(信心sORF候选集),其中611个基因,指定为highest-confidence候选人sORF集,通过蛋白质组学数据支持。611年highest-confidence候选人sORF基因,56个新当前杨树基因组注释。本研究不仅表明有潜在sORF候选人在测序的基因组进行注释,但也提供了一个有效的策略发现sORFs物种没有基因组注释。
这篇文章发表在基因组研究和是免费访问。
广告