新版本的Refget链接隐藏的字典的DNA
一个广泛使用的工具,发现确切的引用需要查明差异在我们的DNA刷新。
7月17日,全球联盟的标准指导委员会对基因组学和健康(GA4GH)投票refget v2.0。有更好的兼容性的参考基因组的名字,格式,和系统,新版本的refget使它比以往更容易检索验证基因组参考序列。
一个至关重要的基础设施
你可能甚至没有意识到你正在使用refget已经。
“几乎每个人都使用一个文件使用refget,“说Timothe Cezard,的共同产生新的refget EMBL的版本和一个项目领导的欧洲生物信息学研究所(EMBL-EBI)。“压缩,压缩,把所有工具——说,转换到其他格式或直接分析- refget之上。”
想要更多的最新消息?
订阅188金宝搏备用的日常通讯,提供每天打破科学消息直接发送到您的收件箱中。
免费订阅补习是一个流行和有效的文件格式存储的DNA序列,能够降低存储成本50%。它能达到惊人的压缩依赖于一个参考序列——被认为是典型的DNA。比较自己的基因和参考,你将开始看到变异:遗传差异,可能导致从雀斑患乳腺癌的风险很高。
而不是存储所有三十亿个碱基对的参考序列的DNA一起研究,补习文件仅仅抓住参考序列的名字。
解压数据的时候,refget步骤——帮助你“获得”所需要的“参考”。
字典解决困境
补习的只是一个例子refget移除危险从基因组数据的不确定性。
“refget标识每个参考序列使用其固有的独特品质,那么你可以相信一个序列包含标签上,”安德鲁·耶茨说创始EMBL-EBI refget开发者和团队领导。”的后果比较基因组数据不正确或不一致的参考序列是认真的。基因变异可以归类为致病性或无害的错误,和病人可以接受护理不当。确切的问题。”
通过分配一个惟一的标识符来引用序列,在基因组学refget解决一个棘手的命名问题。
中央政府像国际合作(INSDC)核苷酸序列数据库,运用,和加州大学圣克鲁兹分校(加州大学)基因组浏览器使用不同的命名约定相同的参考序列。
有时会想起《牛津英语词典》和《韦氏大词典》拼写和定义相同的英语单词不同。然后试图说服英国英语使用“颜色”而不是“色彩,”,你就会看到标准化术语的挑战。
分析数据时非唯一名称创建更多的不确定性。例如,另一个常见的命名约定数量的染色体数目,从染色体1作为最大的。但许多生物体的参考基因组染色体称为“1。“你怎么知道你得到一个人类染色体而不是鼠标,例如?使用哪一个“1”是正确的吗?
refget清除任何混乱。
“refget非常简单。你有一个名字,你抓住一个序列。你有一个序列,构建的名字,“Cezard说。“你不需要依赖任何命名权限。”
为什么你需要refget基因组分析吗
为在2018年最初refget释放,GA4GH大规模基因组工作流定制API支持补习。
但耶茨和团队很快意识到refget可以缓和问题其他基因组数据格式和模型。VCF和山姆也支持refget标识符,与增长社区的利益在使用它们。
“refget GA4GH标准的基本构建块,”耶茨说。“它可以解决问题除了补习,任何文件格式或数据模型需要一个参考序列。refget,你知道你在谈论序列。”
例如,refget GA4GH已经解决问题变化表示规范(工具),它提供了一个框架来描述基因变异,电脑可以很容易地比较和分析。
耶茨和Cezard与工具与团队密切合作,开发refget v2.0,支持工具与序列标识符。现在医院,实验室,和数据库等结果ClinGen使用工具来表示和共享基因变异,通过refget链接到参考序列。
“在很大程度上是因为refget, GA4GH工具使共享和跨机构比较变体数据更可靠。refget让我们找到确切的参考序列,然后帮助我们明确表示变化,”拉里·巴伯说,工具与团队的领导者,主要软件工程师在麻省理工和哈佛大学,并为ClinGen GA4GH司机项目冠军。
“通过在工具使用refget标识符,我们可以解决重要的互操作性挑战时出现的比较证据来自新参考序列。策略已经在现实世界中的一个项目工作的阿特拉斯变异影响联盟,”亚历克斯·瓦格纳说,其他工具与团队的领导者,他是首席研究员在全国儿童医院和GA4GH司机项目冠军变异解释癌症的财团。
基因组学的另一个主要的资源社区,欧洲核苷酸存档(ENA) refget v2.0已经实现。
ENA包含所有测序DNA和RNA在公共领域——近三十亿序列。解压文件从数据库中,研究人员使用补习参考注册,refget上运行。
的新版本refget运用基因组浏览器也将亮相。这个系列的50000多个基因(代表伟大的多样性和物种间,从人类到玉米斑马鱼)提供的工具进行分析和比较。
“refget是驱动我们新的运用基础设施。这些refget端点将在不久的将来,将提供运用托管蛋白和转录序列,”耶茨说。
版本中的新特性
最新版本的refget扩展API的功能,使它更容易和与其他系统兼容。
与工具与团队合作导致了新的优先算法定义标识符。其他新功能详细的规格包括推荐的最佳实践(比如小写命名权限字符串),和选项当搜索一个特定的标识符(有或没有一个名称空间)。
一个关键的变化——旨在扩大组织可以受益于refget——允许您搜索不仅仅是独特refget标识符,但被另一个命名约定。字典,你可以查找“颜色”或“颜色”,仍然检索正确的定义。
“refget服务器现在可以检索相同的序列使用不同的命名约定。新版本与其他系统的互操作性,依靠命名机关,所以你可以搜索,即使你没有访问参考序列本身,“Cezard说。
“你可以输入一个名称,不是refget标识符和仍然得到相同的验证,可靠的序列——你可以验算refget标识符,”他补充道。
新版本包括技术解决方案来处理非唯一的名字。
这些主要版本升级不需要实现人员的主要工作:所有现有refget客户可以继续使用这个API。唯一打破变化是最小的一个,使refget服务器与GA4GH兼容服务信息web服务API,它可以帮助找到分析基因组数据。
refget整个基因组
在refget一样的原则的基础上,研究小组目前正在开发一种新的规范,验证的身份序列的集合。
“refget为一个序列定义了一个名字,像一个染色体。序列集合定义了一组序列,一个名字,我们常常使用组件或整个基因组,“Cezard说。
序列集合将提供许多新功能之外定义名称,包括搜索和比较集合内。
同时,Cezard、耶茨和合作者旨在加强支持refget广泛的基因组的文件格式,床上来山姆来VCF,证明refget用处有多大。
“refget已经保障一个至关重要的步骤在基因组分析人员在世界各地,”耶茨说。“这第二个版本加强了惟一标识符的概念是多么重要,无论你是确定一个参考序列,整个基因组,甚至pangenome。”
本文从以下转载材料。注:材料可能是长度和内容的编辑。为进一步的信息,请联系引用源。