田纳西州参与NSF“大数据”的基因组学研究项目
美国国家科学基金会支持数据驱动的基因组科学与3100万美元的奖项社区开发工具,计算机和数据科学的最佳实践,田纳西大学的研究所研究员农业被任命为首席调查员的资助项目。
助理教授玛格丽特Staton昆虫学和生物信息学的植物病理学,将与来自华盛顿州立大学的研究人员领导的研究小组,在130万美元的赠款为数据基础设施构建块(DIBBS)计划。Tripal网关项目,17由NSF授予之一,预计将建立在现有的计算机提高基因组数据库的容量管理,交换和处理大数据。
所以,什么是“大数据?“关于这项研究,“大数据”指的是收集了大量的信息关于植物基因组学的如此之大的数据集,一个研究者或研究机构难以存储和分析单个工厂的所有数据,多个个人或多个物种的少得多。
Tripal网关项目是基于开源软件被称为Tripal (http://tripal.info),最初是由华盛顿州立大学的史蒂夫Ficklin和Staton虽然两人在克莱姆森大学。Dorrie主要,威诺娜州立大学的也和萨斯喀彻温大学的克里斯汀•Bett扩大了软件,Tripal现在被至少24个不同的植物和动物数据库。
根据新的同意努力,Staton将实现增强Tripal硬木基因组学软件的网站(www.hardwoodgenomics.org)。像现在完成人类基因组计划,硬木基因组项目力图创建基因组资源最经济和系统重要的北美硬木物种,包括糖枫,郁金香杨树,火山灰和橡木的物种。主任斯科特Schlarbaum UT树改进计划和林业部门的教授,野生动物和渔业,是科学家们建立了硬木基因组学的网站。
“这是一个很好的例子UTIA宽度的研究领域实验室电脑。UT树改进项目是至关重要的育种,嫁接,建立和维持人口的树木用于DNA测序,测序和基因RNA映射。从这些实验数据分析通过计算资源和共享与其他研究人员和公众通过网站,所有计算资源安置在这里。”
Staton解释说,许多科学家使用硬木基因组学的网站想要拥抱新一波的“大数据”,但他们缺乏处理和理解的计算能力巨大的数据集。“这格兰特资助新分析软件的开发,使网站用户执行先进的基因和基因组科学与许多不同类型的生物数据,”她说。
“我们集团的在线资源植物科学家将扩展到提供灵活的、基于web的数据分析工具。我们的用户不仅能够下载、搜索或浏览数据,但上传和执行分析自己的数据集,”Staton补充道。
让用户开始预期的新功能的网站,Staton将开发使用新的软件工具和在线教育材料提供在专业会议上培训班。她希望这些工具将帮助促进网站的实用研究社区。此外,与其他科学家参与格兰特,Staton将帮助创建、测试和集成跨数据库挖掘功能和SSWAP(简单语义web体系结构和协议)服务的硬木数据库。她也会征求网站用户的反馈来确定服务和研究工具是最重要的科学家来完成他们的研究的目标。
收集和分析的最终目标大数据,Staton说树是森林健康和可持续性。