集成组学分析
乔什·p·罗伯茨
技术和计算能力允许大规模考试的,不久前,一定零碎的研究。的地步,与他们的组学——现在普遍在生物研究。基因已经放弃了聚光灯下(如果不是脚灯)基因组,蛋白质,蛋白质组,代谢产物代谢物,微生物的微生物群。在这个过程中,遗传基因组学将聚光灯下,等等。
不满足于只看一个的一次,一个规模虽小但增长或有学习下一个合乎逻辑的步骤:multi-omics。在这里,一个单一的中耳炎,被视为一个更大的难题是系统或生物(我们称之为米)。M基因发挥作用不仅在确定他是谁,包括他的当前和未来的身心健康,但他的信使rna,蛋白质,和代谢物。所以也做他的肠道菌群。影响这些也都是甲基化和磷酸化模式,microrna,饮食和心率,以及信号分子和其他东西都反馈到M的网状网络。
研究multi-omics承诺给一个更全面的有机体的照片和其在生态系统中的位置。它可以帮助梳理途径不明确从单一的使。它允许鉴定生物标记看不见的使用单一的使,别人的确证,发现由单一的使。它可以导致对有机体的工作,这些工作可能是由疾病或其他部队,摄动和补救措施的发展(如疗法)设置。
然而采用multi-omics方法不是简单地添加另一个数据点single-omics模型。结合“化为增加了额外的挑战,如标准化和兼容性的数据,缺乏适当的统计和计算工具,数据架构问题,等等。但结果已经生成,继续取得进展,该领域是乐观。
”组学和大数据
的一个原则的问题甚至single-omics工作源于生成大量的数据,因此所需的计算能力危机。例如,Illumina公司HiSeq 2500可以生成一个tb的测序数据在一个单一的运行。1信息需要的形式,这样它可以存储、保护、检索、共享和分析。
基因组学研究的财富(或诅咒)很大程度上是由一个单一的平台,它已经存在了一段时间,所以有相当大的标准化和很多好的策略来有效且高效地存储和访问数据,指出蒂芙尼木材,硕士博士,讲师的数据在英属哥伦比亚大学的科学项目。
“但从现象学的角度来看这不是一个解决问题,“哀叹木材,对秀丽隐杆线虫的研究涉及整合基因组学和phenomics。“我们记录的视频——你存储的原始视频吗?你存储中间文件类型吗?元数据是什么,,你会联想到什么?不是所有研究人员穿过田野同意,所以每个人都做一些稍微不同的东西。”
类似问题脱颖而出在处理其他“组学。采取一个简单的例子:在蛋白质组学转录后修饰应如何处理?它是一个蛋白质,有多个磷酸化,还是每个磷酸化状态被认为是一个不同的实体?他们是如何相关?局势变得更加模糊的时候,像代谢物,”有多个标准的方法来描述同样的事情——这是一个问题,”罗伯特•汤奇说博士原理产品经理,公司信息水域。“你需要描述差异的方式兼容数据库,你要搜索。”
而“组学可以通过使用内部资源,“这是个大投资实验室设置所有的服务器基础设施和保持最新,有人管理,保持安全,等等,”克里斯蒂猎人说,博士,SCIEX全球技术营销主管。
云计算最常提出的解决方案是,在数据上传到远程服务器,住在大的农场。Illumina公司,例如,基于云的BaseSpace序列中心平台数据可以上传或流直接从Illumina公司测序。应用程序的集合,一些来自第三方,驻留在该网站,允许用户组织、处理和分析数据,查询数据库在一个单一的环境。
“云给党带来潜在的大量的处理能力,可以根据需要打开,你不需要拥有自己的资源,绝大多数的时间不做任何工作,“汤奇指出。
Multi-omics和大数据
一次不同的要求与对方的地步,可以增加指数数据管理问题。这不是这么多的数据量——这很可能仅仅是添加剂——数据之间的差异,以及如何关联一个“使。这看似简单的基因组中编码转录组——这些可以被映射每个对齐,G, C,和T U、C、G、A .同样,每个转录组的三个基地(退化)编码给定的氨基酸,使蛋白质组依次对齐到转录组。(这简化图只是说明下一个点。)
“如果你有基因组的改变你想看到的改变等效蛋白质。但不清楚的是蛋白质如何影响代谢物或脂质——我们不完全理解所有连接在数据矩阵,”汤奇指出。
“最大的挑战之一是如何集成在数据集——没有很多例子,”珍妮特简颂说,博士,部门主管在太平洋西北国家实验室生物科学。“我们的方法是看相对丰度数据的数据类型。认为它像一个巨大的Excel表。然后您可以构建网络,节点和线路连接网络的数据。“例如,节点可能是细菌16 s基因来自不同的领域,并为每个节点可能有十个或二十个不同的代谢物相关的各个节点,等等其他的地步。“所以可以图形化表示的数据——这是一种方法。”的另一种方法,“如果你看基因和转录和蛋白质都有相同的代码”是本质上桩上的数据的对齐他们特定的基因通路。
当然,这并不是规范数据的完成的任务——提取下来的就只是“相对丰度”(亨特所说的“相同的货币”)。这是大部分工作发生的地方。不过,一旦完成了,亨特说,“比较不同的技术,不同的地步,开始变得更加的货币。…一旦你提炼到样本的主要热点图和定量(密度),然后跨平台成为通用的,比较容易做到。“SCIEX,例如,提供了应用程序(它调用OneOmics) BaseSpace整合蛋白质组学和基因组学(转录组)数据。
“这些天你将大数据提炼成生物通路和这样的事情为了从中获得意义,”Michael Snyder说,博士,基因组学和个性化医学中心主任,斯坦福大学。
脚本和数据库
许多可用的基于web的工具——无论是开源或商业产品,旨在允许研究人员使用他们的组学数据查询公共和私有数据库。软件套件,如Clarivate分析“MetaCore和关键途径顾问,试剂盒的聪明才智通路分析,Advaita iPathwayGuide,将使用策划集合联系客户的数据使已知或预测生物学途径和其他信息可能有价值的生物标志物或药物发现,例如。公共web接口和数据库如黑斑羚,KEGG, Reactome,通路,WikiPathways,可以提供类似的功能。
喂养的基因、蛋白质和代谢产物,或抑制在癌变组织,例如,可能产生影响的路径列表,通常几个脂肪等相关领域的监管,或蛋白质周转,或其他高级生物描述符,“汤奇解释道。虽然这可能不会产生直接的因果关系,“所有这些数据然后开始指向一个特定的方向。”
前进
过去,研究者使用内部,DIY工具把数据集在一起,布雷迪·戴维斯说,高级Illumina公司市场开发主管,但很多DIY的工具不规模。“我们看到一个转变有组织Illumina公司建设平台,帮助加速…所以构建数据模型,使数据变得规范化和带进一个生态系统,您可以构建与精度分析和数据集上做搜索。”
视图像木头的DIY空间是商业平台”让你做某些事情,但[不]让你做所有你想做的,或者你可以如果你能计算机程序。”她主张更多的统计数据,计算在基础课课程培训。”的理念也许我们可以创建“生物信息学的中产阶级”,这样至少生物学家更容易合作,交流,和计算的人说同样的语言,或者实现自己的一些事情。”
“现在的技术足够健壮,任何人都可以收集这些数据。你仍然需要很专家找出如何分析结合起来,”斯奈德说。所以现在“你可能想跟你做对的专家——至少你知道问题是什么。”
结论
结合不同类型的数据并不新鲜,即使“multi-omics”这个词。就像警察可以用足迹和毛囊的证据以及帮助解决犯罪目击者的证词,基因,蛋白质组学,和生活方式有集体被用于提供更全面,更完整的生物体在健康和疾病。现在才开始意识到什么是计算能力和工具能够把这些“使规模。
引用:
1。http://www.illumina.com/systems/hiseq_2500_1500/performance_specifications.html
乔什·p·罗伯茨是一个自由作家住在明尼阿波利斯,美国