综合组学分析
填写下面的表格,我们会将PDF版本的“综合组学分析”
乔什·p·罗伯茨
技术和计算能力已经允许对不久前还必须是零敲碎打的研究进行全面检查。“组学”——以及与之相关的“组学”——现在在生物研究中无处不在。基因已经把聚光灯(如果不是脚灯的话)让给了基因组,把蛋白质让给了蛋白质组,把代谢物让给了代谢组,把微生物群让给了微生物组。在这个过程中,遗传学已经把聚光灯让给了基因组学,等等。
选择供应商
不满足于一次只研究一个国家的研究,一个人数不多但不断增长的群体正在将他们的研究推进到下一个合乎逻辑的步骤:多组学。在这里,单个ome被视为系统或有机体(让我们称之为M)这一更大的难题的一部分。M的基因不仅在决定他是谁和他是什么方面发挥作用,包括他现在和未来的精神和身体健康,而且他的mRNA、蛋白质和代谢物也起着决定作用。他的肠道菌群也是如此。影响所有这些的还有甲基化和磷酸化模式,miRNA,饮食和心率,以及信号分子和其他所有反馈到M网状网络的东西。
研究多组学有望更全面地了解生物及其在生态系统中的位置。它可以帮助梳理出单个“组学”无法明确的路径。它允许识别使用单一“组学”未见的生物标志物,并验证由单一“组学”发现的其他生物标志物。它可以让我们深入了解生物体的运作方式,这些运作方式如何受到疾病或其他力量的干扰,以及发展补救措施(如治疗学)来纠正错误。
然而,采用多组学方法并不像向单一组学模型添加另一个数据点那么简单。组合“ome”增加了额外的挑战,例如数据的标准化和兼容性、缺乏适当的统计和计算工具、数据架构问题等等。然而,已经产生了成果,继续取得进展,该领域是乐观的。
”组学与大数据
即使是进行单一组学研究,其主要问题之一也源于产生的大量数据,以及处理这些数据所需的计算能力。例如,Illumina公司的HiSeq 2500可以在一次运行中生成高达1tb的测序数据。1这些信息需要以一种能够存储、保护、检索、共享和分析的形式存在。
英属哥伦比亚大学(University of British Columbia)数据科学硕士项目助教Tiffany Timbers博士指出,基因组学研究幸运(或诅咒)在很大程度上由单一平台主导,它已经存在了一段时间,因此有相当大的标准化和许多良好的策略来有效和高效地存储和访问数据。
“但从现象组的角度来看,这并不是一个解决的问题,”Timbers哀叹道,他对秀丽隐杆线虫的研究涉及基因组学和现象组学的结合。“我们录制视频——你储存原始视频吗?是否存储中间文件类型?与之相关的元数据是什么?并非所有该领域的研究人员都同意这一观点,所以每个人的研究都略有不同。”
在处理其他“组学”时,也会出现类似的问题。举个简单的例子:蛋白质组学中应该如何处理翻译后修饰?它是一个单一的蛋白质有多个磷酸化,还是每个磷酸化状态被认为是一个不同的实体?它们之间有什么联系?沃特斯公司信息学首席产品经理Robert Tonge博士表示,就像代谢物一样,“有多种标准方法来描述同一种物质,这是一个问题。”“你需要用一种与你要搜索的数据库兼容的方式来描述你的差异。”
虽然“组学”可以使用内部资源来完成,但SCIEX全球技术营销总监克里斯蒂·亨特博士说:“对实验室来说,建立所有的服务器基础设施并使其保持最新状态,让人管理它,保证它的安全等等,这是一项巨大的投资。”
最常提倡的解决方案是云计算,其中数据被上传到并存在于大型远程服务器群中。例如,Illumina操作基于云的BaseSpace Sequence Hub平台,数据可以直接从Illumina测序仪上传或流式传输到该平台。站点上托管了一组应用程序(有些来自第三方),允许用户在单个环境中组织、操作和分析数据以及查询数据库。
汤吉指出:“云计算为团队带来了巨大的处理能力,可以在需要时启动——你不需要拥有自己的资源,因为大部分时间都没有任何工作。”
多元组学和大数据
一旦不同的群体被要求相互交谈,数据管理问题就会呈指数级增长。问题不在于数据的数量——这很可能只是加法——而在于数据之间的差异,以及如何将一个组与另一个组关联起来。这看起来似乎很简单,因为基因组编码转录组-这些可以通过将每个A、G、C和T映射到U、C、G和A来对齐。类似地,转录组的每三个碱基(退化地)编码一个给定的氨基酸,从而使蛋白质组依次与转录组对齐。(这种过分简化只是为了说明下一点。)
“所以如果基因组学发生了变化,你就会期望看到等效蛋白质的变化。但我们不知道蛋白质是如何影响代谢物或脂质的——我们不完全理解数据矩阵中的所有联系,”Tonge指出。
太平洋西北国家实验室生物科学部主任Janet Jansson博士说:“最大的挑战之一是如何在数据集之间进行整合——这样的例子并不多。”“我们处理它的方法是查看不同数据类型的相对丰度数据。把它想象成一个巨大的Excel表格。然后你就可以建立网络,用节点和线路连接数据网络。”例如,节点可能是来自不同生态位的细菌16S基因,每个节点可能有10到20个不同的代谢产物与不同的节点相关,对于其他' ome也是如此。“因此,以图形方式表示数据是可能的——这是一种方法。”另一种方法是,“如果你正在研究基因、转录本和蛋白质,它们都有相同的代码”,基本上是将数据堆叠在一起,使它们与通路中的特定基因对齐。
当然,这并不是要把数据规范化的任务简化,而是要把数据提炼到“相对丰富”的程度(亨特称之为“相同的货币”)。这是大部分工作发生的地方。不过,亨特说,一旦完成了这项工作,“不同技术、不同‘群体’之间的比较就会变得更加普遍。一旦你提炼出样本与定量的主要热图,那么跨平台的比较就变得通用且容易了。”例如,SCIEX在BaseSpace上提供应用程序(它称之为OneOmics)来整合蛋白质组学和基因组学(转录组学)数据。
斯坦福大学基因组学和个性化医学中心主任迈克尔·斯奈德博士说:“如今,你可以将大数据提取到生物途径和类似的东西中,以便从中获得意义。”
脚本和数据库
许多现有的基于网络的工具——无论是开源还是商业产品——旨在允许研究人员使用他们的组学数据来查询公共和专有数据库。例如,Clarivate Analytics的MetaCore和Key Pathway Advisor、Qiagen的Ingenuity Pathway Analysis和Advaita的iPathwayGuide等软件套件将使用策划集合将客户的组学数据与已知或预测的生物途径以及其他可能对生物标志物或药物发现有价值的信息联系起来。可公开访问的web界面和数据库,如IMPaLA、KEGG、Reactome、Pathway Commons和WikiPathways,也可以提供类似的功能。
例如,输入一系列在癌变组织中上调或下调的基因、蛋白质和代谢物,可能会得到一系列受到影响的途径——通常是一些相关领域的途径,如脂肪调节,或蛋白质转换,“或其他一些高级生物学描述物,”汤吉解释说。虽然这可能不会产生直接的因果关系,但“所有这些数据都开始指向一个特定的方向。”
前进
Illumina公司市场开发高级总监布雷迪·戴维斯(Brady Davis)表示,从历史上看,研究人员使用内部DIY工具来整合他们的数据集,但许多DIY工具无法规模化。“我们看到了一种转变,像Illumina这样的组织正在构建平台来帮助加速……因此建立数据模型,使数据变得规范化,并将其带入一个生态系统,你可以进行分析,并对数据集进行准确的搜索。”
在DIY领域,像Timbers这样的人的观点是,商业平台“让你做某些事情,但(不)让你做你想做的所有事情,或者如果你会计算机程序,你就能做的事情。”她主张在生物相关课程中进行更多的统计和计算培训。“我们的想法是,也许我们可以创造‘生物信息学中产阶级’,这样生物学家至少更容易与计算人员合作,交谈,说相同的语言,甚至自己实现一些事情。”
“现在的技术足够强大,任何人都可以收集这类数据。你仍然需要非常专业才能弄清楚如何分析和结合它们,”斯奈德说。所以现在“你可能会想和专家谈谈,这样你就能正确地做这件事——至少你知道问题是什么。”
结论
组合不同类型的数据并不新鲜,即使“多组学”这个术语是。就像警察可能会使用足迹和毛囊证据以及目击者的证词来帮助破案一样,基因、蛋白质组学和生活方式已经被共同用于提供更全面、更完整的健康和疾病中的生物体图像。现在才开始意识到的是,计算能力和工具能够将这些结合在一个“经济规模”上。
引用:
1.http://www.illumina.com/systems/hiseq_2500_1500/performance_specifications.html
乔希·p·罗伯茨,自由撰稿人,现居美国明尼阿波利斯市
完成下面的表格,解锁访问此音频文章:“综合组学分析”