数据平台如何释放单细胞分析的力量?
单细胞技术已处于生物医学研究的前沿。这些平台允许研究人员绕过大量数据的不确定性,而是在以前无法达到的细节水平上询问生物系统。但这些系统的价值可能会因数据分析和处理方面的瓶颈而受损。为了了解更多,我们采访了Marilyn Matz,公司的首席执行官和联合创始人Paradigm4是一家分析解决方案公司,旨在为这些数据问题提供解决方案。
Ruairi Mackenzie (RM):你能多介绍一下你们的数据平台REVEAL吗?
玛丽莲·马茨(MM):我们从科学家和数据科学家那里听到了他们在处理越来越大、越来越复杂的数据集时遇到的挑战。我们开始帮助他们专注于他们的科学,更容易地提出和回答困难的问题,而不会陷入这样做所需的计算机科学机制。
我们的方法包括两个不同但相互依赖的部分:揭示TMsuite of apps是一个用户友好的、特定于应用程序的应用程序家族,位于我们独特的科学分析引擎SciDB之上TM是一个大规模可扩展的阵列原生分析平台,专门为科学数据和科学计算而设计。
科学家们还明确地告诉我们,他们想要更高层次的、以用例为重点的解决方案,而不仅仅是需要他们组装自己的工具组合的“生态系统”或工作空间。所以,每个都揭示TMapp被设计成一个完整的软件包,允许研究人员使用熟悉的R和Python语言查询和探测他们的数据。
结合SciDBTM和REVEAL™应用程序,我们为研究人员提供了一个具有成本效益,可扩展和可重复的存储和弹性计算平台,适合他们感兴趣的领域。例如,t他最近推出了《REVEAL: Single Cell》TMApp为生物制药开发人员提供了突破与大规模单细胞数据集分析相关的数据争论和编程挑战的能力。还有我们的揭秘:生物银行TMApp汇集了多种数据类型,如多组学数据、医疗记录以及生物特征和成像数据,以支持科学家进行人口规模的转化医学和医疗保健研究。随着应用程序家族的发展,我们也计划支持更多领域的生命科学研究。
RM:为什么单细胞数据集是现代研究的焦点?
MM:精准医疗的理念——在正确的时间以正确的剂量为正确的患者提供正确的药物治疗——是当前医疗实践和制药研发的思想基础。然而,在单细胞组学出现之前,研究人员一直在研究一个整体的图像——组织系统的组学,而不是单细胞类型的组学。
现在,单细胞分析已成为人们关注的主要焦点,并被广泛视为“游戏规则改变者”——通过将“正确的细胞”加入到混合中,有可能将精准医学提升到一个新的水平。
通过组学分析,特别是单细胞水平的基因组学、转录组学、表观基因组学和蛋白质组学,现在可以识别在生物过程中发挥关键作用的微小细胞亚群。而且,随着测序深度的增加,可以更深入地观察转录组和蛋白质组,单个细胞的生物状态将变得更加清晰,并改善对细胞类型和细胞状态的定义。
在实践中,肿瘤内的单细胞测序可以帮助肿瘤学家了解突变的分布及其在单个细胞内的共同发生,有可能指导治疗决策。有了这个新的工具箱,研究人员和临床医生可以深入了解从“健康”到“疾病”状态的转变,研究潜在的生物标志物,了解疾病途径的机制,并随着时间的推移评估对药物靶标或现有治疗方案的反应。
RM:我们如何加快转化医学中的数据检索?
MM:这是一个有趣的问题,因为虽然在几分钟或几小时内(而不是几天或几周)获得结果可能是向前迈出的重要一步,但事实上,在转化医学中数据检索的速度只是整个问题的一部分。
以单细胞DNA和RNA测序为例,每个患者的成千上万个细胞的信息都是可用的,虽然这为增加不断增长的数据集的统计能力提供了明显的机会,但与这种“大数据”相关的技术和解释挑战阻碍了应该出现的生物学见解。为了释放这一价值,生命科学家将需要以前所未有的分辨率、特异性和容量来处理组学的各种层次(基因组、表观基因组、转录组和蛋白质组),以及像人类细胞图谱(HCA)这样的参考图。
此外,我们需要记住,目前的单细胞数据集只代表了一小部分个体,统计学意义依赖于研究的患者数量,而不是细胞总数。这是因为来自同一患者的细胞是“兄弟姐妹”,而不是真正的生物复制。因此,包含100,000个患者/治疗条件的数据集将需要技术来管理数十亿的细胞。
所有这些都需要数据库平台,可以通过查询大量令人难以置信的单细胞数据来评估关键的生物学假设。许多现有的方法和工具根本不适合这一挑战。目前的方法需要重复的提取/转换/加载操作(数据科学的维护工作),每问一个数据问题都会增加时间和计算开销。许多还极大地限制了可以进行相互比较的单元格/数据集的总数。
这就是SciDBTM和揭示TM应用程序变得非常有用。基于“一次加载/QA -经常询问”的理念,以及以经济有效的方式评估数十亿个细胞的自然能力,这些应用程序利用现有基于云计算的机器上的容量,而不需要专用和昂贵的硬件。
RM:你们针对特定应用的解决方案下一步会把我们带到哪里——你能给我们介绍一下未来吗?
MM:弗里曼·戴森说:“科学的新方向往往是由新工具而不是新概念推动的。”对于生命科学来说,新的工具包括新的数据生成工具和数据收集计划,以及以独特的方式组合和挖掘数据的下一代软件。通过我们的平台,我们希望让科学家能够更容易、更经济地询问和回答关于他们的数据的更大、更复杂的问题,从而使他们能够进行突破性的科学研究。其结果是提高了能力和信心,以便更早地做出适应变化的决策,从而指导开发,并提供更早地访问复杂的实时数据,从而更早地检测疗效和安全信号。重要的是,通过与用户的合作,我们将继续扩展分析、计算和机器学习能力,这将有助于推动他们的创新。随着供应商引入新技术和工具包,研究界很快就会接受和利用成为“新常态”的东西。反过来,当他们解决问题时,新的信息就会产生,新的工具和方法就会开发出来,发现“新方向”的循环就会再次重复。
玛丽莲·马茨与图灵奖得主迈克尔·斯通布罗克(Michael Stonebreaker)共同担任首席执行官和联合创始人Paradigm4.她还在公司的董事会任职Teradyne是测试和工业应用自动化设备的领先供应商。