生物制药中的信息学:2022年是价值创造和投资回报率的一年
每年年初,每个行业的杰出人士都会被问及他们对未来一年的预测。什么会很热,什么不会。生命科学和制药行业,以及致力于这些领域的出版商也不例外。在过去的几周里,我读到了一些有趣的观点,例如:大规模处理更大、更复杂的数据集,机器学习(ML)和人工智能(AI)简化从多模态数据中提取见解的潜力,以及单细胞蛋白质组学的兴起。
有很多评论探讨了这些概念的潜在重要性,比如谷歌AI的2022年计划1一篇关于单细胞蛋白质组学的文章占据了中心舞台2因此,在这篇文章中,除了增加争论之外,我还将强调一些实际的例子,在这些例子中,信息学的新思维正在产生真正的影响。此外,我建议在2022年,药物发现和开发研究人员以及他们的生物信息学同事应该首先考虑一个相关的主题,即:“我的科学数据管理和计算平台如何在今年为我创造额外的价值和投资回报(ROI) ?”
机会-从疾病病因到临床药物
了解疾病的潜在基础一直是药物研究和开发的持续动力。长期以来,允许新分子实体(NME)通过发现和配方阶段,成为进入临床试验并获得市场批准的候选药物的数据一直是药物开发的货币。基因组学、蛋白质组学和代谢组学在过去三十年中的巨大进步推动了生物治疗学的兴起和生物制药行业的发展。例如,在2021年,FDA批准的50个NMEs中有一个是100th单克隆抗体产物。3.此外,FDA于2021年批准了首个用于癌症的KRAS抑制剂和首个用于阿尔茨海默病的抗淀粉样抗体。4
回顾过去,许多人认为,在第一个人类基因组测序之后,对疾病和药物发现的理解将会简化。然而,我们现在知道,生物系统比这更复杂,需要大量的数据来识别疾病和治疗方法。如何利用这些数据将是该领域如何继续发展的关键。
进步产生了大量的数据集
近年来,生物库已发展成为药物开发的核心资源。许多国家已经或正在发展当地的生物银行,包括英国(UK Biobank)、中国(Kadorrie)、日本(Jenger)、美国(All of US)和芬兰(FinnGen)。英国生物银行(UKBB)拥有来自50万参与者的7400种表型类别以及单核苷酸多态性(SNP)和全外显子组测序(WES)数据——这是人口健康数据可用性的一个重要里程碑。该公司目前正着手进行全基因组测序和蛋白质组学研究。
生成的海量多维数据集的一个关键应用是能够对数据集执行特别分析。要做到这一点还存在一些重大障碍。首先,连锁不平衡(LD)等算法的复杂性使得它们的获取非常复杂,并限制了计算的顺式位置,而不是染色体间的计算。LD提供了对遗传相互作用的见解,并可以与已知的物理相互作用数据集相结合,以测试与生理相关的物理相互作用,其中有遗传证据表明,当特定突变结合时,可以指向人体内的表型。由于LD代表了一个巨大的计算空间,因此找到一种计算LD的方法是至关重要的。当这些数据与丰富的表型信息集合相结合时,可以进行负担试验,以发现两个位点的突变之间的成对关系以及哪些突变对是结果性的。LD和负荷试验可以发现新的疾病驱动因素和以前不认为涉及疾病发展的相互作用。
ASHG的海报展示了这种力量5其中,涉及巴特综合征的KCNJ1基因突变和相互作用的细胞内支架蛋白SLC9A3R1/SLC9A3R2对LD和Burden进行了检测。英国生物银行数据集用于提供同义突变和表型信息。结果表明,蛋白质的特定突变与红血球的产生和肝脏炎症(一种假定的前兆)之间有很强的联系非酒精性脂肪肝(纳什))。发现新的疾病蛋白连接的能力是了解疾病起始和进展的一个非常强大的工具。
更复杂的是,单细胞核酸测序产生的数据比传统测序方法多几个数量级,并改变了药物发现的游戏规则。现在,单细胞蛋白质组学的目标是让我们更接近动态的转录后表型信息,例如,这将更好地为疾病诊断和药物反应提供信息。最近的实验将新型微流体技术与质谱技术相结合,可以测量每个细胞约1,000种蛋白质/“蛋白质形态”,相比之下,现有的流式细胞术和大规模细胞术方法只能识别每个细胞约50种蛋白质。6、7
在单细胞水平上结合遗传和蛋白质组学数据将允许沿着分子生物学的中心范式进行简单的测试,并快速确认从大型人类遗传数据集中产生的假设。随着可用的数据库进一步增加,ML和/或人工智能解决方案在数据解释和价值创造方面的前景开始发挥作用。然而,据我所知,即使是最乐观的展望也表明,ML和AI将需要3-5年的时间才能成为制药和医疗保健领域的既定价值创造战略。
用生物信息学创造价值
这里讨论的主题和例子突出了行业面临的重要生物信息学挑战。总之,它们指出了2022年成功研究和药物发现工作的核心必须是什么:在组织内部建立一种能力,在开发过程的每个阶段收集、策划和管理、计算、共享和询问所有相关数据。
为了有效,这必须以一种对研究科学家友好的方式来完成,在大规模数据集上进行大规模工作,并提供可预测的、具有成本效益的性能,这样组织就可以显著缩短时间,回答更多的大问题,并加速其发现的商业化。
前所未有的肯定是,数据驱动发现和开发决策,在2022年,信息学平台和方法必须根据释放价值的能力进行评估,并从海量可用数据中提供可衡量的投资回报率。
作者简介:
Zachary Pitluk博士是生命科学和医疗保健的副总裁Paradigm4.他在销售和营销领域工作了23年,从BMS的制药代表到生命科学技术公司的管理角色。自2003年以来,他曾担任Gene Network Sciences的业务开发副总裁和Proveris Scientific的首席商务官。扎克曾在耶鲁大学分子生物物理和生物化学系担任学术职位:副研究科学家、博士后和研究生,并被任命为多项专利的联合发明人。
引用:
1.人工智能在2022年及以后的计划。分析印度杂志。https://analyticsindiamag.com/google ais -计划- - 2022和- beyond/。2022年出版。访问15th2022年2月。
2.单细胞蛋白质组学成为焦点。自然.2021, 597(7877): 580 - 582。doi:10.1038 / d41586 - 021 - 02530 - 6
3..FDA批准第100个单克隆抗体产品。自然评论药物发现.2021; 20(7): 491 - 495。doi:10.1038 / d41573 - 021 - 00079 - 7
4.Mullard A. 2020年FDA药物批准。自然评论药物发现.2021; 20(2): 85 - 90。doi:10.1038 / d41573 - 021 - 00002 - 0
5.Pitluk, Z, Sarangi, S, colsimo, M, Moore, S, Peterson, M, Poliakov, A。ASHG事件.2021.使用REVEALTM: Biobank - Program #2881在英国生物银行WES数据中识别同义突变之间的合成相互作用
6.李志强,李志强,李志强,单细胞蛋白质组学研究。生化科学发展趋势.2021.https://doi.org/10.1016/j.tibs.2021.01.013
7.单细胞蛋白质组学成为焦点。自然.2021.https://www.nature.com/articles/d41586-021-02530-6