蛋白质组学中的“路灯效应”
蛋白质组学研究中的一个潜在问题
我们目前对人类、动物和植物生物学的理解很大程度上来自于对DNA密码的研究。然而,这种密码只是生物学中心法则的一个组成部分。DNA必须被读取并转化为蛋白质,蛋白质是细胞的“主力”,负责协调和执行特定功能。
高通量技术、生物信息工具和基于人工智能(AI)的方法的引入推动了该领域的发展蛋白质组学在最近几年。可以说,对健康或疾病状态下表达的蛋白质的研究尚未“进入临床”,但它正在指导诊断性生物标记物的开发、药物靶点的鉴定和新型生物制药的生产。在更广泛的生命科学中,蛋白质组学的应用是多种多样的。
人类蛋白质组计划(HPP),它的目标是生成一个基于蛋白质的人体分子结构的地图,已经发现人类蛋白质组的93.2%,鉴定出18407种蛋白质。
“蛋白质组学已经从一个孤立的领域转变为生物学研究的综合工具,可以用来解释生物学功能”- 写 刘亚辉等。
蛋白质组学的未来无疑是光明的。然而,一篇评论文章发表在自然方法今年早些时候,Kustatscher等人的研究引起了人们对该领域一个潜在问题的关注:一些蛋白质比其他蛋白质得到了更多的研究关注。
该出版物指出,估计有500种蛋白质(约占人类蛋白质组的25%)占所有生命科学出版物的95%。在前人类基因组计划时代,这些蛋白质中的大多数已经为科学界所知。肿瘤蛋白53 (p53),由于其在DNA修复和细胞分裂中的作用,有时被称为“基因组的守护者”,是最常被研究的蛋白质之一。“在众多令人不寒而栗的统计数据中,有一个事实是,p53每天都有两篇论文发表,”他说凯瑟琳·利利教授他是剑桥大学细胞动力学教授,也是该出版物的合著者。
为什么会存在这种注释偏差?
这种蛋白质注释中的不平等是由各种不同的因素造成的,Lilley解释说:“首先,蛋白质可能保持未注释是有实际原因的。这可能是因为它的表达水平很低,因此很少在实验中‘测量’到。”
极小的蛋白质,或者那些具有特定特性的蛋白质(比如疏水),即使是最复杂的分析技术也会面临挑战。一些蛋白质可以采取不稳定的状态,这种状态只存在几分之一秒,但却发挥着关键的生物学作用——被称为“短暂的蛋白质”,大多数研究可能没有捕捉到这种蛋白质。
“可能是它对应的基因或转录本在基因组学研究中并不‘有趣/重要’,或者它与任何疾病状态无关。此外,在可能的结构域结构、记录良好的基序或明确的进化轨迹方面,这种蛋白质可能不像任何其他蛋白质,”利利说。
她认为这些不切实际的原因在她看来“不那么容易接受”:“在科学研究中,人数有安全感。如果对一种蛋白质进行了充分的研究,可能会有更多的资源可以在不同的群体之间共享。如果科学界认为一种蛋白质非常感兴趣,那么通过高影响力机制发表研究成果的机会就会更大,从而导致高引用,随后就有更大的机会继续获得资助。”
这个周期可能不是蛋白质组学领域所独有的,它涉及到科学研究中更广泛的问题。但在这种情况下,它以承担风险为代价,助长了利利所说的“被充分研究的蛋白质组的自我延续的微观世界”。
“当研究发现了一组需要进一步研究的蛋白质时,令人沮丧的是,在文献中只发现历史上这些蛋白质被忽视了,许多只是因为没有重大的兴趣去追求,不够时髦来吸引资金,或者通常被认为有点‘沉闷’,”- Lilley。
为什么未被充分研究的蛋白质是有问题的?
偏向于充分研究的蛋白质抑制了我们对细胞功能和功能障碍的认识,最终阻碍了生命科学研究的进展。“未被充分研究的蛋白质组包含了许多增殖所必需的蛋白质的例子,增殖是一个关键的细胞过程,其异常功能是许多疾病的基础,癌症是许多研究领域中最相关的。这种偏见将扩展到大多数细胞过程,因此,如果没有对这部分蛋白质的功能注释,我们几乎没有机会完全理解细胞是如何工作的。”
许多用于治疗人类疾病的药物都是针对蛋白质的。数据来自DrugBank数据库美国食品和药物管理局(FDA)批准的所有药物总共针对620种蛋白质,包括转运蛋白、酶、离子通道和受体。Lilley说:“未被充分研究的蛋白质组包含了相当数量的有望被药物治疗的蛋白质。”
要发明一种新药,有临床前和临床发展的各个阶段必需的。基础研究和临床前试验依赖于模型,使科学家能够研究药物的功能在体外而且体内。然而,如果我们对细胞机制的基本知识存在缺陷,那么我们的模型也可能存在缺陷。利利指出:“了解蛋白质组中这一相当大的子集在疾病中的功能和作用,可能会导致药物发现向前迈出一步。”
未被研究的蛋白质计划
Kustatscher和同事们揭示了这个问题的严重性——但我们该如何解决呢?显然需要在蛋白质组学方法中做出改变,以使持续的循环停止。未被研究的蛋白质计划,一本小说威康信托基金会由Kustatscher等人开发的由美国资助的计划概述了一个解决方案:功能蛋白质组学社区的协调努力。这一计划表明,对于一种尚未被充分研究的蛋白质,可能是关于其相互作用、定位或表达的数据,这样就可以对其功能进行假设。“在理想的情况下,研究人员可以进行一些系统级别的功能分析,其中每个蛋白质都要测试特定的功能。一个很好的例子就是检测蛋白质是否与RNA结合。有许多常规方法可以进行这样的功能筛选,也可以在许多条件下应用;有些蛋白质可能只在特定的情况下才能与RNA结合,”利利解释说。
使用这些功能数据,将更容易明确哪个领域或实验室最适合对该蛋白质进行进一步的详细研究。从本质上讲,这项任务分为两部分:组学科学家的大规模预表征,其次是集中的分子生物学研究。Lilley说:“更多的系统范围的研究将需要生物系统的一致、一系列测试条件、资源共享和一套全面的方法来‘刺激和刺激’未被研究的蛋白质组。”“尤其重要的是数据共享、管理、数据库集成和动态细胞模型的创建。建立在资源上,比如MuSIC 1.0, Ideker实验室的细胞分层图这是一个非常好的起点。”
她继续说:“然而,作为警告,手头的任务几乎是无法计算的。我们还没有充分计算出蛋白质组的大小。如果考虑到可能存在的蛋白质形态的数量,换句话说,通过转录后和翻译后处理的不同化学实体的数量以及这种处理可能的组合性质,蛋白质组的大小将扩大多个数量级。”
不管预期的挑战有多大,总得从某个地方开始。蛋白质研究计划发布公开邀请给研究人员,概述项目的“路线图”。一个公开调查已经作为第一步推出,它展示一个随机选择的人类蛋白质,并要求用户将其分配到注释级别。接下来,调查要求用户描述他们会为评估提出哪些工具、资源和考虑因素。
“根据对调查的回应,我们的目标是定义社区努力解决蛋白质注释偏见的挑战。我们将在一个研讨会上展示和讨论结果。状态。研讨会期间将讨论的核心问题包括:
- 关于一种未知蛋白质的什么新信息会引发详细的机制研究?
- 什么样的工具可以提供这些信息?
- 如何构建一个财团?
- 这些信息如何有效地传递给分子生物学家,从而引发改变?
采取行动
科学上一些最伟大的成就都是建立在承担潜在风险的基础上的。这似乎是势在必行的——可以说比以往任何时候都更重要——研究人员都要自信和自在地从事对不太为人所知或理解的蛋白质的研究,而不考虑预期的分析挑战或蛋白质“乏味”的看法。谁知道我们会发现什么——也许是我们这个时代一些最具挑战性的科学难题的解决方案?
“未研究蛋白质倡议”正在引领潮流,并鼓励社区通过参与调查和传播消息来参与其中。