灰姑娘和质谱分析:深刻的多维数据分析
蛋白质组学是一种用于疾病研究的分析低丰度蛋白质的强大技术。但由于数据分析不精确,而且往往无法重现,这项工作陷入了僵局。很少有研究人员能够自信地识别出这些蛋白质。有能力的人才能取得突破。
在这里,我们解释一下我们强大而简单的想法:使用多维分离——已经在化学色谱中应用了——从搜索引擎的猜测中数值过滤正确的肽id,特别是使用数据独立采集(DIA)数据。
串联质谱仪(MS/MS),就像粒子对撞机和太空望远镜一样,产生了具有跨越数量级的动态范围的大数据集。与传统化学相比,MS/MS生物分子分析确实更接近物理。物理学使用强大的服务器来挖掘深层数据,以便大海捞针式的发现,而蛋白质组学则被简单的PC程序困在浅层,计算主观概率分数。期望物理级的精度而没有物理级的IT只是一厢情愿的想法。
流行的数据分析使用二项概率(即袋子中的彩色球)来建模不独立和同分布的碎片离子信号(概率的“IID”要求),这将随机不确定性注入物理质量/电荷(m/z)数据中。不同的软件对匹配的片段使用不同的概率(6% vs. 10%);所有模型都能在简单的“是”和“否”答案上达成质的一致,但在最重要的问题上存在差异。许多实验室将分析软件视为一个黑盒子,并选择一个松散的——就像玩家寻找最松散的老虎机一样——报告最多id。流行的PC程序可以比实际情况多识别15%的id,这对于任何严格的软件来说都是不可能的。它们促成了不可复制性。
在这里,我们说明了如何通过比较匹配片段离子的2D和1D数据分析来产生精确和可重复的结果——这是MS/MS DIA分子鉴定的基础——从第一性原理开始。
多肽和蛋白质是具有真实身份的物理对象,仅用MS/MS无法识别。我们发现了这个非凡的简单抽象:一个高灵敏度的搜索引擎从质谱中猜测许多肽ID假设。高特异性多维过滤器使用物理参数接受少量假设作为高可能性肽id。例如,直觉表明,>20个片段离子匹配在<0.01平均m/z误差的肽可能是正确的;散点图证明并扩展了这种直觉。请注意,搜索引擎固有的主观性是无关紧要的,只要它足够敏感,在它的猜测中包含正确的肽。
质谱鉴定:灰姑娘的故事
要理解质谱仪的信息不对称,可以把它比作灰姑娘的故事。如果鞋子不合脚,那肯定不是她。但如果吻合,我们就不知道是她还是别的女孩了。
因此,MS/MS鉴定类似于用一只鞋(前体质量)加上一个完整的衣柜(许多碎片m/z)在一个相当大的城市中识别灰姑娘。这个概念无非是这样的:如果一个女孩在合身的衣服数量和松紧度方面都是异类,那么她就可能是我们的目标。
MS/MS肽ID假设在一定程度上是正确的,因为它在匹配m/z的数量和接近度上都是异常值。
从根本上说,由于可能的随机匹配,置信度永远不能达到100%,但随着每个紧密匹配的片段m/z,置信度逐渐增加。
更长的肽段(具有更多的匹配片段)允许更高的置信度识别。较长的多肽也是较少蛋白质的一部分;长度足够长的蛋白质是独一无二的。最后,有了许多匹配的碎片,精确的前体质量变得不那么关键——这对DIA分析非常重要。
一种分析任何低丰度蛋白质的自然策略出现了:尝试使用DIA捕获至少一种蛋白质独特的肽,它将被指定为其“一次性奇迹”蛋白质的替代品,用于识别和相对定量。这消除了从多个多肽推断蛋白质的统计不精确性。此外,从非常低丰度的蛋白质中捕获多个肽几乎是不可能的。
灵敏的搜索引擎是不够的
MS/MS本质上并不识别分子本身,而是报告与假设相比较的片段。我们可以把肽识别看作是一个带有数字线索(片段m/z)的填字游戏(肽)。大多数人通过粗略猜测单词来解决填字游戏,然后看看是否有哪个单词特别合适。
同样的抽象也适用。一个高灵敏度的搜索引擎粗略猜测许多肽假设-越多越好-使用主观标准(搜索分数)。高特异性过滤器最多接受一个作为其谱的正确肽ID。为了信息的完整性,过滤标准应该使用物理参数,并且与搜索分数不同。
我们可以看到为什么对于简单的基准测试和干净的数据,几乎任何搜索引擎都能识别出几乎所有的肽。但是对于有噪声的光谱,它需要一个计算密集型的相互关联搜索引擎来将真实的肽包含在它的猜测中。不幸的是,目前的工作流程使用不精确的过滤器,在不知不觉中抑制了低丰度肽。这就是为什么即使在使用敏感搜索引擎的工作流中也很少发现它们的原因。
数据驱动意味着只有数据,没有模型
为了说明物理多维数据挖掘,我们使用了一个DIA数据文件,该文件来自Thermo Scientific Q Exactive HF上运行的受感染样本(由科罗拉多州立大学的Nicole Kruh-Garcia博士提供)。这个3GB的文件在一架SORCERER上搜索了一夜(容忍质量,目标-诱饵,没有修改)™保存每个搜索的前100个结果。为29K个独特的光谱产生了400万个肽ID假设。
肽识别意味着在4百万个假设中接受几千个肽id。如何?我们在二维散点图中寻找视觉异常值。
在图1中,我们可以清楚地看到高置信度id(大部分为绿色)和大部分随机假设(绿色/黑色混合)的区域,由对应于“是”、“否”和“可能”的过渡带分开。
《SorcererScore》的基础™是搜索引擎结果的无模型数值过滤。其第一代(Chiang 2016)数据依赖采集数据使用四个维度。第二代将使用相同的原理对DIA数据进行优化。
图2显示了这两个参数作为一维分布,分别用于目标和诱饵,对于得分最高的假设。很容易看出,一维分数失去了对低丰度多肽重要的信息和精度。
总之,我们阐述了SorcererScore对深层蛋白质组学的简单抽象:一个敏感的搜索引擎猜测ID假设;高特异性过滤器最多接受一个ID。一个长肽ID标识蛋白质。类似于医学x射线解读,SorcererScore使用视觉线索——而不是概率模型——进行半交互式分析。精确的数据驱动分析意味着没有复杂的统计建模。同样的原理可以应用于识别其他生物分子,其片段可以很容易地预测。
参考:蒋D(2016)如何用蛋白质组质谱鉴定低丰度修饰肽。生物信息学4(5):00133。DOI: 10.15406 / mojpb.2016.04.00133