灰姑娘和质谱:洞察力的多维数据分析
蛋白质组学是一种强大的技术分析low-abundance蛋白质疾病研究。但它的停滞不精确,通常不能复制的数据分析。一些研究者可以识别这些蛋白质与信心。那些能将取得突破。
这里我们解释我们的非常简单的想法:使用多维分离——已经在色谱应用化学——数字滤波器从搜索引擎的猜测正确的肽id,特别是data-independent收购(DIA)数据。
串联质谱仪(MS / MS),如粒子对撞机和太空望远镜,产生的大数据集动态范围横跨数量级。MS / MS生物分子分析非常接近物理比传统化学。而物理使用强大的服务器我大海捞针地从深数据发现,蛋白质组学是困在浅滩的简单的电脑程序计算主观概率的分数。期待physics-level精度没有physics-level这只是一厢情愿的想法。
普遍的数据分析使用二项概率(i。e彩色球从一袋)模型碎片离子信号不独立同分布(概率的“IID”要求),注入随机不确定性物理质量/ (m / z)数据。不同的软件使用不同的概率匹配片段(6%比10%);所有模型定性达成简单的“是”和“不”的答案,但不同中间最重要的。许多实验室治疗分析软件作为一个黑盒,选择一个宽松——就像一个球员寻求最宽松的老虎机,报道最id。流行的个人电脑程序可以诱导IDs识别多15%比现实——一个不可能的高水位线任何严格的软件。他们对非再生性。
这里我们说明如何产生精确和可重复的结果通过比较二维和一维数据分析匹配碎片离子- MS / MS DIA分子识别的基础——从第一原理。
多肽和蛋白质是物理对象的真实身份,不能分辨与MS / MS。我们发现这惊人的简单抽象:一个高灵敏度的搜索引擎猜测许多假说从质谱肽ID。高度专一多维过滤器使用物理参数接受少量的假设高发肽id。例如,直觉表明肽> 20碎片离子比赛< 0.01 m / z平均误差可能是正确的;散点图证明和扩展这个直觉。注意搜索引擎的内在主体性是无关紧要的,只要它足够敏感,包括正确的肽的猜测。
质量规范标识:灰姑娘的故事
去欣赏质量规范的信息不对称,考虑其平行于灰姑娘的故事。如果鞋不适合,它肯定不是她的。但如果它符合,我们不知道这是她还是一个随机的女孩。
所以MS / MS识别类似于识别灰姑娘在一个相当大的城市用一只鞋(前体质量)加上一个完整的衣柜(许多片段m / z)。的概念只不过是这样的:一个女孩有可能我们的猎物,如果她是局外人的数量和服装适合的紧张。
MS / MS肽ID的假设可能是正确的在某种程度上这是一个离群值的数量和亲密的匹配m / z的时期。
从根本上说,信心不能达到100%,由于可能的随机匹配,但它与每个密切匹配片段增加渐近m / z。
长肽(有对等的片段)识别允许更高的信心。长肽也是少的一部分蛋白质;一个足够长的时间是其特有的蛋白质。最后,与许多匹配片段,一个精确的前体质量变得不那么重要——DIA分析非常重要。
自然策略分析出现任何low-abundance蛋白质:试图捕捉至少一个使用DIA protein-unique肽,将指定的代理为其“昙花一现”蛋白质鉴定和相对定量。这就消除了数据不精确推理来自多个肽的蛋白质。此外,它可能是几乎不可能捕获多个肽从极低丰度蛋白质。
一个敏感的搜索引擎是不够的
MS / MS天生不识别分子本身,而是报道片段被比作一个假设。我们可以把肽识别作为一个纵横字谜(肽)和数值(片段m / z)的线索。大多数人解决一个纵横字谜gross-guessing单词,然后看看任何一个适合非常好。
适用于相同的抽象。一个高灵敏度的搜索引擎gross-guesses许多肽假说——越多越好——使用主观标准(搜索分数)。高度专一过滤器接受最多一个正确的肽谱ID。对于信息的完整性,过滤标准都应该使用物理参数和不同于搜索分数。
我们可以看出,对于简单的基准测试用干净的数据,几乎所有搜索引擎识别几乎所有的肽。但对噪声谱,它需要计算密集型,互关联的搜索引擎包括真正的肽在猜测。不幸的是,当前工作流使用不精确的过滤器,无意中抑制low-abundance肽。这就是为什么他们很少发现即使在工作流使用敏感的搜索引擎。
数据驱动意味着所有数据和模型
说明物理多维数据挖掘中,我们使用一个DIA数据文件从一个感染样本运行在热科学问Exactive高频(由妮可Kruh-Garcia博士,科罗拉多州立大学)。3 gb文件搜索一夜之间(mass-tolerant target-decoy,没有修改)魔法师™艾达,保持最高的100为每个搜索结果。四百万肽ID假设29 k独特的光谱产生。
肽识别意味着接受也许几千肽IDs中4 m假设。如何?我们寻找视觉异常值在一个二维散点图。
在图1中,我们可以清楚地看到地区高信任度id(主要是绿色)和主要随机假设(混合绿色/黑色)隔开一个过渡带对应“是的”,“没有”和“也许”。
SorcererScore的基础™是模范自由搜索引擎结果的数值滤波。其第一代(2016年蒋介石)视数据采集数据使用四维。第二代将优化DIA数据使用相同的原则。
图2显示了这两个参数为1 d分布,分别对目标和诱饵,最高分的假设。很容易看到,一维分数失去信息对low-abundance肽和精度很重要。
总之,我们说明SorcererScore简单抽象的深蛋白质组学:一个敏感的搜索引擎猜测ID假说;高度专一过滤器接受最多一个ID。长肽ID标识的蛋白质。类似于医用x射线解释,SorcererScore使用视觉线索——而不是概率模型——semi-interactive分析。精确的数据驱动的分析意味着没有复杂的统计建模。同样的原理可以应用于确定的其他生物分子碎片很容易预测。
参考:蒋介石D(2016)如何识别Low-Abundance修改肽与蛋白质组学质谱分析。MOJ蛋白质组学Bioinform 4 (5): 00133。DOI: 10.15406 / mojpb.2016.04.00133