RAMclust/RAMsearch:基于ms的代谢组学数据集的高效后xcms特征聚类和注释
简介:色谱耦合质谱是一种强大的工具,用于分析,半定量或定量,具有灵敏度和选择性的小分子宽度。这些数据集的复杂性推动了特征发现、保留时间校准、特征分组和注释的信息学方法的发展。然而,来自单一化合物的信号的复杂性通常被低估,导致光谱再现性差、错误注释和对单个质量信号的错误解释。这种限制促使我们开发信息学工具来提高xcms后数据处理的质量。
方法:RAMclustR是用R开发的,并且是免费的。它在设计时考虑了内存限制,并以分钟为单位运行,但如果还使用峰值形状相似度评分,则可能需要一个小时。输出最初是一个R对象,其中包含一个与输入XCMS集相比降维的数据集,以及被写入.msp格式的光谱。这些谱可以包括MSE(无差别MS/MS)谱。这个msp格式被作为RAMseach的输入,RAMseach是一个基于。net的GUI,用于对NIST格式化的光谱库执行批量光谱搜索。结果可以以一种可以重新导入到ramclustR的格式输出。
初步结果:为输入XCMS R对象中的所有特征对计算RAMclustR特征相似度分数,其中特征相似度是数据集强度相关性、特征保留时间和峰值形状中个体相似性的乘积。每个分数的贡献都可以使用sigmoid函数进行调整,以便在必要时对结果进行评估和调整。与单个特征相比,输出数据集显示了更好的注入再现性,减少了错误发现错误率负担,并提高了注释质量。通过使用RAMsearch(一种用于批量搜索和手动验证搜索结果的新型GUI)将RAMclustR的输出光谱作为光谱搜索的输入,注释效率显著提高。RAMsearch的输出被导入RAMclustR,从而支持存储、可视化和共享给定注释的证据。这些输出适合作为数据集发布时的补充材料,以确保注释过程的透明度。该工作流通过自动化常规手动任务,将注释时间减少了几倍。此外,它旨在简化报告注释置信度的工作,这将使代谢组学数据的报告更加可靠、透明和可访问。