如何在细胞簇中找到标记基因
生物样本中的数千个细胞都是不同的,可以逐个细胞进行分析。根据它们的基因活性,可以将它们分类为簇。但是,哪些基因是特定集群的特别特征,即它的“标记基因”是什么?一种新的统计方法称为关联图有助于这些标记基因的确定和分析。
哪些基因是特定于某种细胞类型的,即“标记”它们的身份?随着如今数据集规模的不断增加,回答这个问题通常是具有挑战性的。通常,标记基因只是在特定的细胞群中发现的基因。然而,更多的基因可能是一种特定细胞类型的特征,但仍未被发现。
“关联图(APL)”是一种新的统计方法,用于可视化细胞集群中的基因活动,使其更容易找到其标记基因。这些图将一个给定簇的基因活性与数据集中的所有其他簇进行比较。此外,它们可以很容易地看出哪些基因与其他集群共享。
“关联图不仅允许我们识别新的标记基因。柏林马克斯·普朗克分子遗传学研究所的Elzbieta Gralinska说:“它也可以反过来工作——我们能够根据提供的标记基因列表,将数据集中未知身份的集群与细胞类型相匹配。”
这位生物技术专家隶属于Martin Vingron团队,该团队开发了这项技术,并在两个公开数据集上演示了其功能,并发表了结果。此外,APL已作为统计环境r的免费模块发布。APL包允许研究人员直观地检查他们的单细胞数据,并使用光标选择单个基因以了解更深入的细节。
分析和分组单个细胞
为什么必须首先识别标记基因?现代测序技术能够破译单个细胞中的单个RNA分子。例如,从血液样本中,每个细胞都可以被分离,细胞的rna样本可以被解码。这些单细胞数据代表了转录成RNA分子的活性基因。
这样做的好处是:不必纠结于特定的RNA属于哪种细胞类型,而是可以追溯到它的起源细胞。缺点是:从数万个细胞中对每个细胞中的数千个rna进行测序会产生大量的数据。
一种方法是根据RNA含量对细胞进行分类。“单细胞数据由许多不同类型的细胞混合而成。我们感兴趣的是同一细胞类型的细胞,它们应该都有相似的行为,”Martin Vingron解释道。因此,对相似的细胞进行计算分组是有意义的,他说。“对我们来说,标记基因定义了细胞类型。”
交互式地探索细胞集群
利用公开的白细胞数据,该团队演示了新算法的工作原理。许多不同类型的白细胞,如t细胞、b细胞或单核细胞都分组在单独的簇中。研究人员证实了已知的标记基因,并能够证明血细胞之间的近亲在基因活性上也有很大的相似性。
“我们在APL中发现的每一个标记基因都可以通过至少一种现有的标记基因鉴定方法发现,”Gralinska说。但APL相对于现有算法的优势在于其结果的图形表示,她说。“现有的工具提供了很长的基因列表和分值。通常情况下,用户浏览列表并在任意的分割线处停下来。”
她说,相比之下,新方法提供了一种可视化这些基因的方法,点击每个基因并仔细观察其活动。“我们不仅提供标记基因的列表,我们还允许用户回顾这些基因的行为,”研究人员说。“通过关联图,他们可以深入研究数据,更多地了解每种细胞类型。”此外,她说,通过基因本体论术语丰富分析,在接下来的步骤中很容易分解最有趣的基因的生物学作用,这与APL软件兼容——她认为这是“一个非常有用的功能”。
底层的数学模型
包含跨基因活动信息的高维数据不能在不丢失信息的情况下直观地表示。对于集群数据也是如此,所有这些都使分析复杂化。“我们的技巧是,我们考虑的不仅仅是二维或三维,而是最终创建一个二维图表,”Gralinska说。
关联图来源于一种同时将基因和细胞嵌入共同的高维空间的数学技术。在这个空间中,测量基因和给定细胞簇之间的距离会得到成对的值,这些值反映了一个基因与给定细胞簇的关联,并能深入了解它与其他细胞簇的关联。
“APL的一个缺点是我们依赖于预先聚类的数据,这意味着我们必须依赖其他技术来进行聚类,”Martin Vingron说。“尽管如此,我们希望我们的新方法能找到很多新用户。我们发现,可视化和交互式的过程可以更好地进行分析。”
参考:Gralinska E, Kohl C, Sokhandan Fadakar B, Vingron M.利用关联图从单细胞转录组数据中可视化集群特异性基因。J Mol生物学.2022, 434(11): 167525。doi:10.1016 / j.jmb.2022.167525
本文已从以下地方重新发布材料.注:材料的长度和内容可能经过编辑。如需进一步信息,请联系所引用的来源。