使用机器学习识别Undiagnosable癌症
第一步选择合适的治疗癌症病人是识别特定类型的癌症,包括确定原发部位——身体的器官或部分癌症的开始。
在极少数情况下,一个癌症的起源不能确定,即使有广泛的测试。尽管这些癌症的未知的主往往是咄咄逼人,肿瘤学家必须对待他们一道疗法,通常有严厉的毒性,导致低利率的生存。
新的深度学习方法由科赫研究所的研究人员开发的综合癌症研究在麻省理工学院和麻省总医院(MGH)可能有助于癌症分类未知的主通过仔细的早期细胞发育和分化相关基因表达程序。
“有时你可以应用病理学家需要提供的所有工具,,你还没有一个答案,“说Salil Garg查尔斯w(1955)和詹妮弗·c·约翰逊科赫研究所临床研究员和病理学家在MGH。“像这样的机器学习工具可以使肿瘤学家选择更有效的治疗,给病人更多的指导。”
加戈是一项新的研究的资深作者,8月30日发表在癌症的发现和麻省理工学院博士后Enrico Moiso是第一作者。人工智能工具能够识别癌症具有高度的敏感性和准确性。
机器学习的发展
解析差异基因表达不同的肿瘤中未知的主是一个理想的机器学习来解决问题。癌细胞的外观和行为完全不同于正常细胞,部分原因在于广泛的改变他们的基因表达。由于单细胞分析的进步和努力目录不同的细胞表达细胞地图册中的模式,有丰富的——如果,人类的眼睛里,压倒性的-数据包含如何以及从不同癌症的起源的线索。
然而,建立一个机器学习模型,利用健康和正常细胞之间的差异,以及不同种类的癌症,变成一个诊断工具是一个平衡。如果一个模型过于复杂,占太多的癌症基因表达的特点,该模型可能出现学习训练数据完美,但当遇到新的数据。然而,通过简化模型通过缩小的数量特性,该模型可能会错过的信息会导致癌症类型的准确分类。
为了减少之间的平衡特性,同时提取最相关的信息,团队模型关注发展通路在肿瘤细胞改变的迹象。随着胚胎的发展和未分化细胞分化成为各种器官、多种途径引导细胞分裂,生长,改变形状和迁移。随着肿瘤的发展,肿瘤细胞失去的许多专业成熟细胞的特征。与此同时,他们开始在某些方面类似于胚胎干细胞,当他们获得增殖的能力,转换和转移至新组织。驱动胚胎发生的许多基因表达程序被激活或癌症细胞中特异表达。
研究人员比较了两个大细胞地图册,识别肿瘤之间的相关性和胚胎细胞:癌症基因组图谱(TCGA),其中包含33个肿瘤类型的基因表达数据,和鼠标器官形成细胞阿特拉斯(上海),概要56单独轨迹发展和分化的胚胎细胞。
“单细胞决议工具已经极大地改变了我们如何研究癌症的生物,但是我们如何使这场革命对病人的另一个问题,“Moiso解释道。“随着发育细胞地图册的出现,尤其是那些关注等器官发生早期美国华人博物馆,我们可以扩展我们的工具除了组织学和基因组信息和打开大门的新方法分析和识别肿瘤和开发新的治疗方法。”
由此产生的地图之间的相关性在肿瘤细胞和胚胎发育的基因表达模式就变成了机器学习模型。研究者破裂TCGA肿瘤样本的基因表达成单个组件对应于一个特定的时间点的发展轨迹,并指定这些组件一个数学的价值。然后研究人员建立了一个机器学习模型,称为发育多层感知器(D-MLP),分数肿瘤发展的组件,然后预测它的起源。
对肿瘤进行分类
培训后,D-MLP应用于52新的未知的主特别具有挑战性的癌症的样本,无法使用可用的诊断工具。最具挑战性的看到这些情况下代表在MGH在四年期间从2017年开始。激动人心的是,四类模型分类肿瘤,取得了预测和其他信息,可以指导这些病人的诊断和治疗。
例如,一个样本来自一个病人有乳腺癌病史的人显示出积极的迹象癌症在腹部周围的流体空间。肿瘤学家最初找不到肿瘤质量,不能分类癌症细胞使用他们的工具。然而,D-MLP强烈预测卵巢癌。六个月后病人第一,质量终于在卵巢中发现,被证明是肿瘤的起源。
此外,该研究的系统对比肿瘤和胚胎细胞显示有前途,有时令人惊讶,洞察特定肿瘤的基因表达谱类型。例如,在胚胎发育的早期阶段,基本的肠道管形式,与肺部和其他附近的器官由前肠,和许多消化道形成中期和后肠。研究表明lung-derived肿瘤细胞表现出强烈的相似性不仅前肠的可能,但在中期和hindgut-derived发展轨迹。这样的结果表明,不同的发展计划有一天可以利用同样的基因突变是通常用于设计个性化和有针对性的癌症治疗。
虽然这项研究提供了一个强大的方法来分类肿瘤,它有一些局限性。在未来的工作中,研究人员计划增加他们的模型的预测能力,通过融合其他类型的数据,特别是从放射学信息,显微镜,和其他类型的肿瘤成像。
“发育基因表达代表只有一个小片的所有因素,可以用来诊断和治疗癌症,”Garg说。“整合放射学、病理和基因表达信息在一起真正的下一步为癌症患者个性化医疗。”
参考:Moiso E, Farahani,大理石高清,et al。分类癌症的起源发展反褶积。癌症的发现。2022:cd - 21 - 1443。doi:2159 - 8290. - 10.1158 / cd - 21 - 1443
本文从以下转载材料。注:材料可能是长度和内容的编辑。为进一步的信息,请联系引用源。