使用机器学习165个新的癌症基因识别
阅读时间:
新算法可以预测哪些基因导致癌症,即使他们的DNA序列没有改变。在柏林的一组研究人员结合各种数据,分析了它与“人工智能”,确定了许多癌症基因。这开辟了新的视角对癌症治疗有针对性的个性化医疗和生物标志物的发展。
在癌症细胞失控。他们增殖并推动进入组织,破坏器官,从而削弱必不可少的重要功能。这种无限制的增长通常是DNA的积累变化引起的癌症基因,即这些基因的突变控制细胞的发展。但某些癌症只有很少的突变基因,这意味着其他原因导致这种疾病在这些情况下。
马克斯普朗克研究所的研究小组对分子遗传学(MPIMG)在柏林和亥姆霍兹慕尼黑中心的计算生物学研究所开发了一种新算法利用机器学习技术鉴定165种未知癌症基因。这些基因的序列不一定是改变——很明显,这些基因的失调可以导致癌症。所有新发现的基因相互作用与著名的癌症基因和已被证明是至关重要的,在细胞培养实验中肿瘤细胞的生存。
额外的个性化医疗的目标
算法,称为“EMOGI”可辩解的Multi-Omics图集成,也可以在细胞的机械解释的关系,使一个基因一个癌症基因。随着Annalisa Marsico为首的研究小组描述在《华尔街日报》自然机器智能软件集成了数以万计的数据集来自患者样本。这些包含DNA甲基化信息,个人基因的活性和细胞内蛋白质的交互途径除了与突变序列数据。在这些数据中,深度学习算法检测模式和分子原则导致癌症的发展。
“理想情况下,我们获得一个完整的癌症基因在某种程度上,它可以有不同的针对不同患者对癌症恶化的影响”,Marsico说,一个研究小组负责人MPIMG直到最近和亥姆霍兹慕尼黑中心的现在。„这是个性化的癌症治疗的基础。”
与传统的癌症治疗如化疗、个性化治疗方法精确调整药物治疗肿瘤的类型。“我们的目标是为每个病人选择最佳的治疗,最有效的治疗最少的副作用。此外,我们已经能够识别癌症在早期阶段,基于其分子特征。”
“只有当我们知道这种疾病的原因我们能够抵消或有效改正,”研究人员说。“这就是为什么它是如此重要的识别尽可能多的机制,可以诱发癌症。”
更好的结果的组合
“直到现在,大多数的研究都集中在致病基因序列的变化,即。说,在细胞的蓝图,“罗马Schulte-Sasse博士生Marsico的团队和发表的第一作者。”与此同时,近年来它已成为明显的表观遗传扰动或特异表达基因活动也可以导致癌症。”
这就是为什么研究人员合并序列数据,反映故障的蓝图与细胞内代表事件的信息。最初,科学家们证实,突变,或段的基因组的倍增,的确是癌症的主要驱动力。然后,在第二个步骤中,他们发现基因的候选人,在小环境中直接实际cancer-driving基因。
“例如,我们发现在癌症基因的序列主要是不变,但对肿瘤,因为他们是不可或缺的调节能源供应,”Schulte-Sasse说。这些基因的控制通过其他方式,例如,因为DNA甲基化等化学变化。这些修改离开序列信息完整但控制基因的活动。“这种基因是有前景的药物靶点,而是因为他们在后台操作,我们只能找到它们通过使用复杂的算法。”
为进一步研究寻找线索
研究者的新计划将相当数量的新条目添加到列表疑似癌症的基因,这已发展到近年来在700年和1000年之间。只有通过结合生物信息学分析和最新的人工智能(AI)方法,研究人员能够追踪的隐性基因。
“蛋白质和基因的相互作用可以映射为一个数学网络,称为图,“Schulte-Sasse说。“你可以把它像试图猜测铁路网络;每个车站都对应于一个蛋白质或基因,其中每个交互火车连接。”
深度学习的帮助——帮助人工智能的算法近年来取得突破,研究人员能够发现甚至那些以前被忽视的火车连接。Schulte-Sasse计算机分析成千上万的不同网络地图从16个不同癌症类型,每个数据点包含在12000年和19000年之间。
也适用于其他类型的疾病
隐藏在数据中有很多更有趣的细节。“我们看到模式依赖于特定癌症和组织”Marsico说。“我们认为这是证据表明肿瘤是由不同的分子机制在不同的器官。”
EMOGI程序并不局限于癌症,研究人员强调。理论上,它可以用于集成不同的生物数据集和找到模式,Marsico解释道。“这可能是有用的应用我们的算法类似的复杂疾病的多方面的数据收集和基因发挥重要作用的地方。一个例子可能是复杂的代谢性疾病,如糖尿病。”
参考: Schulte-Sasse R, Budach年代,Hnisz D。et al。multiomics整合数据与图像卷积网络识别新的癌症基因及其相关分子机制。 Nat智能马赫。 2021年。doi:10.1038 / s42256 - 021 - 00325 - y
本文从以下转载材料。注:材料可能是长度和内容的编辑。为进一步的信息,请联系引用源。
广告