缺陷在流行基因识别方法
最常见的分析方法在群体遗传学是漏洞百出,瑞典隆德大学的一项新的研究显示。这可能导致不正确的结果和误解种族和遗传关系。方法被用于成千上万的研究中,影响在医学遗传学甚至商业祖先测试结果。这项研究发表在科学报告。
科学数据可以收集的速度指数级上升,导致大规模的和高度复杂的数据集,被称为“大数据革命。”这些数据更易于管理,人员使用统计方法旨在紧凑和简化数据的同时还保持着最关键的信息。也许最广泛使用的方法称为PCA(主成分分析)。通过类比,认为PCA烤箱用面粉、糖和鸡蛋作为数据输入。烤箱可能总是做同样的事情,但结果如何,一个蛋糕,关键取决于原料的比例和它们是如何的总和。
“预计,这种方法会给正确的结果,因为它很常用。但它既不可靠性的保证,也不产生可靠统计学的结论,”博士说伊兰Elhaik,隆德大学分子细胞生物学副教授。
根据Elhaik方法帮助创建关于种族和民族旧的观念。它扮演了一个角色在制造业的历史故事和人是从哪里来的,不仅是科学界还通过商业祖先公司。一个著名的例子是当一个著名的美国政治家一个祖先的测试在2020年总统大选之前来支持他们的祖先的说法。的另一个例子是误解Ashkenazic犹太人作为一个种族或一个孤立的组由主成分分析的结果。
“这项研究表明,这些结果是不可靠的,”伊兰说Elhaik。
使用PCA在许多科学领域,但Elhaik种群遗传学研究侧重于它的用法,激增的数据集大小尤为严重,这是由于DNA测序成本的下降。
paleogenomics领域,我们想了解古代民族和个人如铜器时代欧洲人,严重依赖于主成分分析。PCA用于创建一个遗传图谱,位置未知样本与已知的参考样本。到目前为止,已假定未知样本与任何参考人口他们重叠或接近躺在地图。
然而,Elhaik发现未知的样本可以使谎言接近任何参考人口仅通过改变参考样本的数量和类型(见插图),产生无穷的历史版本,所有数学“正确”,但只有一个在生物学上正确的。
在这项研究中,Elhaik人口调查了十二个最常见的基因的应用PCA。他已经使用模拟和真正的基因数据主成分分析结果可以显示灵活。根据Elhaik,这种灵活性意味着结论基于PCA不能信任自参考样本或测试的任何改变将产生不同的结果。
32000年至216000年科学文章仅在遗传学采用PCA对探索和可视化异同个人和人口和他们的结论基于这些结果。
“我相信这些结果必须重新评估,”Elhaik说。
他希望这项新研究将开发一个更好的方法来质疑的结果,从而使科学更可靠。他花了很大一部分过去十年的开拓等方法,如地理人口结构(GPS)预测从DNA和生物地理学两两匹配器改善病例对照匹配用于基因检测和药物试验。
“技术提供这种灵活性鼓励坏科学尤其危险的世界哪里有出版的巨大压力。如果研究员PCA几次,诱惑总是会选择输出,使最好的故事”,威廉·阿莫斯教授补充说,从剑桥工作带来积极影响,他并没有参与这项研究。
参考:Elhaik e .主成分分析(PCA)的人口遗传学研究发现高度偏见,必须重新评估。Sci代表。2022;12 (1):14683。doi:10.1038 / s41598 - 022 - 14395 - 4。
本文从以下转载材料。注:材料可能是长度和内容的编辑。为进一步的信息,请联系引用源。