利用机器学习改进化学毒性评估
阿姆斯特丹大学的研究人员与昆士兰大学和挪威水研究所的同事一起,开发了一种使用机器学习评估化学品毒性的策略。他们在《环境科学与技术》特刊《数据科学促进环境科学、工程和技术》的一篇文章中介绍了他们的方法。与传统的基于定量结构-活性关系(QSAR)建模的“硅内”评估相比,本研究开发的模型可以带来实质性的改进。
研究人员表示,机器学习的使用可以极大地改善分子的危害评估,无论是在新化学品的设计安全开发中,还是在现有化学品的评估中。欧洲和美国的化学机构列出了近80万种多年来开发出来但对其环境命运或毒性几乎一无所知的化学品,这一事实说明了后者的重要性。
由于化学物质命运和毒性的实验评估需要大量的时间、精力和资源,建模方法已经用于预测危险指标。特别是定量结构-活性关系(QSAR)建模经常被应用,将分子特征(如原子排列和三维结构)与物理化学性质和生物活性联系起来。根据建模结果(或可用的测量数据),专家将分子分类为全球化学品统一分类和标签系统(GHS)中定义的类别。对于特定类别的分子,将进行更多的研究,更积极的监测,最终立法。
然而,这个过程有固有的缺陷,其中很大一部分可以追溯到QSAR模型的局限性。它们通常基于非常均匀的训练集,并假设一个线性结构-活动关系进行外推。因此,现有的QSAR模型不能很好地表示许多化学品,使用这些模型可能会导致大量的预测误差和化学品的错误分类。
跳过QSAR预测
在《环境科学与技术》杂志上发表的论文中,Saer Samanipour博士及其合著者提出了一种替代评估策略,该策略完全跳过了QSAR预测步骤。Samanipour是阿姆斯特丹大学范德霍夫分子科学研究所的环境分析科学家,他与同一所大学生物多样性和生态系统动力学研究所的环境化学家Antonia Praetorius博士合作。他们与昆士兰大学和挪威水研究所的同事一起,开发了一种基于机器学习的策略,用于基于分子描述符直接分类化学物质的急性水生毒性。
该模型通过907个实验获得的急性鱼类毒性数据(96h LC50值)进行了开发和测试。新模型跳过了对每种化学物质的毒性值(96h LC50)的明确预测,而是直接将每种化学物质分为若干预先定义的毒性类别。例如,这些类别可以由具体法规或标准化系统定义,如GHS急性水生危害类别文章所示。该模型解释了训练集数据中约90%的方差,测试集数据中约80%的方差。
更高精度的预测
与基于QSAR回归模型的策略相比,这种直接分类策略导致错误分类减少了五倍。随后,研究人员扩展了他们的策略,预测了32000种化学物质的毒性类别。
他们证明,他们的直接分类方法导致更高的预测精度,因为来自不同来源和不同化学家族的实验数据集可以分组以生成更大的训练集。它可以适应各种国际条例和分类或标签制度规定的不同预先定义的类别。在未来,直接分类方法还可以扩展到其他危害类别(例如慢性毒性)以及环境命运(例如流动性或持久性),并显示出改进化学危害和风险评估的硅内工具的巨大潜力。
参考:Samanipour S, O 'Brien JW, Reid MJ, Thomas KV, Praetorius A.从分子描述符到化学物质的内在毒性:化学优先级的另一种方法。环境科学技术.2022.doi:10.1021 / acs.est.2c07353
本文已从以下地方重新发布材料.注:材料的长度和内容可能经过编辑。如需进一步信息,请联系所引用的来源。