一种筛选具有潜在持久性、迁移性和毒性(PMT)新污染物的计算毒理学模型工具

郑玉婷1,王宝成2,于洋1,*,黄怡2,张丽丽1,杨先海3,金彪4,林军1,张干4

1.生态环境部固体废物与化学品管理技术中心,北京 100029

2.北京市污染源管理事务中心,北京 100089

3.南京理工大学环境与生物工程学院,南京 210094

4.国家有机地球化学国家重点实验室,中国科学院广州地球化学研究所,广州510640

摘要:具有持久性、迁移性和毒性(PMT)的化学物质,可能会对生态环境及人类健康造成危害,正受到世界各国化学品管理机构的关注。近年来,我国化学品环境管理机构也开始关注化学物质的PMT危害特性,并逐步开展潜在PMT物质的筛选及环境风险评估工作。然而,筛选工具的缺乏已成为制约我国开展有毒有害物质以及新污染物筛选等工作的重要因素。为服务于我国潜在PMT物质的环境管理工作,本研究基于14 770条数据信息,构建了能够预测化学物质PMT特性,且能快速筛选出潜在PMT物质的高通量计算毒理学工具。该工具包含26个定性和定量模型,模型表征结果显示,定性模型均具有较好的分类性能,定量模型均具有较好的拟合优度、稳健性和预测能力。

关键词:新污染物;持久性;迁移性;毒性;PMT;(定量)结构-活性关系;计算毒理学

PMT(persistent mobile toxic)类物质是一类具有持久性、迁移性和毒性的有机化学物质总称[1]。该类物质是一类新污染物,具有难降解、移动性强,不易被化学或者生物过程消减等特点,且难被土壤或活性炭等吸附去除,较易穿透土壤或水处理设施屏障,容易赋存于地表水、地下水和饮用水,对生态环境和人类健康产生未知风险。有研究表明,水环境已检测出潜在的PMT类物质,例如甲基叔丁醚(MTBE)、全氟烷基酸(PFAA)、三氯乙烯和四氯乙烯等[2-4]

当前,我国化学工业规模大于欧盟和美国总和,应对化学物质的环境释放已成为环境安全的重大挑战。新时代下,化学品环境管理战略也在不断创新。继2016年美国修订了《有毒物质控制法》,欧盟于2020年更新了《面向无毒环境的化学品可持续发展战略》,制定了“全新的欧洲化学品管理政策长期规划”,提出从生命周期的角度尽量减少PMT类新污染物对生态环境的影响,以确保生态环境的总体可持续。计划在《欧盟物质和混合物的分类、标签和包装法规》(CLP)中提出新的关于环境毒性、持久性、迁移性和生物积累性的危害等级和标准,并计划将内分泌干扰物、持久性、流动性、毒性以及高持久性和高迁移性的化学物质,列为高关注物质类别。德国联邦环境署(UBA)在欧盟REACH框架下,牵头建立了PMT物质的鉴定评判标准。我国于2020年提出了“重视新污染物治理”的新要求,国务院办公厅于2022年5月4日正式印发了《新污染物治理行动方案》。部分潜在PMT类物质已被纳入我国优先控制化学品名录管理,例如三氯乙烯、四氯乙烯等被列入我国《优先控制化学品名录(第一批)》。但是,仍有未知数量的PMT类物质还未受到关注及管控,我国缺乏服务于化学品环境风险管理的专业模型工具,计算毒理学工具逐渐成为了化学品环境管理的重要工具之一[5]

为应对国际化学物质环境管理新趋势,贯彻落实新发展理念,认真执行新污染物治理行动方案,本研究运用计算毒理学技术,开发了一种能够筛选潜在PMT类新污染物的模型工具,辅助环境管理工作者从数以万计的化学物质中,快速识别出具有PMT危害特性的化学物质,以期服务于我国化学品环境管理及新污染物治理。

1 材料与方法(Materials and methods)

1.1 模型构建与验证方法

1.1.1 建模数据

本研究构建PMT模型的数据集包含了14 770条数据信息[6],P模型包含1 629个化学物质的快速生物降解性数据,M模型包含9 961个化学物质正辛醇-水分配系数数据,T模型包含946个化学物质的鱼急性毒性数据,94个化学物质的鱼慢性毒性数据,978个化学物质的大型溞急性毒性数据,307个化学物质的大型溞慢性毒性数据,445个化学物质的绿藻急性毒性数据,410个化学物质的绿藻慢性毒性数据。

1.1.2 建模方法

构建PMT模型时,建模数据均按照3∶1的比例,随机分为训练集和验证集。采用PaDEL-Descriptor软件[7],计算一维、二维分子结构描述符及Pubchem分子指纹描述符,其中一维和二维分子结构描述符用于建模,Pubchem分子指纹描述符用于计算相似性指数(TS)[8],评估目标化学物质预测结果的可靠性。所有模型使用自编的Python程序[9-10]通过k-最邻近分类(kNN)算法构建模型,采用Euclidean距离表征应用域。Euclidean距离计算方法如公式(1)所示:

(1)

式中:DE是Euclidean距离;xy是不同种化学物质;xiyi分别是化学物质x和化学物质y的第i个描述符的值。若目标化学物质的Euclidean距离小于对应模型训练集的Euclidean距离最大值,则判定目标化学物质在模型应用域内;反之,则判定其不在模型应用域内。

定性模型采用预测准确度(Q)、敏感性(Sn)和特异性(Sp)参数表征模型内部和外部预测能力,通过马修斯相关系数(MCC)、受试者工作特征曲线(ROC曲线)下的面积(AUC)来表征分类性能。定量模型采用实测值与预测值之间的相关系数平方(r2)来表征模型的拟合优度,去一法交叉验证系数去多法交叉验证系数和Bootstrapping法验证系数表征模型的稳健性;并通过均方根误差(RMSE)、外部验证系数标准偏差(s)和平均绝对误差(MAE)等表征模型的内部和外部预测能力[11]

1.1.3 毒性预测分类策略

毒性模型针对鱼类、大型溞和绿藻分别进行建模。由于不同类型的化学物质毒性作用差异较大,因此将目标化学物质进行了分类,分类策略如下。根据国标《化学品分类和标签规范 第28部分:对水生环境的危害》(GB 30000.28—2013)[12]以及《持久性、生物累积性和毒性物质及高持久性和高生物累积性物质的判定方法》(GB/T 24782—2009)[13]关于毒性物质的判别标准,对于鱼急性毒性分类预测模型,以L(E)C50为0.01、0.1、1、10和100 mg·L-1作为分类阈值,基于946个化学物质的鱼急性毒性数据,构建鱼急性毒性预测模型。但由于建模数据中LC50≤0.01 mg·L-1的物质数量少不足以建模,因此,本研究以0.1、1、10和100 mg·L-1为分类阈值,构建分类模型Ⅰ~Ⅳ,分类策略如图1所示。对于鱼慢性毒性分类预测模型,则以NOEC为0.01、0.1和1 mg·L-1为分类阈值,基于94个化学物质的鱼慢性毒性数据,构建鱼慢性毒性预测模型Ⅰ~Ⅲ,分类策略如图2所示。

图1 鱼急性毒性(LC50)预测模型分类策略示意图
Fig. 1 Schematic diagram of classification strategy for fish acute toxicity (LC50) prediction model

图2 鱼慢性毒性(NOEC)预测模型分类策略示意图
Fig. 2 Schematic diagram of classification strategy for fish chronic toxicity (NOEC) prediction model

与鱼急性/慢性毒性分类策略类似,对于大型溞急性毒性分类预测模型,是基于978个化学物质的大型溞急性毒性数据,以EC50为0.01、0.1、1、10和100 mg·L-1作为分类阈值,构建分类预测模型Ⅰ~Ⅴ;对于大型溞慢性毒性分类预测模型,是基于307个化学物质的大型溞慢性毒性数据,以NOEC为0.01、0.1和1 mg·L-1作为分类阈值,构建分类预测模型Ⅰ~Ⅲ;对于绿藻急性毒性分类预测模型,是基于445个化学物质的绿藻急性毒性数据,但由于EC50≤0.01 mg·L-1的物质个数少不足以建模,因此以EC50为0.1、1、10和100 mg·L-1作为分类阈值,构建分类预测模型Ⅰ~Ⅳ;对于绿藻慢性毒性分类预测模型,是基于410个化学物质的绿藻慢性毒性数据,以NOEC为0.01、0.1和1 mg·L-1作为分类阈值,构建分类预测模型Ⅰ~Ⅲ。

1.2 PMT类物质筛选方法

本研究根据我国《持久性、生物累积性和毒性物质及高持久性和高生物累积性物质的判定方法》(GB/T 24782—2009)判断化学物质是否具有持久性(P)和毒性(T)[13],根据德国联邦环境署有关标准判断化学物质是否具有迁移性(M)[1]。其中,P通过化学物质的快速生物降解属性来确定,如果不能快速生物降解,则表明该物质具有持久性;M通过logKoc判断,如果logKoc<4,则表明该物质具有迁移性;其中,logKoc通过logKow估算,该方法也是加拿大环境多介质模型工具[14](new equilibrium criterion)采用的方法之一,如公式(2)或(3)所示:

Koc=0.35Kow

(2)

logKoc=logKow-0.456

(3)

T预测根据国标《化学品分类和标签规范 第28部分:对水生环境的危害》(GB 30000.28—2013)[12],通过化学物质对水生急性毒性或水生慢性毒性效应数据判断,如果鱼类急性毒性效应值(LC50)、大型溞急性毒性效应值(EC50)、绿藻急性毒性效应值(EC50)<0.1 mg·L-1(或<0.01 mg·L-1),或者水生慢性毒性效应数据(NOEC)<0.01 mg·L-1,则表明该化学物质具有水生生物毒性。

1.3 PMT筛选工具开发

本研究基于Python语言开发了能够自动预测PMT属性的软件工具,即有毒有害化学物质高通量危害识别系统,以实现模型的高通量预测及筛选功能。该系统支持单一及批量化学物质的SMILES码、CAS号等输入方式,通过输入化学物质的结构信息,即可高通量预测化学物质的快速生物降解性、吸附系数(logKoc)、水生生物急慢性毒性,并根据筛选标准,评估识别潜在PMT类物质。

1.4 PMT属性预测与对比

本研究利用有毒有害化学物质高通量危害识别系统,开展了335个化学物质P、M和T属性的预测,并将预测结果与Huang等[15]的研究成果进行了比对。Huang等[15]的研究成果中包含了432个化学物质的P、M和T数据,同时具有P、M和T这3项指标的化学物质是335个,因此本研究对比验证的物质为335个。

2 结果与讨论(Results and discussion)

2.1 持久性(P)预测模型

快速生物降解最优模型包含了MLFER_S、MLFER_BO、TSRW、MlogP和WTPT-4这5个预测变量。模型QSnSp分别介于0.83~0.88、0.78~0.86和0.86~0.89;MCC和AUC分别介于0.64~0.75和0.86~0.96,说明模型具有较好的分类性能,表征结果如表1所示。模型应用域显示,目标化学物质的Euclidean距离≤1.24时,在模型的应用域范围内。

表1 快速生物降解模型表征结果
Table 1 Characterization results of a rapid biodegradation model

数据集Data setknTPTNFNFPSnSpQMCCAUC训练集 Training set验证集 Validation set31 22140167564810.860.890.880.750.9640813520238330.780.860.830.640.86

注:k表示邻近数;n表示化学物质数;TP表示真阳性;TN表示真阴性;FN表示假阴性;FP表示假阳性;Sn表示敏感性;Sp表示特异性;Q表示预测准确度;MCC表示马修斯相关系数;AUC表示ROC曲线下面积。
Notes:k is the number of neighbors;n is number of chemicals;TP is true positive;TN is true negative;FN is false negative;FP is false positive;Sn is sensitivity;Sp is specificity;Q is predictive accuracy;MCC is Matthews correlation coefficient;AUC represents the area under the ROC curve.

2.2 迁移性(M)预测模型

正辛醇-水分配系数(logKow)最优模型包含了CrippenLogP、XlogP和nHaaCH这3个预测变量。如表2所示,模型的为0.82,RMSE训练集为0.51,RMSE验证集为0.75,说明该模型具有较好的拟合优度、稳健性和外部预测能力。训练集和验证集化学物质logKow实验值和预测值关系如图3所示,可见实验值与预测值具有较好的拟合优度。模型应用域显示,目标化学物质的Euclidean距离≤0.99时,在模型的应用域范围内。

表2 logKow模型表征结果
Table 2 Model characterization results of logKow

指标Indicators数据集Data set参数Parameters数值Numerical value训练集数量Number of training sets拟合优度Goodness of fit内部预测能力Internal predictive power稳健性Robustness训练集Training setn训练集 ntraining7 470r2训练集 r2training 0.92RMSE训练集 RMSEtraining 0.51s训练集 straining 0.51MAE训练集 MAEtraining 0.38Q2LOO 0.84Q2LMO0.82Q2BOOT 0.83验证集数量Number of verification sets外部预测能力External predictive power验证集Validation setn验证集 nvalidation 2 491Q2EXT0.82RMSE验证集 RMSEvalidation 0.75s验证集 svalidation 0.75MAE验证集 MAEvalidation 0.57

备注:n训练集n验证集分别表示训练集和验证集数量;表示训练集中实测值与预测值的相关系数;RMSE训练集和RMSE验证集分别表示训练集和验证集的均方根误差;s训练集s验证集分别表示训练集和验证集的标准偏差;MAE训练集和MAE验证集分别表示训练集和验证集的预测平均误差;分别表示去一法交叉验证系数、去多法交叉验证系数和Bootstrapping法验证系数;Q2表示外部验证系数。
Note:ntraining and the nvalidation are the number of training set and verification set respectively; is the correlation between the measured and predicted values;RMSEtraining and RMSEvalidation are the root mean square error of the training set and the verification set respectively;straining and svalidation are the standard deviation of the training set and the verification set respectively;MAEtraining and MAEvalidation are the prediction average error of the training set and the verification set respectively; the external validation factor.

图3 logKow实验值和预测值拟合图
Fig. 3 logKow fitted graph of experimental and predicted values

2.3 毒性(T)预测模型

2.3.1 鱼急慢性毒性分类预测模型

2.3.1.1 鱼急性毒性分类预测模型

鱼急性毒性分类模型Ⅰ,以LC50=10 mg·L-1为分类阈值,最优模型包含了logKow、GATS1p、SdCH2、nHBint3、nHAvin和maxssssC这6个预测变量;鱼急性毒性分类模型Ⅱ,以LC50=100 mg·L-1为分类阈值,最优模型包含了logKow、SIC0、maxHBint6、nHdCH2和minsssCH这5个预测变量;鱼急性毒性分类模型Ⅲ,以LC50=1 mg·L-1为分类阈值,最优模型包含了logKow、AATSC0v、MATS3p和VE1_DzZ这4个预测变量;鱼急性毒性分类模型Ⅳ,以LC50=0.1 mg·L-1为分类阈值,最优模型包含了logKow、AATSC1m、GATS2c和MATS1c这4个预测变量。如表3所示,模型QSnSp分别介于0.85~0.92、0.70~0.92和0.81~0.92;MCC和AUC分别介于0.63~0.79和0.81~0.96,说明模型具有较好的分类性能。模型应用域表征结果显示,对于模型Ⅰ~Ⅳ,目标化学物质的Euclidean距离分别小于1.23、1.04、1.05和1.07时,在相应模型的应用域范围内。

表3 鱼急性毒性分类模型表征结果
Table 3 Characterization of fish acute toxicity classification model

模型Model数据集Data setknTPTNFNFPSnSpQMCCAUC模型Ⅰ Model I训练集 Training set验证集 Validation set370930332140450.880.880.880.760.952379111315180.860.860.860.720.89模型Ⅱ Model II训练集 Training set验证集 Validation set337221711021240.910.820.880.740.9412567426100.920.810.870.740.90模型Ⅲ Model III训练集 Training set验证集 Validation set33368220528210.750.910.850.660.9211323731070.700.910.850.630.81模型Ⅳ ModelⅣ训练集 Training set验证集 Validation set31072573360.890.920.920.790.9636725130.880.890.890.710.87

2.3.1.2 鱼慢性毒性分类预测模型

鱼慢性毒性分类模型Ⅰ,以NOEC=0.1 mg·L-1为分类阈值,最优模型包含了logKow、bpol和minaasC这3个预测变量;鱼慢性毒性分类模型Ⅱ,以NOEC=1 mg·L-1为分类阈值,最优模型包含了logKow、IC5和AATSC5p这3个预测变量;鱼慢性毒性分类模型Ⅲ,以NOEC=0.01 mg·L-1为分类阈值,最优模型包含了logKow和nHBint3这2个预测变量。如表4所示,模型QSnSp分别介于0.88~1、0.89~1和0.85~1;MCC和AUC分别介于0.75~1和0.86~1,说明模型具有较好的分类性能。模型应用域表征结果显示,对于模型Ⅰ~Ⅲ,目标化学物质的Euclidean距离分别小于0.73、0.75和1.04时,在相应模型的应用域范围内。

表4 鱼慢性毒性分类模型表征结果
Table 4 Characterization of fish chronic toxicity classification model

模型Model数据集Data setknTPTNFNFPSnSpQMCCAUC模型ⅠModel I训练集 Training set验证集 Validation set3702538340.890.900.900.790.95241011120.910.850.880.750.86模型ⅡModel II训练集 Training set验证集 Validation set3412118200.9110.950.910.9714490110.900.930.850.98模型ⅢModel III训练集 Training set验证集 Validation set329819110.890.950.930.840.9610460011111

2.3.2 大型溞急慢性毒性分类预测模型

2.3.2.1 大型溞急性毒性分类预测模型

大型溞急性毒性分类模型Ⅰ,以EC50=10 mg·L-1为分类阈值,最优模型包含了logKow、minwHBa、ndsssP、SsSH和JGI6这5个预测变量;大型溞急性毒性分类模型Ⅱ,以EC50=100 mg·L-1为分类阈值,最优模型包含了logKow、MPC5、nBase、SRW6和naaN这5个预测变量;大型溞急性毒性分类模型Ⅲ,以EC50=1 mg·L-1为分类阈值,最优模型包含了logKow、BIC0、SdsssP和n6HeteroRing这4个预测变量;大型溞急性毒性分类模型Ⅳ,以EC50=0.1 mg·L-1为分类阈值,最优模型包含了logKow、bpol、AATSC0i和MATS7s这4个预测变量;大型溞急性毒性分类模型V,以EC50=0.01 mg·L-1为分类阈值,最优模型包含了logKow、GATS3c、mindCH2和SCH-3这4个预测变量。如表5所示,模型QSnSp分别介于0.79~0.89、0.81~0.94和0.70~0.84;MCC和AUC分别介于0.57~0.72和0.77~0.92,说明模型具有较好的分类性能。模型应用域表征结果显示,对于模型Ⅰ~Ⅴ,目标化学物质的Euclidean距离分别小于1.03、1.39、0.98、0.88和0.99时,在相应模型的应用域范围内。

表5 大型溞急性毒性分类模型表征结果
Table 5 Characterization of acute toxicity classification model of Daphnia

模型Model数据集Data setknTPTNFNFPSnSpQMCCAUC模型Ⅰ Model I训练集 Training set验证集 Validation set373342520841590.910.780.860.700.932451386121250.870.710.810.580.81模型Ⅱ Model II训练集 Training set验证集 Validation set32641636711230.940.740.870.710.92896415730.900.830.890.680.83模型Ⅲ Model III训练集 Training set验证集 Validation set346825114534380.880.790.850.680.91157774713200.860.700.790.570.83模型Ⅳ Model Ⅳ训练集 Training set验证集 Validation set328111511722270.840.810.830.650.90944633690.880.790.840.680.84模型VModel V训练集 Training set验证集 Validationset314164579110.880.840.860.720.91481721460.810.780.790.580.77

2.3.2.2 大型溞慢性毒性分类预测模型

大型溞慢性毒性分类模型Ⅰ,以NOEC=1 mg·L-1为分类阈值,最优模型包含了logKow、AATSC0v、SHBint2和AATS2e这4个预测变量;大型溞慢性毒性分类模型Ⅱ,以NOEC=0.1 mg·L-1为分类阈值,最优模型包含了logKow、MAXDP、SHdsCH和ATSC6c这4个预测变量;大型溞慢性毒性分类模型Ⅲ,以NOEC=0.01 mg·L-1为分类阈值,最优模型包含了logKow和ATSC2p这2个预测变量。如表6所示,模型QSnSp分别介于0.84~0.90、0.72~1和0.81~0.91;MCC和AUC分别介于0.63~0.76和0.86~0.95,说明模型具有较好的分类性能。模型应用域表征结果显示,对于模型Ⅰ~Ⅲ,目标化学物质的Euclidean距离分别小于1.1、0.95和0.75时,在相应模型的应用域范围内。

表6 大型溞慢性毒性分类预测模型表征结果
Table 6 Characterization of a classification prediction model for chronic toxicity of Daphnia

模型Model数据集Data setknTPTNFNFPSnSpQMCCAUC模型ⅠModel I训练集 Training set验证集 Validation set32301307411150.920.830.890.760.95774821350.940.810.900.760.94模型ⅡModel II训练集 Training set验证集 Validation set314454737100.890.880.880.760.93481329330.810.910.880.720.86模型ⅢModel III训练集 Training set验证集 Validation set3571335540.720.900.840.630.88203140310.820.850.640.91

2.3.3 绿藻急慢性毒性分类预测模型

2.3.3.1 绿藻急性毒性分类预测模型

绿藻急性毒性分类模型Ⅰ,以EC50=10 mg·L-1为分类阈值,最优模型包含了logKow、SwHBa、nHBint6和MLFER_BO这4个预测变量;绿藻急性毒性分类模型Ⅱ,以EC50=100 mg·L-1为分类阈值,最优模型包含了logKow、AATS4p、MPC10和ETA_dEpsilon_D这4个预测变量;绿藻急性毒性分类模型Ⅲ,以EC50=1 mg·L-1为分类阈值,最优模型包含了logKow、SpMax_Dt和GATS2v这3个预测变量;绿藻急性毒性分类模型Ⅳ,以EC50=0.1 mg·L-1为分类阈值,最优模型包含了logKow、AATSC0m和AATS6e这3个预测变量。如表7所示,模型QSnSp分别介于0.82~0.90、0.78~0.95和0.64~0.94;MCC和AUC分别介于0.60~0.79和0.79~0.95,说明模型具有较好的分类性能。模型应用域表征结果显示,对于模型Ⅰ~Ⅳ,目标化学物质的Euclidean距离分别为小于1.25、1.17、1.03和0.98时,在相应模型的应用域范围内。

表7 绿藻急性毒性分类预测模型表征结果
Table 7 Characterization of a predictive model for acute toxicity classification of green algae

模型Model数据集Data setknTPTNFNFPSnSpQMCCAUC模型ⅠModel I训练集 Training set验证集 Validation set333317411121270.890.800.860.700.9311257375130.920.740.840.680.86模型ⅡModel II训练集 Training set验证集 Validation set314194305120.950.710.880.700.9348347240.940.640.870.620.80模型ⅢModel III训练集 Training set验证集 Validation set3192738517170.810.830.820.640.89651934390.860.790.820.630.84模型ⅣModel Ⅳ训练集 Training set验证集 Validation set3842551530.830.940.900.790.9528716230.780.840.820.600.79

2.3.3.2 绿藻慢性毒性分类预测模型

绿藻慢性毒性分类模型Ⅰ,以NOEC=1 mg·L-1为分类阈值,最优模型包含了logKow、piPC7、AATSC5p、VP-7、SHsSH和MDEC-34这6个预测变量;绿藻慢性毒性分类模型Ⅱ,以NOEC=0.1 mg·L-1为分类阈值,最优模型包含了logKow、SpMax_Dt、SsOm、GATS3v和MATS8e这5个预测变量。绿藻慢性毒性分类模型Ⅲ,以NOEC=0.01 mg·L-1为分类阈值,最优模型包含了logKow、nAtomP、nAtomLAC和GATS8p这4个预测变量。如表8所示,模型QSnSp分别介于0.84~0.94、0.75~0.90和0.84~0.96;MCC和AUC分别介于0.68~0.86和0.82~0.96,说明模型具有较好的分类性能。模型应用域表征结果显示,对于模型Ⅰ~Ⅲ,目标化学物质的Euclidean距离分别为小于1.28、1.05和1.06时,在相应模型的应用域范围内。

表8 绿藻慢性毒性分类模型表征结果
Table 8 Characterization of chronic toxicity classification model of green algae

模型Model数据集Data setknTPTNFNFPSnSpQMCCAUC模型ⅠModelⅠ训练集 Training set验证集 Validation set330713612828150.830.900.860.720.921034744840.850.920.880.770.90模型ⅡModelⅡ训练集 Training set验证集 Validation set3163627512140.840.840.840.680.89551829350.860.850.850.700.87模型ⅢModelⅢ训练集 Training set验证集 Validation set3711948220.900.960.940.860.9624615210.750.940.880.710.82

2.4 与现有潜在PMT物质对比

将335个化学物质P、M、T预测结果和Huang等[15]的研究成果对比可知,对于P有299个物质的结果一致,对于M有299个物质的结果一致,对于T有70个物质的结果一致。P和M一致性比较高,分别为89%和89%。T的一致性存在较大差异,是由于本研究模型服务于生态环境指标的预测,T指的是藻、溞、鱼的急性与慢性毒性指标,而Huang等[15]的研究成果中,毒性指的是人体健康领域致癌、致突变和生殖毒性(CMR)等毒性指标,因此产生了较大的差异。

3 展望(Prospect)

新污染物治理是“十四五”期间我国深入打好污染防治攻坚战的主战场之一。PMT类新污染物,可能会对人类健康构成威胁,对生态环境造成危害,进而产生影响气候变化、加速生态系统退化和加剧生物多样性锐减等全球性危机。当前,我国化学物质环境风险防控形势严峻,新污染物治理任务艰巨。党的十九届五中全会通过的《中共中央关于制定国民经济和社会发展第十四个五年规划和二〇三五年远景目标的建议》中提出了“重视新污染物治理”,明确了“健全有毒有害化学物质环境风险管理体制”。生态环境部高度重视新污染物治理工作,组织编制了《新污染物治理行动方案(征求意见稿)》及相关文件。

新污染物治理是一套系统工程,“筛、评、控”是核心内容。然而,新污染物数据相对缺失制约了筛查和评估过程。为了克服数据缺失的瓶颈,生态环境部固体废物与化学品管理技术中心面向社会开展了2021年计算毒理与暴露模型的征集工作,并尝试自主开发了多个计算毒理学模型工具,发挥计算毒理工具的预测优势,为我国新污染物治理、化学物质高通量危害筛查和风险评估提供技术支持。本研究着眼于新污染物治理及化学物质危害筛查,建立了我国PMT类新污染物筛选方法,基于QSAR方法开发了计算毒理学预测工具,首次实现了PMT类新污染物的高通量预测功能,旨在通过计算毒理学科学理论转化应用成果,探索新技术应用于新污染物治理实践,支撑我国化学物质环境管理中PMT类物质的筛选工作,提升我国PMT类新污染物环境风险管控能力,助力“十四五”深入打好污染防治攻坚战。

此外,PMT类新污染物性质特殊,我国尚未建立相关监测标准,环境监管较为薄弱,仅依赖计算毒理工具解决PMT类新污染物的全部危害及暴露信息并不现实。尤其在环境监测技术方法和相关去除技术方面还需要社会各界更多的投入。同时,计算毒理工具的开发也依赖于高质量实测数据,随着未来建模数据与计算机技术的快速发展,PMT属性的预测准确性也将不断提升。

参考文献(References):

[1] Neumann M,Schliebner I.A revised proposal for implementing criteria and an assessment procedure to identify persistent,mobile and toxic (PMT) and very persistent,very mobile (vPvM) substances registered under REACH [R].Dessau:German Environment Agency,2019

[2] Achten C,Kolb A,Püttmann W.Occurrence of methyl tert-butyl ether (MTBE) in riverbank filtered water and drinking water produced by riverbank filtration.2 [J].Environmental Science &Technology,2002,36(17):3662-3670

[3] Garnett J,Halsall C,Vader A,et al.High concentrations of perfluoroalkyl acids in Arctic Seawater driven by early thawing sea ice [J].Environmental Science &Technology,2021,55(16):11049-11059

[4] Pierri D.Actual decay of tetrachloroethene (PCE) and trichloroethene (TCE) in a highly contaminated shallow groundwater system [J].Environmental Advances,2021,5:100090

[5] 于洋,林军,郑玉婷,等.化学品环境管理的计算毒理学[M].北京:中国农业出版社,2021:1-2

[6] Stituto di Ricerche Farmacologiche Mario Negri.IRCCS VEGA HUB [CP/OL].[2021-08-26].https://www.vegahub.eu/

[7] Yap C W.PaDEL-Descriptor:An open source software to calculate molecular descriptors and fingerprints [J].Journal of Computational Chemistry,2011,32 (7):1466-1474

[8] Yang X H,Ou W,Zhao S S,et al.Rapid screening of human transthyretin disruptors through a tiered in silico approach [J].ACS Sustainable Chemistry &Engineering,2021,9(16):5661-5672

[9] Liu H H,Yang X H,Lu R.Development of classification model and QSAR model for predicting binding affinity of endocrine disrupting chemicals to human sex hormone-binding globulin [J].Chemosphere,2016,156:1-7

[10] Lin S Y,Yang X H,Liu H H.Development of liposome/water partition coefficients predictive models for neutral and ionogenic organic chemicals [J].Ecotoxicology and Environmental Safety,2019,179:40-49

[11] 郑玉婷.有机化学品鱼类生物富集因子QSAR模型的构建[D].大连:大连理工大学,2014:5-6

Zheng Y T.Development of QSAR models on bioconcentration factors of chemicals in fish [D].Dalian:Dalian University of Technology,2014:5-6 (in Chinese)

[12] 中华人民共和国国家质量监督检验检疫总局,中国国家标准化管理委员会.化学品分类和标签规范 第28部分:对水生环境的危害:GB 30000.28—2013[S].北京:中华人民共和国国家质量监督检验检疫总局,中国国家标准化管理委员会,2013

[13] 国家质量监督检验检疫总局,中国国家标准化管理委员会.持久性、生物累积性和毒性物质及高持久性和高生物累积性物质的判定方法:GB/T 24782—2009 [S].北京:中国标准出版社,2010

[14] Seth R,Mackay D,Muncke J.Estimating the organic carbon partition coefficient and its variability for hydrophobic chemicals [J].Environmental Science &Technology,1999,33(14):2390-2394

[15] Huang C,Jin B,Han M,et al.The distribution of persistent,mobile and toxic (PMT) pharmaceuticals and personal care products monitored across Chinese water resources [J].Journal of Hazardous Materials Letters,2021,2:100026

A Computational Toxicological Modeling Tool for Screening Potentially Persistent,Mobile,and Toxic (PMT) Emerging Contaminants

Zheng Yuting1,Wang Baocheng2,Yu Yang1,*,Huang Yi2,Zhang Lili1,Yang Xianhai3,Jin Biao4,Lin Jun1,Zhang Gan4

1.Solid Waste and Chemicals Management Center,Ministry of Ecology and Environment,Beijing 100029,China

2.Beijing Municipal Pollution Source Management Center,Beijing 100089,China

3.School of Environmental and Biological Engineering,Nanjing University of Science and Technology,Nanjing 210094,China

4.State Key Laboratory of Organic Geochemistry,Guangzhou Institute of Geochemistry,Chinese Academy of Sciences,Guangzhou 510640,China

Abstract:Chemical substances with persistence,mobility and toxicity (PMT),which may cause harm to the ecological environment and human health,are attracting the attention of chemical management agencies all over the world.In recent years,the chemical environmental management agency of China is paying attention to the PMT hazard characteristics,and is also carrying out the screening and environmental risk assessment of potential chemical substances of PMT.However,the lack of screening tools has become an important factor restricting the screening of toxic and harmful substances and new pollutants in China.In order to serve the environmental management of potential PMT substances in China,a high throughput computational toxicological tool based on 14 770 data was developed to predict the properties of PMT and rapidly identify potential PMT substances.And 26 models were included in the tool,the qualitative model characterization results indicated that they had good classification performance,and the quantitative model characterization results indicated that they had satisfied goodness-of-fit,robustness and prediction ability.

Keywords:emerging contaminants;persistent;mobile;toxic;PMT;(Q)SAR;computational toxicology

收稿日期2021-09-07

录用日期:2021-12-07

文章编号:1673-5897(2022)3-111-10

中图分类号:X171.5

文献标识码:A

Received 7 September 2021

accepted 7 December 2021

基金项目具有地域特征的优控有毒有害大气污染物动态识别和筛选研究总理基金课题(DQGG0305-02);国家重点研发计划课题(2016YFD0200208,2017YFD0800701);有机地球化学国家重点实验室开放基金课题(SKLOG2020)

第一作者郑玉婷(1989—),女,工程师,研究方向为化学物质环境风险评估,E-mail:zhengyuting@meescc.cn

*通讯作者(Corresponding author),E-mail:yuyang@meescc.cn

DOI:10.7524/AJE.1673-5897.20210907001

郑玉婷,王宝成,于洋,等.一种筛选具有潜在持久性、迁移性和毒性(PMT)新污染物的计算毒理学模型工具[J].生态毒理学报,2022,17(3):111-120

Zheng Y T,Wang B C,Yu Y,et al.A computational toxicological modeling tool for screening potentially persistent,mobile,and toxic (PMT) emerging contaminants [J].Asian Journal of Ecotoxicology,2022,17(3):111-120 (in Chinese)

通讯作者简介:于洋(1982—),男,博士,高级工程师,主要研究方向为化学物质环境管理技术方法和计算毒理学。