机器学习在纳米材料风险评估中的应用

武子豪1,张司雨2,董仕鹏1,*,毛亮1

1. 污染控制与资源化研究国家重点实验室,南京大学环境学院,南京 210023 2. 合肥工业大学计算机与信息学院,合肥 230601

摘要: 纳米材料的广泛应用使其排放量急剧增大,将对生态环境及人类健康造成潜在危害。因此,对纳米材料进行风险评估十分必要。纳米材料风险评估中涉及的动物实验成本高,周期长,难以满足风险评估的数据需求。为填补数据空缺,研究人员引入了计算机建模的方法对纳米材料的理化性质、毒理学效应进行预测,取得了一定的效果。机器学习作为目前计算机建模的先进方法,在纳米材料风险评估领域展现出了良好的应用价值与前景。本文首先介绍了机器学习在纳米材料风险评估领域的应用方法及建模流程,其次结合国内外研究现状,综述了机器学习在纳米材料风险评估领域的应用实例,介绍了机器学习在纳米材料性质、毒理学效应预测中的主要进展,最后根据机器学习在纳米材料风险评估领域的应用现状,指出了该领域面临的挑战与未来发展前景。

关键词: 纳米材料;机器学习;风险评估;理化性质;毒理学效应

近年来,纳米材料已被广泛应用于工业产品与消费产品的生产与开发,大量纳米颗粒(nanoparticles, NPs)排放到环境介质中,并通过多种途径暴露于人类和生物体。已有许多研究证实纳米材料会对生态环境和人体健康产生不良影响,例如有研究指出经口服TiO2纳米颗粒后的大鼠会出现不同程度的病理性肝脏损伤[1-3]。这引起了社会对纳米材料的广泛关注。为了科学合理地管控纳米材料,保障生态环境和人体健康安全,对纳米材料进行风险评估已经成为各个国家和地区所关注的方向[4],欧盟《化学品注册、评估、授权和限制》(Registration, Evaluation, Authorization and Restriction of Chemicals, REACH)法案在2013年将纳米材料暴露评估和效应评估的内容正式加入R7、R8和R10附件,规定欧盟生产和进口的纳米材料均需按照法规进行评估和申报;中国则在2018年颁布了现行标准《纳米技术 纳米材料风险评估》(GB 37129—2018)[5]对纳米材料风险评估方法做了明确的规定。标准指出,在纳米材料的风险评估中需要理化性质、健康效应、环境归趋等大量数据的支持,具体内容如图1所示。然而,纳米材料的种类繁多,不同纳米材料在理化性质、量子力学特性以及毒理学效应等方面具有高度异质性,同时,开展大量动物实验还将面临成本高、周期长和伦理道德等问题,因此对纳米材料进行风险评估十分困难。

图1 标准GB 37129—2018对纳米材料风险评估的数据需求
Fig. 1 Data requirements for risk assessment of nanomaterials in GB 37129—2018

为了解决上述问题,亟需一种高通量、低成本的纳米材料相关数据获取方法。目前,相关监管机构与研究学者已经开始推动计算机模型作为替代研究方法。其中,机器学习作为近年来发展迅猛的计算机建模方法,已被广泛应用于自然语言处理[6-7]、图像识别[8-9]和自动驾驶[10-11]等众多领域。机器学习的学习模式与人类相似,通过程序对大量数据的通用模式进行学习,建立模型并尝试预测目标值,通过比较预测值与真实值的差距,不断试错、迭代和优化,最终输出精度较高的模型。机器学习具有强大的学习能力以及通用性,可以为纳米材料的风险评估带来新的机遇。鉴于此,本文对近年来机器学习在纳米材料风险评估中的应用进行了综述。笔者首先对机器学习的基本原理,算法及其在纳米材料风险评估领域的应用模式进行简要介绍;其次结合发表的相关文献,展示其在纳米材料理化性质预测、毒理学效应预测和机制揭示方面的具体应用实例;最后根据已有的研究进展,总结展望了机器学习在纳米材料风险评估领域发展的机遇和挑战。

1 机器学习在纳米材料风险评估领域的应用方法(Application of machine learning in risk assessment of nanomaterials)

1.1 机器学习算法

机器学习可根据学习方式的不同分为监督学习(supervised learning)和无监督学习(unsupervised learning)[12]。在纳米材料风险评估领域,监督学习一般用于纳米材料毒性指标的预测与验证,有明确的目标输出值,如用于预测纳米材料的细胞摄取[13-14]。无监督学习一般用于对未知规律的探索,输出的结果是非目标性的,如可帮助研究人员发现纳米材料结构与效应之间的潜在线索[15]

根据机器学习算法基础理论的不同,机器学习又可被分为传统机器学习算法和神经网络算法,目前常用的传统机器学习算法,如多元线性回归(multiple linear regression, MLR)、贝叶斯(Bayesian) [16]、决策树(decision tree, DT) [17]、支持向量机(support vector machine, SVM) [18]以及一系列集成学习算法如随机森林(random forest, RF) [19]、XGBoost[20]等。这些算法目前已广泛应用在包含纳米材料风险评估在内的各个领域。Python中的Scikit-learn[21]机器学习库已集成了上述所有机器学习算法以便相关研究人员使用。

神经网络算法通过模拟人脑神经元的结构进行信息处理,由多层神经元组成,每个神经元接收上一层神经元输出的信号,并执行加权运算,再通过非线性的激活函数(如Sigmoid函数)产生激活响应并向下一层神经元传递输出信号。随着目前计算机的运算能力快速增长,结构越来越复杂的神经网络,即深度神经网络[22]应运而生,展现出巨大的应用潜力。目前常用的深度神经网络主要有卷积神经网络(convolutional neural network, CNN[23])、循环神经网络(recurrent neural network, RNN[24])和全连接神经网络(full connected neural network)等。神经网络的使用框架如Pytorch[25]、Tensorflow[26]和Caffe[27]等都已开源,方便研究人员使用。

1.2 机器学习模型构建流程

理解机器学习在纳米材料风险评估中的应用流程,可以有效帮助纳米材料研究人员建立直观认识。机器学习在纳米材料风险评估中的应用流程如图2所示。

图2 机器学习在纳米材料风险评估中的应用流程
Fig. 2 Workflow of the application of machine learning in risk assessment of nanomaterials

1.2.1 数据集构建

高质量的庞大数据集是构建可靠机器学习模型的基础,数据集的构建一般分为4个步骤[28]。首先是数据收集,数据一般来源于已发表的文献或纳米材料相关数据库,表1列出了常见的几种纳米材料数据库及其所包含的信息。在数据缺失严重的情况下,也可以通过实验构建新的数据集以供机器学习建模。其次是提取纳米材料的信息,包括纳米材料特异性描述符(如纳米材料种类、尺寸、Zeta电位和表面修饰等等),这些数据一般来自数据源或制造商,另外也可以将基于纳米材料表面修饰的有机分子生成的描述符带入模型(如有机分子的简化分子线性输入规范号(simplified molecular input line entry system, SMILES))[29]。然后是提取实验设计与生物相关的信息作为模型输入,如实验类型(体外、体内)、物种类型(大鼠、细菌),暴露条件(暴露剂量、暴露时间)等等。最后是将研究的目标(毒理学终点、评价指标等)当作模型的预测输出。

1.2.2 数据预处理

采集的数据会存在数据缺失、数据格式不规范等问题,因此为了提高数据的质量,在建模之前需要进行数据清洗和预处理。当数据集中某个特征缺失值较多时,一般会将该特征舍弃,否则会对模型效果产生不良影响,当某个特征缺失值较少时,可采用物质分组(grouping)或交叉参照(read-across)等方法[30]。针对不同的数据集,可采取不同的填补缺失值的方法,例如Ban等[31]基于不同物种的年龄-体质量关系曲线拟合出生物的年龄缺失值。面对数据中的异常值,一般可直接将该条数据删除。另外,为将数据的取值限制在某一范围,防止由于某一特征值过大造成模型偏差较大,通常会对数据进行归一化或标准化[32]。需要注意的是,对于机器学习无法识别的字符串变量(如分类变量),可采用独热编码(one-hot encoding)将其转换为可以带入模型的数字变量[33]

1.2.3 模型的选取原则与构建

机器学习模型主要是针对离散型和连续型的数据进行预测,即分类预测与回归预测。大部分常见算法,如决策树、随机森林、支持向量机、人工神经网络、XGBoost既可以用于分类,也可以用于回归,除此之外,朴素贝叶斯和k-邻近算法仅用于分类,而多元线性回归只可用于回归预测。通常情况下,大部分算法都能满足纳米材料性质的预测需求,但数据条数、数据维度和计算机的性能也在一定程度上影响着预测算法的选取。神经网络算法是基于大量神经元进行拟合,预测精度高,更适用于大型数据集;支持向量机处理性能好,但由于计算量大,因此并不适合大数据集,对计算机性能有很大的挑战;朴素贝叶斯将特征独立化,在处理高维数据时具有更多优势;树模型(如随机森林和决策树)可以在模型拟合过程中输出特征重要性排序,更适合深入解析内在机制。在纳米材料风险评估领域,分类模型可用于预测纳米材料对生物代谢途径的干扰[34],回归模型则通常用于预测纳米材料对生物的毒性效应,如EC50[35]和细胞摄取[36]等。Ban等[31]为预测纳米材料对小鼠生殖毒性的影响,构建了包含250条纳米材料生殖毒性数据的数据库,数据特征包含5种定量特征和5种定性特征,面对数量较小且维度较高的数据,该研究选取了随机森林作为建模算法,预测R2>0.62,除此之外,随机森林的特征重要性分析也可帮助研究者筛选决定生殖毒性的关键因素。目前针对纳米材料风险评估的相关数据集规模普遍较小且数据的异质性较高,在此情况下,大多数研究者会选择基于树模型的算法如决策树、随机森林和XGBoost等,因为这些模型可适用于高维度数据,且基于树模型的特征重要性分析也可以帮助许多研究者发现纳米材料对目标效应的关键影响因素和内在机制。

模型构建是机器学习在纳米材料风险评估应用流程中的核心环节。在构建模型之前,需将预处理后的数据集拆分为训练集、验证集和测试集,通常采用7∶2∶1的比例划分,结合适当的算法,利用训练集进行模型的构建,将验证集带入模型以检验模型的预测效果并对模型进行超参数优化,模型的超参数(如随机森林的决策树数量、树的最大深度等)往往对模型的预测效果有非常大的影响,运用Python语言进行机器学习时,常使用Scikit-Learn库中的GridSearchCV包对模型的超参数进行网格搜索,寻找最佳模型超参数,最后应用测试集检验模型的泛化能力。另外,也可以使用k折交叉验证[37]检验模型的稳健性,具体方法为将数据集分为k份,其中k-1份数据用于训练模型,再将单独的一份用于验证模型,交叉验证重复k次,平均k次的验证结果作为模型的性能输出,目前10折交叉验证的应用居多。

表1 常见纳米材料数据库网站
Table 1 Commonly used nanomaterial database website

数据库名称Database name数据库网站Website of database简介IntroductionNanoCommonshttps://www.nanocommons.eu/提供一个公开的纳米信息学框架,包括知识库和综合计算工具,用于评估纳米材料及其相关产品的风险To provide a publicly available nanoinformatics framework, including a knowledge base and comprehensive computational tools for risk assessment of nanomaterials and their related productsNanoSolveIThttps://nanosolveit.eu/提供了包含纳米材料描述符和毒性效应的纳米材料数据库,并利用人工智能计算机建模对纳米材料的毒性效应进行预测A database of nanomaterials containing their descriptors and toxic effects is provided and artificial intelligence computer modeling is used to predict the toxic effects of nanomaterialseNanoMapperhttp://search.data.enanomapper.net/包含来自多个纳米EHS项目和文献的研究数据Research data from multiple nano EHS projects and literature are includedOCHEMhttp://ochem.eu/包含纳米材料的实验数据并提供机器学习方法对数据进行建模Contains experimental data on nanomaterials and provides machine learning methods to model the dataNanoDatabankhttp://nanoinfo.org/nanodatabank/包含纳米材料的毒性、表征数据Contains toxicity and characterization data of nanomaterials

可根据数据目标值的类别将模型分为回归模型和分类模型,回归模型用于预测目标值为连续数值型变量的数据,分类模型在预测目标值为离散类型变量时使用。回归模型的评估指标一般是可决系数(R2)和均方根误差(root mean square error, RMSE),分类模型的评估指标主要有正确率(accuracy)、查准率(precision)、查全率(recall)以及接受者操作特征曲线(receiver operating characteristic curve, ROC)和ROC曲线下面积(area under the curve of ROC, AUC)[38]

1.2.4 模型分析与机理解释

由于机器学习模型的构建过程是自动化且不透明的,因此其也常被称为“黑箱”模型[39],这导致研究人员难以从模型预测结果中获取结果与变量之间的关系,理解机器学习模型是如何通过数据做决策可以有效帮助研究人员进行反应机理的探索与解析。因此,模型的可解释性也是研究人员重点关注的方向之一。常用于探究模型可解释性的方法如灵敏度分析[40]与随机森林的特征重要性排序[31]可以帮助研究人员寻找数据中的重要特征,在纳米材料风险评估领域可用于识别影响纳米材料毒理学效应的最关键影响因素,另外,也可以通过部分依赖(partial dependence, PD)和个体条件期望(individual conditional expectation, ICE)[41]图探究每个变量对目标变量的影响,研究人员可据此结果指导后续实验,设计使用符合预期效应的纳米材料结构和性质。

2 机器学习在纳米材料风险评估领域的应用进展(Advances in the application of machine learning in risk assessment of nanomaterials)

由于机器学习在纳米材料风险评估领域有着高通量、低成本的优势,因此近10年来已有部分研究基于机器学习开展纳米材料的各类性质预测。根据纳米材料的风险评估流程,已有研究主要针对两方面性质:理化性质和毒理学性质(即生态毒性和人体健康毒性)。

2.1 纳米材料理化性质预测

纳米材料的理化性质,如Zeta电位、纳米颗粒粒径和比表面积等,显著影响着纳米材料的性能,同时会对生态和人体健康造成不同的毒理学效应[42],并且纳米材料的理化性质对纳米材料在生物与环境中的行为与归趋也起到非常重要的调节作用。

纳米材料拥有纳米级别的尺寸,从而具有特殊的表面效应,导致其特殊的分散和团聚能力,而团聚行为是纳米材料生物效应的重要调节因子[43-44],Zeta电位则通常用来评估纳米材料的表面电荷和稳定性[45],从而决定纳米材料的团聚能力。Mikolajczyk等[46]报道了用11个基于图像的描述符和17个计算描述符预测15种金属氧化物纳米粒子Zeta电位的机器学习模型。他们使用线性回归方法预测纳米材料的Zeta电位,测试集中RMSE可达1.25 mV, R2为0.87。Sizochenko等[47]构建了包含金属氧化物纳米颗粒在不同环境条件下(生物介质、pH)Zeta电位的测量数据集,并开发了纳米材料结构-性质预测模型(nano-SPR),利用神经网络算法定量描述了208个金属氧化物纳米颗粒在不同生物介质中的结构特征与其Zeta电位之间的关系,作者通过改变神经网络的超参数(隐藏层层数、激活函数和迭代次数)优化模型,最终模型的预测正确率可以达到76.25%。

纳米材料的粒径也会显著影响其在生物体内的生物效应[48],而目前纳米粒子的平均尺寸测量仍然是纳米材料工业发展的一个重要挑战。深度学习为这一问题提供了新的解决思路。Coquelin等[49]收集了大量扫描电子显微镜(scanning electron microscope, SEM)下获得的TiO2颗粒聚集图像,基于CNN算法估计TiO2颗粒大小分布,克服了传统图像处理软件无法精确估计聚集图像中纳米颗粒分布的困难,该研究结果显示在全图像缺失内容高达40%的情况下,使用上述模型可以确保TiO2纳米颗粒分布的高质量重建,因此该研究可帮助复杂的TiO2团聚SEM图像进行自动化分析。

考虑到CNN算法的实现过程专业化程度较高,为了简化模型的构建过程和使用方法,推进环境纳米材料领域快速发展,Berg等[50]基于CNN开发了交互式软件平台“ilastik”,该软件可以帮助其他研究学者在无需专业计算机知识背景下进行图像分析,可以通过输入2D/3D模型输出图像类型(如细胞膜)或结构个数(如细胞个数)。后续,Ilett等[51]使用上述软件及开源的CellProfiler软件对纳米颗粒分布图像进行分析,并将模型开发成一种良好的纳米材料自动化团聚测量方法,该研究证实了氧化铁纳米颗粒会在没有表面稳定血清蛋白存在的细胞培养基中聚集,另外揭示了在没有血清蛋白的情况下聚集形态的复杂性。

2.2 纳米材料毒理学性质预测

效应评估作为纳米材料风险评估中的重要组成部分,主要是评估计算生态环境或人群暴露于特定纳米材料浓度下,是否会产生不良效应的过程。开发动物实验的周期长、成本高且存在动物伦理问题,而体外毒性实验虽然是一种较为高通量的解决方法,但由于纳米材料的毒理学性质会随着其粒径、比表面积和表面修饰等结构参数的变化而改变,因此仍然存在着测试纳米材料种类局限的问题。近年来,机器学习算法越来越多地被应用于纳米材料毒理学性质的预测,如纳米材料的细胞毒性、对生物的代谢影响等。表2列举了机器学习在纳米材料毒性效应研究中的部分应用实例。

2.2.1 生态环境毒性

纳米材料的生态毒性是指纳米材料进入生态系统后,对系统中非人类生物体的不良影响能力,主要包括水生毒性、陆生毒性和沉积物毒性等,其常见指示生物有大肠杆菌、斑马鱼和大型蚤等。大肠杆菌细胞实验是探究生态毒性的常用体外实验方法,目前已有大量研究开展大肠杆菌细胞实验,为构建机器学习模型创造良好条件。早在2011年,Puzyn等[52]使用机器学习和统计建模方法来预测纳米材料的生物效应,他们基于量子化学计算得到的描述符和单参数线性回归模型预测了17种不同的金属氧化物纳米颗粒对大肠杆菌的细胞毒性。为了进一步探究纳米颗粒对大肠杆菌细胞毒性的作用模式,Mu等[35]计算了51种金属氧化物纳米颗粒(MeONPs)的26种理化性质描述符,基于多元线性回归算法,构建纳米材料对大肠杆菌的细胞毒性预测模型,阐明了纳米材料的气态阳离子生成焓(ΔHme+)和极化力(Z/r)是影响大肠杆菌细胞毒性的2个关键因素,该研究模型进一步探究了MeONPs在大肠杆菌中的毒性作用机制,表明MeONPs及其释放的金属离子可共同诱导DNA损伤和细胞凋亡。

纳米材料可以通过干扰生物的代谢途径从而产生相应的生物效应,代谢组学是对生物体内所有代谢物进行定量分析,并寻找代谢物与生理病理变化的相对关系的研究方式,是系统生物学的组成部分。Peng等[34]通过整合多种机器学习模型和代谢组学方法,准确预测33种工业纳米材料引起的代谢通路干扰,并通过特征重要性分析筛选出纳米材料类型与尺寸是影响代谢途径的首要特征,即使对于数据库外的工业纳米材料进行预测,模型精度仍可达到75%~100%。

深度学习中的图像处理技术在纳米材料的生物效应预测中也有相关应用。Karatzas等[53]利用卷积神经网络分析了超过4 000张暴露于纳米材料的大型蚤光学显微镜图像,实现对大型蚤可能存在的畸形(尾巴长度、整体大小和体内脂质浓度等)进行自动检测,结果显示模型对大型蚤腹/爪图像的受损程度分类准确率可以达到68.8%以上,对心脏图像的受损程度分类正确率可以达到60.1%以上,此模型可将人类专家进行图像分类所需的手动耗时程序自动化,加速对纳米材料不良生物影响的研究。

2.2.2 人体健康毒性

纳米材料的人体健康毒性是指暴露于特定浓度下的纳米材料对公众健康造成不良影响的可能性,纳米材料的人体毒性一方面关注肺毒性、肾脏毒性和心脏毒性等器官特异性毒性,另一方面也存在着生殖毒性、发育毒性和致癌性等效应特异性毒性。纳米材料与人体的接触方式主要是通过肺部吸入,不同于传统尺寸的材料,纳米材料更易被肺部吸入并产生毒性效应,因此了解纳米材料的肺毒性以及其关键影响因素尤为重要。Gernand和Casman[54]的研究应用分类回归树(classification and regression tree, CART)和随机森林(RF)算法预测了17种碳纳米管的肺毒性。模型选取了6类描述符,分别是纳米管的类型和尺寸、材料中金属杂质的浓度、暴露时间和剂量以及暴露鼠的特征,对多形核的中性粒细胞数量、巨噬细胞数量、乳酸脱氢酶和总蛋白浓度4个肺毒性终点进行建模,模型的预测R2在0.88到0.96之间。模型的特征重要性分析显示对肺毒性影响最大的性质依次是金属杂质的含量和种类、纳米管的长度和直径、表面积和团聚体大小。除了对肺部产生毒性之外,已有部分研究表明纳米材料还可以引起动物肝、心、肾和脑的损伤[55-58],其中肾和脑会对动物生殖系统产生不良影响。Ban等[31]从公开的文献中收集数据构建数据库,使用随机森林模型对18种纳米材料在小鼠体内的生殖毒性进行建模预测,并根据特征重要性分析得出纳米材料是否具有生殖毒性主要取决于纳米材料类型和毒性指标类别(如睾酮含量、睾丸指数等),该研究为动物实验的设计提供了思路。

表2 机器学习算法在纳米材料毒性效应中的应用及不同算法的优势
Table 2 Application of machine learning algorithms in the toxic effects of nanomaterials and advantages of different algorithms

纳米材料种类Types of nanomaterials纳米材料描述符Descriptors of nanomaterials机器学习算法Algorithms for machine learning算法优势Advantages of algorithms毒性效应终点End point of toxic effect参考文献References17种金属氧化物纳米颗粒17 metal oxide nanoparticles气态阳离子的生成焓(ΔHme+)Formation enthalpy of gaseous cations (ΔHme+)GA-MLR自动化特征组合、可量化各描述符的重要性Automating feature composi-tion and quantifying the im-portance of each descriptor大肠杆菌的细胞活性抑制Inhibition of cellular activi-ty in Escherichia coli[52]51种金属氧化物纳米颗粒51 metal oxide nanoparticles气态阳离子的生成焓(ΔHme+)和极化力(Z/r)等26种理化性质描述符26 physical and chemical property de-scriptors including formation enthalpy (ΔHme+) and polarization force (Z/r) of gaseous cations, etc.MLR可量化各描述符的重要性The importance of each de-scriptor can be quantified大肠杆菌EC50The EC50 of E. coli[35]33种工业纳米材料33 industrial nanomaterials纳米材料类型、尺寸、表面配体、形状、含量、Zeta电位和表面积Nanomaterial type, size, surface lig-ands, shape, content, Zeta potential, and surface areaLASSORF自动化特征选取、适合处理高异质性数据Automatic feature selection, suitable for processing highly heterogeneous data6种代谢途径的干扰现象Interference of 6 metabolic pathways[34]17种碳纳米管17 types of carbon nanotubes纳米管的类型和尺寸、材料中金属杂质的浓度、暴露时间和剂量以及暴露鼠的特征The type and size of the nanotubes, the concentration of metal impurities in the material, the exposure time and dose, and the characteristics of the ex-posed miceCARTRF适合处理高异质性数据、泛化能力强、运行速度快Suitable for processing high heterogeneity data, strong generalization ability, fast running speed多形核的中性粒细胞数量、巨噬细胞数量、乳酸脱氢酶和总蛋白浓度Neutrophil number, macro-phage number, lactate de-hydrogenase and total pro-tein concentration of poly-morphonucleus[54]18种纳米材料18 nanomaterials纳米材料类型、形状、粒径、表面修饰、暴露时间、暴露方式、暴露剂量、生物年龄等10个描述符10 descriptors of nanomaterial type, shape, particle size, surface modifica-tion, exposure time, exposure method, exposure dose and biological ageRF适合处理高异质性数据Suitable for handling hetero-geneous data小鼠的睾酮含量和睾丸指数Testosterone content and testicular index in mice[31]109个磁性荧光纳米材料109 magnetic fluorescent nanomaterials氢键配位原子数量(nHDon)和平均电性拓扑态(Ms)等6个描述符Six descriptors such as number of hy-drogen bond coordination atoms (nHDon) and mean electrical topologi-cal states (Ms)MLRMLP-NN神经网络预测精度高Neural network has high pre-diction accuracyPaCa2的细胞摄取Cellular uptake of PaCa2[14]109个磁性荧光纳米材料109 magnetic fluorescent nanomaterialsCerius、Dragon和PaDeL-Descriptor软件计算的307个描述符307 descriptors computed by Cerius, Dragon, and PaDeL-Descriptor soft-wareGFAMLR可量化各描述符的重要性The importance of each de-scriptor can be quantifiedPaCa2的细胞摄取Cellular uptake of PaCa2[36]

续表2纳米材料种类Types of nanomaterials纳米材料描述符Descriptors of nanomaterials机器学习算法Algorithms for machine learning算法优势Advantages of algorithms毒性效应终点End point of toxic effect参考文献References银纳米材料Silver nanomaterials纳米材料尺寸、形状、Zeta电位、萃取剂、暴露剂量等Nanometer material size, shape, Zeta potential, extractant, exposure dose, etcDTRF适合处理高异质性数据Suitable for handling hetero-geneous data细胞活性Cell viability[59]

相比于体内实验,体外实验可实现物种特异性,更简单,更方便和更详细的分析。正如在整个动物的研究逐渐取代人类试验,体外实验也正逐渐取代对整个动物的研究。细胞实验是体外实验的常见形式。Ghorbanzadeh等[14]基于多元线性回归(MLR)和多层感知神经网络(MLP-NN)预测胰腺癌细胞(PaCa2)对109个磁性荧光纳米材料的细胞摄取行为,2个模型预测结果的R2分别为0.769和0.934,RMSE分别为0.364和0.150,可以看出神经网络的预测效果较传统的MLR有明显提高。MLP-NN模型的灵敏度分析显示纳米材料有机涂层中氢供体的数量是影响细胞摄取的主要因素。Kar等[36]通过Cerius、Dragon和PaDeL-Descriptor软件计算出307个描述符(包括结构描述符、分子描述符、拓扑描述符、空间描述符和电子描述符),对上述相同的PaCa2的细胞摄取数据集进行预测,并利用遗传函数算法(genetic function approximation, GFA)从所有描述符中寻找出最佳的6个描述符组成线性模型,这些描述符分别与疏水性、相对分子大小的电参数特性、Wiener指数和相对正电荷表面积有关。合成纳米材料的前驱体也会对其生物效应产生影响,Liu等[59]基于决策树(DT)和随机森林(RF),对收集文献中的690条利用植物作为还原剂合成AgNPs的细胞毒性数据进行了meta分析和建模,当加入植物种类作为生物相关特征后,DT和RF模型的准确性和泛化性能得到明显提高,模型分类的正确率可以达到82.5%,揭示了生物合成参数对植物合成AgNPs细胞毒效应的潜在影响。

2.3 机器学习的机理解释

大多数机器学习模型被称为“黑箱模型”,原因是研究人员在使用机器学习进行建模预测后,无法得知机器学习模型的工作机制,进而无法解释纳米材料与生物的作用模式。目前,已有部分学者在此方面进行研究,尝试将“黑箱”模型变为“白箱”模型。Yu等[60]提出了一个基于树的随机森林特征重要性分析方法和特征交互网络分析框架(TBRFA),对纳米材料-小鼠肺部免疫数据集、纳米材料-小鼠肺部暴露和器官负荷数据集进行了预测与分析,TBRFA采用多指标重要性分析方法全面筛选影响纳米材料诱导的免疫反应及其器官积累的重要因素。此外,TBRFA提出了一个相互作用系数,利用随机森林模型的工作机制探索了多个特征之间的相互作用关系,构建特征交互网络,突破了目前仅通过单一特征重要性分析对模型进行机理解释的局限性,结果显示材料的比表面积与表面电荷、比表面积与长度、长度与直径之间在诱导生物效应过程中起着相互制约与影响的作用,此研究为机器学习模型的机制探究提供了重要思路。

Ban等[31]则利用随机森林算法实现了纳米材料蛋白冠中功能蛋白组成的准确预测,相比于使用传统线性回归模型得到的定量因素与目标值的拟合结果(大部分R2<0.4),该模型的R2可达0.75以上,除此之外,该研究通过相似性网络对重要特征的异质性分布进行可视化,根据从模型中提取的特征-效应依赖关系,表明相同的纳米材料具有独特的蛋白结合模式。在纳米材料暴露于生物体的过程中,会与许多蛋白质相互作用[61],从而在进入血液中或与细胞外基质接触时在其表面立即形成蛋白冠。对蛋白冠形成机制的解析,有助于在纳米医学、生物传感和器官靶向等领域,设计出理想和安全的纳米材料。

3 机器学习在纳米材料风险评估领域的挑战与展望(Challenges and prospects of machine learning in the field of nanomaterials risk assessment)

机器学习在纳米材料风险评估领域的发展目前还属于初级阶段,欧盟和美国制定的《纳米信息学2030路线图》总结了纳米材料风险评估领域的最新进展,并明确了未来发展所面临的重大挑战:纳米材料性质及毒性效应数据量有限、数据集需要开放与共享、模型的开发与验证需要规范化和监管[62]。机器学习模型机制解释的局限性也是其在纳米材料风险评估应用面临的重要挑战,研究人员往往希望从机器学习模型中得到纳米材料不同描述符与特定效应之间的潜在影响机制,从而对后续的实验提供指导方向,然而目前的机器学习可解释性工具仅仅停留在描述符的重要性、关联性分析,难以深入挖掘原理。因此,更优的机器学习模型可解释性方法也是目前的重要研究方向。图3展示了机器学习在纳米材料风险评估应用中的主要挑战。

图3 机器学习在纳米材料风险评估中的挑战
Fig. 3 Challenges of machine learning in nanomaterials risk assessment

3.1 纳米材料数据库的构建与完善

机器学习模型的性能优劣受数据的数量和质量影响较大,当用于模型训练的数据集中数据量越大、质量越高时,模型就可以得出更可靠、泛化能力更强的预测结果。为了解决目前纳米材料性质数据及毒理学效应数据缺乏的问题,纳米材料高通量合成、表征方法以及毒性基因组学数据的使用是目前研究的重点。同时,纳米材料相关数据库的构建、完善以及数据的开放与共享也是当前面临的重要挑战。虽然上文列出了一些开放的纳米材料信息数据库,但此类数据库的数量仍然不足,且数据库内数据仍需进一步完善,因此,需要建立更多的标准纳米材料数据库,尽可能全面地囊括纳米材料各项理化性质参数以及不同毒理学终点的实验数据,方便其他研究人员对数据进行机器学习建模与验证。另外,数据的共享同样也是当前面临的重要挑战,需建立实验人员与计算人员的信息共享和合作机制,研究工作的实验数据与代码应尽可能公开,这不仅可以方便研究人员从事模型验证,节省实验成本,也可以推动机器学习算法的开发与发展。

3.2 纳米材料描述符的探究与发展

如何有效地表示纳米材料的性质,生成相关性更高的描述符带入模型,对构建性能稳健的机器学习模型至关重要。已有研究表明,描述符对模型质量和预测性能的影响程度比算法的种类大得多[63]。相比于有机物具有分子指纹和SMILES等[64]发展较为成熟的描述符,纳米材料的描述符选取更加困难。现有的纳米材料描述符主要包括结构参数(粒径、形状和比表面积等)、能量相关参数(表面原子势能、Zeta电位等)等。另外,由于机器学习模型无法识别“字符串”类型的数据,部分研究采用独热编码(one-hot encoding)的方式将分类变量转化为数字型变量带入模型[60],该方式能够有效区分变量的不同类别,但是缺少了物理和化学意义,难以从模型中得到机理解释。目前,已有研究人员尝试开发更多适合表征纳米材料特性且含有物理化学意义的描述符带入机器学习模型。Yan等[65]基于纳米材料表面修饰的三维Delaunay剖分并对每个三角原子的鲍林电负性求和来生成纳米材料描述符,将上述描述符通过随机森林和kNN算法对6组金纳米颗粒的理化性质和生物效应进行建模,模型对外部测试集的预测R2在0.76与0.95之间,此研究为纳米材料的描述符开发提供了新的思路。除此之外,为了克服纳米材料描述符不足的问题,Yan等[66]基于CNN对纳米材料的图像进行建模分析,构建纳米材料理化性质(logP和Zeta电位)与生物效应(细胞摄取和蛋白质吸附)预测模型,实现了对所有终点的交叉验证和外部数据预测效果R2都>0.68

3.3 纳米材料环境参数的建模与预测

纳米材料的风险评估与化学品风险评估“四步法”的过程一致[67],分为危害识别、剂量-效应评估、暴露评估和风险表征4个步骤。在上述应用实例中,理化、结构等参数性质的预测可以极大减轻纳米材料危害识别过程的工作量,通过计算机预测的方法,低成本地对纳米材料进行初筛。毒理学性质的预测则为纳米材料生态环境风险评估和人体健康风险评估过程中的剂量效应评估提供了很好的帮助,有助于确定未知纳米材料的风险阈值。但显而易见的是,目前在纳米材料暴露评估部分的预测,也就是针对环境参数的模型还处于相对空白的阶段。纳米材料在环境中有着复杂的归趋与转化形式,当纳米材料被排放到水体环境中时,纳米材料的水解速率、吸附常数、吸附/脱附系数和在水环境中的稳定性等都决定着纳米材料在各环境介质中的分布,进而影响着纳米材料的环境风险,而健康风险又与生物富集系数(BCF)密不可分,因此可以看出复杂的环境体系的表征需要多种多样的参数与大量数据,传统的线性模型难以对其进行有效处理与建模预测,机器学习的快速、准确预测使其成为解决这一问题的好方法。构建纳米材料的环境参数预测模型,为纳米材料暴露评估提供有效支撑,对开发纳米材料的环境风险评估新理论和新技术具有重要的指导意义,是推进至纳米材料科学、合理管控的必经之路。

参考文献(References):

[1] Ma L L, Zhao J F, Wang J, et al. The acute liver injury in mice caused by nano-anatase TiO2 [J]. Nanoscale Research Letters, 2009, 4(11): 1275-1285

[2] Sha B Y, Gao W, Wang S Q, et al. Cytotoxicity of titanium dioxide nanoparticles differs in four liver cells from human and rat [J]. Composites Part B: Engineering, 2011, 42(8): 2136-2144

[3] Liu S J, Zhao Y, Liu Y X, et al. Pre-exposure to TiO2-NPs aggravates alcohol-related liver injury by inducing intestinal barrier damage in mice [J]. Toxicological Sciences: An Official Journal of the Society of Toxicology, 2021, 185(1): 28-37

[4] 刘颖, 陈春英. 纳米材料的安全性研究及其评价[J]. 科学通报, 2011, 56(2): 119-125

Liu Y, Chen C Y. Safety and risk assessment of nanomaterials [J]. Chinese Science Bulletin, 2011, 56(2): 119-125 (in Chinese)

[5] 国家市场监督管理总局. 纳米技术 纳米材料风险评估: GB/T37129—2018[S]. 北京: 中国标准出版社, 2018

[6] Otter D W, Medina J R, Kalita J K. A survey of the usages of deep learning for natural language processing [J]. IEEE Transactions on Neural Networks and Learning Systems, 2021, 32(2): 604-624

[7] 赵京胜, 宋梦雪, 高祥. 自然语言处理发展及应用综述[J]. 信息技术与信息化, 2019(7): 142-145

[8] Ker J, Wang L P, Rao J, et al. Deep learning applications in medical image analysis [J]. IEEE Access, 2018, 6: 9375-9389

[9] 圣文顺, 孙艳文. 卷积神经网络在图像识别中的应用[J]. 软件工程, 2019, 22(2): 13-16

Sheng W S, Sun Y W. Application of convolutional neural network in image recognition [J]. Software Engineering, 2019, 22(2): 13-16 (in Chinese)

[10] Grigorescu S, Trasnea B, Cocias T, et al. A survey of deep learning techniques for autonomous driving [J]. Journal of Field Robotics, 2020, 37(3): 362-386

[11] 潘峰, 鲍泓. 强化学习的自动驾驶控制技术研究进展[J]. 中国图象图形学报, 2021, 26(1): 28-35

Pan F, Bao H. Research progress of automatic driving control technology based on reinforcement learning [J]. Journal of Image and Graphics, 2021, 26(1): 28-35 (in Chinese)

[12] Sizochenko N, Syzochenko M, Fjodorova N, et al. Evaluating genotoxicity of metal oxide nanoparticles: Application of advanced supervised and unsupervised machine learning techniques [J]. Ecotoxicology and Environmental Safety, 2019, 185: 109733

[13] Chau Y T, Yap C W. Quantitative nanostructure-activity relationship modelling of nanoparticles [J]. RSC Advances, 2012, 2(22): 8489-8496

[14] Ghorbanzadeh M, Fatemi M H, Karimpour M. Modeling the cellular uptake of magnetofluorescent nanoparticles in pancreatic cancer cells: A quantitative structure activity relationship study [J]. Industrial & Engineering Chemistry Research, 2012, 51(32): 10712-10718

[15] Lamon L, Asturiol D, Richarz A, et al. Grouping of nanomaterials to read-across hazard endpoints: From data collection to assessment of the grouping hypothesis by application of chemoinformatic techniques [J]. Particle and Fibre Toxicology, 2018, 15: 37

[16] Aguilera P A, Fernández A, Fernández R, et al. Bayesian networks in environmental modelling [J]. Environmental Modelling & Software, 2011, 26(12): 1376-1388

[17] Loh W Y. Classification and regression trees [J]. Wiley Interdisciplinary Reviews-Data Mining and Knowledge Discovery, 2011, 1(1): 14-23

[18] Burden F R, Winkler D A. Relevance vector machines: Sparse classification methods for QSAR [J]. Journal of Chemical Information and Modeling, 2015, 55(8): 1529-1534

[19] Svetnik V, Liaw A, Tong C, et al. Random forest: A classification and regression tool for compound classification and QSAR modeling [J]. Journal of Chemical Information and Computer Sciences, 2003, 43(6): 1947-1958

[20] Chen T Q, Guestrin C. XGBoost: A scalable tree boosting system [C]//Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. San Francisco, California, USA: ACM, 2016: 785-794

[21] Pedregosa F, Varoquaux G, Gramfort A, et al. Scikit-learn: Machine learning in Python [DB/OL]. [2022-01-05]. https://arxiv.org/abs/1201.0490

[22] LeCun Y, Bengio Y, Hinton G. Deep learning [J]. Nature, 2015, 521(7553): 436-444

[23] Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks [J]. Communications of the ACM, 2017, 60(6): 84-90

[24] Hochreiter S, Schmidhuber J. Long short-term memory [J]. Neural Computation, 1997, 9(8): 1735-1780

[25] Paszke A, Gross S, Massa F, et al. PyTorch: An imperative style, high-performance deep learning library [C]// Proceedings of the 33rd Conference on Neural Information Processing Systems (NeurIPS). Vancouver, Canada, 2019

[26] Abadi M, Barham P, Chen J M, et al. TensorFlow: A system for large-scale machine learning [C]// Proceedings of the 12th USENIX Symposium on Operating Systems Design and Implementation (OSDI). Savannah, GA, USA, 2016: 2016

[27] Jia Y Q, Shelhamer E, Donahue J, et al. Caffe: Convolutional architecture for fast feature embedding [C]//Proceedings of the 22nd ACM International Conference on Multimedia. Orlando, Florida, USA: ACM, 2014: 675-678

[28] Furxhi I, Murphy F, Mullins M, et al. Practices and trends of machine learning application in nanotoxicology [J]. Nanomaterials, 2020, 10(1): E116

[29] Wyrzykowska E, Jagiello K, Rasulev B, et al. Descriptors in Nano-QSAR/QSPR Modeling [M]//Computational Nanotoxicology. Gdansk, Poland: Jenny Stanford Publishing, 2019: 245-302

[30] Gajewicz A. What if the number of nanotoxicity data is too small for developing predictive nano-QSAR models? An alternative read-across based approach for filling data gaps [J]. Nanoscale, 2017, 9(24): 8435-8448

[31] Ban Z, Zhou Q X, Sun A Q, et al. Screening priority factors determining and predicting the reproductive toxicity of various nanoparticles [J]. Environmental Science & Technology, 2018, 52(17): 9666-9676

[32] Choi J S, Ha M K, Trinh T X, et al. Towards a generalized toxicity prediction model for oxide nanomaterials using integrated data from different sources [J]. Scientific Reports, 2018, 8(1): 6110

[33] Qiao Y C, Yang X, Wu E. The research of BP neural network based on one-hot encoding and principle component analysis in determining the therapeutic effect of diabetes mellitus [C]// Proceedings of the 3rd International Workshop on Renewable Energy and Development (IWRED), Guangzhou: Taiyuan University of Technology, 2019

[34] Peng T, Wei C H, Yu F B, et al. Predicting nanotoxicity by an integrated machine learning and metabolomics approach [J]. Environmental Pollution, 2020, 267: 115434

[35] Mu Y S, Wu F C, Zhao Q, et al. Predicting toxic potencies of metal oxide nanoparticles by means of nano-QSARs [J]. Nanotoxicology, 2016, 10(9): 1207-1214

[36] Kar S, Gajewicz A, Puzyn T, et al. Nano-quantitative structure-activity relationship modeling using easily computable and interpretable descriptors for uptake of magnetofluorescent engineered nanoparticles in pancreatic cancer cells [J]. Toxicology in Vitro: An International Journal Published in Association With BIBRA, 2014, 28(4): 600-606

[37] Ban Z, Yuan P, Yu F B, et al. Machine learning predicts the functional composition of the protein corona and the cellular recognition of nanoparticles [J]. Proceedings of the National Academy of Sciences of the United States of America, 2020, 117(19): 10492-10499

[38] Fawcett T. An introduction to ROC analysis [J]. Pattern Recognition Letters, 2006, 27(8): 861-874

[39] Ribeiro M T, Singh S, Guestrin C. “why should I trust you?”: Explaining the predictions of any classifier [C]//Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. San Francisco, California, USA: ACM, 2016: 1135-1144

[40] Szecówka P M, Szczurek A, Mazurowski M A, et al. Neural network sensitivity analysis applied for the reduction of the sensor matrix [C]//Proceedings of the 10th International Conference on Computer Aided Systems Theory. New York: ACM, 2005: 27-32

[41] Nohara Y, Wakata Y, Nakashima N. Interpreting medical information using machine learning and individual conditional expectation [C]// Proceedings of the 15th World Congress on Health and Biomedical Informatics (MEDINFO). Sao Paulo, Brazil:International Medical Informatics Association, Brazilian Health Informatics Society, 2015: 1073-1073

[42] Gil P R, Oberdörster G, Elder A, et al. Correlating physico-chemical with toxicological properties of nanoparticles: The present and the future [J]. ACS Nano, 2010, 4(10): 5527-5531

[43] Murdock R C, Braydich-Stolle L, Schrand A M, et al. Characterization of nanomaterial dispersion in solution prior to in vitro exposure using dynamic light scattering technique [J]. Toxicological Sciences: An Official Journal of the Society of Toxicology, 2008, 101(2): 239-253

[44] Schaeublin N M, Braydich-Stolle L K, Maurer E I, et al. Does shape matter? Bioeffects of gold nanomaterials in a human skin cell model [J]. Langmuir: the ACS Journal of Surfaces and Colloids, 2012, 28(6): 3248-3258

[45] Cho W S, Duffin R, Thielbeer F, et al. Zeta potential and solubility to toxic ions as mechanisms of lung inflammation caused by metal/metal oxide nanoparticles [J]. Toxicological Sciences: An Official Journal of the Society of Toxicology, 2012, 126(2): 469-477

[46] Mikolajczyk A, Gajewicz A, Rasulev B, et al. Zeta potential for metal oxide nanoparticles: A predictive model developed by a nano-quantitative structure-property relationship approach [J]. Chemistry of Materials, 2015, 27(7): 2400-2407

[47] Sizochenko N, Mikolajczyk A, Syzochenko M, et al. Zeta potentials (ζ) of metal oxide nanoparticles: A meta-analysis of experimental data and a predictive neural networks modeling [J]. NanoImpact, 2021, 22: 100317

[48] Zhang Q B, Xiu Z M, Peretyazhko T, et al. Toxicity of silver nanoparticles: Influence of the particle shape, size, and surface coating [J]. Abstracts of Papers of the American Chemical Society, 2014, 247: 403

[49] Coquelin L, Fischer N, Feltin N, et al. Towards the use of deep generative models for the characterization in size of aggregated TiO2 nanoparticles measured by scanning electron microscopy (SEM) [J]. Materials Research Express, 2019, 6(8): 085001

[50] Berg S, Kutra D, Kroeger T, et al. Ilastik: Interactive machine learning for (bio)image analysis [J]. Nature Methods, 2019, 16(12): 1226-1232

[51] Ilett M, Wills J, Rees P, et al. Application of automated electron microscopy imaging and machine learning to characterise and quantify nanoparticle dispersion in aqueous media [J]. Journal of Microscopy, 2020, 279(3): 177-184

[52] Puzyn T, Rasulev B, Gajewicz A, et al. Using nano-QSAR to predict the cytotoxicity of metal oxide nanoparticles [J]. Nature Nanotechnology, 2011, 6(3): 175-178

[53] Karatzas P, Melagraki G, Ellis L A, et al. Development of deep learning models for predicting the effects of exposure to engineered nanomaterials on Daphnia magna [J]. Small, 2020, 16(36): e2001080

[54] Gernand J M, Casman E A. Nanoparticle characteristic interaction effects on pulmonary toxicity: A random forest modeling framework to compare risks of nanomaterial variants [J]. Journal of Risk and Uncertainty in Engineering Systems Part B-Mechanical Engineering, 2016, 2(2): 158-161

[55] Isoda K, Tanaka A, Fuzimori C, et al. Toxicity of gold nanoparticles in mice due to nanoparticle/drug interaction induces acute kidney damage [J]. Nanoscale Research Letters, 2020, 15(1): 141

[56] Abudayyak M, Altnçekiç Gürkaynak T, Özhan G. Assessment of cellular responses in kidney cells exposed to cobalt oxide nanoparticles [J]. Marmara Pharmaceutical Journal, 2017, 21(3): 537

[57] Salazar-García S, Delgado-Buenrostro N L, Rodríguez-Escamilla J C, et al. Zinc protects the rat brain from damage induced by 24 h exposure to silver nanoparticles [J]. Journal of Nanoparticle Research, 2019, 21(8): 1-13

[58] Cheng Y P, Chen Z Z, Yang S, et al. Nanomaterials-induced toxicity on cardiac myocytes and tissues, and emerging toxicity assessment techniques [J]. The Science of the Total Environment, 2021, 800: 149584

[59] Liu L, Zhang Z L, Cao L H, et al. Cytotoxicity of phytosynthesized silver nanoparticles: A meta-analysis by machine learning algorithms [J]. Sustainable Chemistry and Pharmacy, 2021, 21: 100425

[60] Yu F B, Wei C H, Deng P, et al. Deep exploration of random forest model boosts the interpretability of machine learning studies of complicated immune responses and lung burden of nanoparticles [J]. Science Advances, 2021, 7(22): eabf4130

[61] Nel A E, Mädler L, Velegol D, et al. Understanding biophysicochemical interactions at the nano-bio interface [J]. Nature Materials, 2009, 8(7): 543-557

[62] Haase A, Klaessig F. EU US roadmap nanoinformatics 2030 [R]. Zenodo, 2018

[63] Kar S, Gajewicz A, Puzyn T, et al. Periodic table-based descriptors to encode cytotoxicity profile of metal oxide nanoparticles: A mechanistic QSTR approach [J]. Ecotoxicology and Environmental Safety, 2014, 107: 162-169

[64] Liu Y, Yang Q, Li Y, et al. Application of machine learning in organic chemistry [J]. Chinese Journal of Organic Chemistry, 2020, 40(11): 3812-3827

[65] Yan X L, Sedykh A, Wang W Y, et al. In silico profiling nanoparticles: Predictive nanomodeling using universal nanodescriptors and various machine learning approaches [J]. Nanoscale, 2019, 11(17): 8352-8362

[66] Yan X L, Zhang J, Russo D P, et al. Prediction of nano-bio interactions through convolutional neural network analysis of nanostructure images [J]. ACS Sustainable Chemistry & Engineering, 2020, 8(51): 19096-19104

[67] 李潍, 于相毅, 史薇, 等. 欧盟健康风险评估技术概述[J]. 生态毒理学报, 2019, 14(4): 43-53

Li W, Yu X Y, Shi W, et al. Overview of EU human health risk assessment technology [J]. Asian Journal of Ecotoxicology, 2019, 14(4): 43-53 (in Chinese)

Overview of Application of Machine Learning in Field of Nanomaterials Risk Assessment

Wu Zihao1, Zhang Siyu2, Dong Shipeng1,*, Mao Liang1

1. State Key Laboratory of Pollution Control and Resource Reuse, School of the Environment, Nanjing University, Nanjing 210023, China 2. School of Computer Science and Information Engineering, Hefei University of Technology, Hefei 230601, China

Abstract: The wide application of nanomaterials has led to a sharp increase in emissions, which has potential risk to the ecological environment and human health. Therefore, risk assessment of nanomaterials is particularly important. Animal experiment involved in the risk assessment of nanomaterials is costly and time-consuming, leading to difficulties in satisfying the data requirements of risk assessment. In order to fill the data gap, computer modeling methods have been introduced to predict the physical and chemical properties and toxicological effects of nanomaterials. Machine learning (ML), as the current advanced method of computer modeling, has shown good performance and prospects in the field of nanomaterials risk assessment. This article firstly introduces the application methods and modeling process of machine learning in nanomaterials risk assessment. Secondly, based on the research status at home and abroad, the examples of machine learning applied in current issue are reviewed to exhibit the main progress of machine learning in predicting nanomaterial properties and toxicological effects. Finally, according to current studying status of machine learning in nanomaterials, the prospects and challenges in this field is summarized.

Keywords: nanomaterials; machine learning; risk assessment; physicochemical property; toxicological effects

收稿日期2022-01-05

录用日期2022-03-02

基金项目国家自然科学联合基金项目(U2267220);国家自然科学基金青年项目(21806076)

第一作者武子豪(1997—),男,硕士研究生,研究方向为纳米信息学,E-mail: mg1925030@smail.nju.edu.cn

*通讯作者(Corresponding author), E-mail: shipengd@nju.edu.cn

DOI: 10.7524/AJE.1673-5897.20220105001

武子豪, 张司雨, 董仕鹏, 等. 机器学习在纳米材料风险评估中的应用[J]. 生态毒理学报,2022, 17(5): 139-151

Wu Z H, Zhang S Y, Dong S P, et al. Overview of application of machine learning in field of nanomaterials risk assessment [J]. Asian Journal of Ecotoxicology, 2022, 17(5): 139-151 (in Chinese)

文章编号: 1673-5897(2022)5-139-13

中图分类号: X171.5

文献标识码: A

Received 5 January 2022

accepted 2 March 2022

通讯作者简介:董仕鹏(1988—),男,博士,助理研究员,主要研究方向为纳米材料的生物积累、传递和效应。