基于极限学习机算法对太湖东部湖区水源地总磷数据的自动监测分析

崔嘉宇, 郭蓉, 张悦, 徐亮, 钟声, 董圆媛, 李心雨. 基于极限学习机算法对太湖东部湖区水源地总磷数据的自动监测分析[J]. 环境工程学报, 2021, 15(6): 2165-2173. doi: 10.12030/j.cjee.202009182
引用本文: 崔嘉宇, 郭蓉, 张悦, 徐亮, 钟声, 董圆媛, 李心雨. 基于极限学习机算法对太湖东部湖区水源地总磷数据的自动监测分析[J]. 环境工程学报, 2021, 15(6): 2165-2173. doi: 10.12030/j.cjee.202009182
CUI Jiayu, GUO Rong, ZHANG Yue, XU Liang, ZHONG Sheng, DONG Yuanyuan, LI Xinyu. Analysis of automatic monitoring data of total phosphorus in drinking water source in east Taihu Lake based on improved extreme learning machine algorithm[J]. Chinese Journal of Environmental Engineering, 2021, 15(6): 2165-2173. doi: 10.12030/j.cjee.202009182
Citation: CUI Jiayu, GUO Rong, ZHANG Yue, XU Liang, ZHONG Sheng, DONG Yuanyuan, LI Xinyu. Analysis of automatic monitoring data of total phosphorus in drinking water source in east Taihu Lake based on improved extreme learning machine algorithm[J]. Chinese Journal of Environmental Engineering, 2021, 15(6): 2165-2173. doi: 10.12030/j.cjee.202009182

基于极限学习机算法对太湖东部湖区水源地总磷数据的自动监测分析

    作者简介: 崔嘉宇(1988—),男,硕士,工程师。研究方向:水环境监测、分析。E-mail:cjy19881029@163.com
    通讯作者: 郭蓉(1985—),女,硕士,高级工程师。研究方向:水环境监测与污染防治。E-mail:guorong@jshb.gov.cn
  • 基金项目:
    国家水体污染控制与治理科技重大专项(2017ZX07302-003);2018年江苏省环保科研课题(重大技术攻关类)(2018008);江苏省环境监测科研基金项目(2003)
  • 中图分类号: X832;X524

Analysis of automatic monitoring data of total phosphorus in drinking water source in east Taihu Lake based on improved extreme learning machine algorithm

    Corresponding author: GUO Rong, guorong@jshb.gov.cn
  • 摘要: 对太湖东部湖区金墅港和渔洋山水源地总磷自动监测值与实验室监测值进行比对分析,基于相关性分析,选取对自动监测总磷浓度影响较大的浊度、蓝绿藻和叶绿素等指标,提出可选择极限学习机隐层节点的改进极限学习机模型(IELM)修正自动监测总磷数据。结果表明,总磷自动监测值相对实验室监测值偏差较大,绝对误差范围在0.05~0.112 mg·L−1,平均绝对误差为0.017 mg·L−1。若以相对误差小于或等于30%作为比对合格的标准值,总磷自动监测数据合格率仅为52.9%。经过IELM算法模型训练和测试,训练均方误差为0.000 073 5,测试均方误差为0.000 103。经过模型修正后的自动监测总磷数据更接近实验室监测值,其平均绝对误差降低0.026 mg·L−1,平均相对误差降低45%。按比对误差30%计算,模型修正后的总磷自动监测数据合格率为92.0%,可应用于自动监测总磷数据的修正。
  • 加载中
  • 图 1  太湖饮用水水源地监测点位分布图

    Figure 1.  Monitoring sites in drinking water source in east Taihu Lake

    图 2  自动监测和实验室监测TP浓度变化

    Figure 2.  Variation of total phosphorus concentrations by automatic water monitoring compared with laboratory method

    图 3  不同隐层节点数的M-MSE变化情况

    Figure 3.  Variation of M-MSE under different numbers of hidden layer nodes

    图 4  TP模型训练结果比较

    Figure 4.  Training results and performance comparison of total phosphorus concentrations

    表 1  自动监测TP数据与其他监测指标的相关性分析

    Table 1.  Spearman correlation analysis between total phosphorus and other water quality parameters by automatic water monitoring

    监测指标pHDOTurbCODMn${\rm{NH}}_4^ + $-N蓝绿藻Chl-a
    TP−0.015−0.0480.442*0.0880.0500.2070.123
    pH0.531**−0.489*−0.1750.126*−0.077*−0.115*
    DO−0.173**−0.189**0.1980.1500.038
    Turb0.731*0.0640.139−0.004
    CODMn0.1610.477*0.317*
    ${\rm{NH}}_4^ + $-N0.0370.108
    藻密度0.075
      注:*表示在0.05水平下的显著水平,**表示在0.01水平上显著相关;监测指标中,除pH无单位、藻密度单位为104个·L−1外,其余单位为mg·L−1
    监测指标pHDOTurbCODMn${\rm{NH}}_4^ + $-N蓝绿藻Chl-a
    TP−0.015−0.0480.442*0.0880.0500.2070.123
    pH0.531**−0.489*−0.1750.126*−0.077*−0.115*
    DO−0.173**−0.189**0.1980.1500.038
    Turb0.731*0.0640.139−0.004
    CODMn0.1610.477*0.317*
    ${\rm{NH}}_4^ + $-N0.0370.108
    藻密度0.075
      注:*表示在0.05水平下的显著水平,**表示在0.01水平上显著相关;监测指标中,除pH无单位、藻密度单位为104个·L−1外,其余单位为mg·L−1
    下载: 导出CSV

    表 2  TP模型测试值与实测值对比

    Table 2.  Comparison of model test values and measured values of total phosphorus concentrations

    序号TP/(mg·L−1)相对误差
    实验室
    监测值
    自动
    监测值
    模型
    测试值
    自动监测与
    实验室监测差值
    实验室监测与
    模型计算差值
    自动监测与
    实验室监测
    模型计算与
    实验室监测
    10.0400.0190.030−0.021−0.010−53%−24%
    20.0300.0360.0340.0060.00420%13%
    30.0700.1170.0550.047−0.01567%−21%
    40.0500.0870.0430.037−0.00774%−13%
    50.0500.1100.0410.060−0.009120%−19%
    60.1000.1840.0830.084−0.01784%−17%
    70.0400.0540.0430.0140.00335%6%
    80.0400.0660.0520.0260.01265%30%
    90.0500.1140.0370.064−0.013128%−25%
    100.0400.0380.040−0.0020.000−5%−1%
    110.0300.0590.0420.0290.01297%40%
    120.0300.0340.0340.0040.00413%15%
    序号TP/(mg·L−1)相对误差
    实验室
    监测值
    自动
    监测值
    模型
    测试值
    自动监测与
    实验室监测差值
    实验室监测与
    模型计算差值
    自动监测与
    实验室监测
    模型计算与
    实验室监测
    10.0400.0190.030−0.021−0.010−53%−24%
    20.0300.0360.0340.0060.00420%13%
    30.0700.1170.0550.047−0.01567%−21%
    40.0500.0870.0430.037−0.00774%−13%
    50.0500.1100.0410.060−0.009120%−19%
    60.1000.1840.0830.084−0.01784%−17%
    70.0400.0540.0430.0140.00335%6%
    80.0400.0660.0520.0260.01265%30%
    90.0500.1140.0370.064−0.013128%−25%
    100.0400.0380.040−0.0020.000−5%−1%
    110.0300.0590.0420.0290.01297%40%
    120.0300.0340.0340.0040.00413%15%
    下载: 导出CSV
  • [1] 陈小华, 李小平, 程曦, 等. 太湖流域典型中小型湖泊富营养化演变分析(1991-2010)[J]. 湖泊科学, 2013, 25(6): 846-853. doi: 10.18307/2013.0608
    [2] 李军, 陈程. 总氮总磷在线自动监测仪器的现状与问题[J]. 中国环境监测, 2013, 29(2): 156-158. doi: 10.3969/j.issn.1002-6002.2013.02.032
    [3] 娄保锋, 藏小平, 洪一平, 等. 水样不同处理方式对总磷监测值的影响[J]. 环境科学学报, 2006, 26(8): 1393-1399. doi: 10.3321/j.issn:0253-2468.2006.08.026
    [4] HUANG G B, ZHU Q Y, SIEW C K, et al. Extreme learning machine: theory and applications[J]. Neurocomputing, 2006, 70(1/2/3): 489-501.
    [5] HUANG G B, CHEN L, SIEW C K, et al. Universal approximation using incremental feed forward networks with arbitrary input weights[J]. Neural Networks, 2006, 17(4): 879-892. doi: 10.1109/TNN.2006.875977
    [6] 张颖, 李梅. 基于粒子群优化极限学习机的水质评价新模型[J]. 环境科学与技术, 2016, 39(5): 135-139.
    [7] 崔东文. 极限学习机在湖库总磷、总氮浓度预测中的应用[J]. 水资源保护, 2013, 29(2): 61-66.
    [8] 边冰, 赵明政. 基于深度极限学习机的水质预测研究[J]. 华北理工大学学报(自然科学版), 2020, 42(1): 51-57.
    [9] 冯驰, 金琦, 王艳楠, 等. 基于GOCI影像和水体光学分类的内陆湖泊叶绿素a浓度遥感估算[J]. 环境科学, 2015, 36(5): 1557-1564.
    [10] 张玲玲, 郭兴芳, 顾淼, 等. 大型调水对受水湖体富营养化关键因子的影响[J]. 中国给水排水, 2020, 36(1): 58-62.
    [11] 王华, 陈华鑫, 徐兆安, 等. 2010-2017年太湖总磷浓度变化趋势分析及成因探讨[J]. 湖泊科学. 2019, 31(4): 919-929.
    [12] 杜成功, 李云梅, 王桥, 等. 面向GOCI数据的太湖总磷浓度反演及其日内变化研究[J]. 环境科学, 2016, 37(3): 862-872.
    [13] 林舒. 水中总磷测定各影响因素的探讨及方法优化[J]. 中国无机分析化学, 2019, 9(6): 1-5. doi: 10.3969/j.issn.2095-1035.2019.06.001
    [14] FENG G, HUANG G B, LIN Q, et al. Error minimized extreme learning machine with growth of hidden nodes and incremental learning[J]. IEEE Transactions on Neural Networks, 2009, 20(8): 1352-1357. doi: 10.1109/TNN.2009.2024147
    [15] 徐睿, 梁循, 齐金山, 等. 极限学习机前沿进展与趋势[J]. 计算机学报, 2019, 42(7): 1640-1670.
    [16] 于海洋. 在线预测的极限学习机方法研究[D]. 长春: 吉林大学, 2019.
    [17] DENG W Y, BAI Z, HUANG G B, et al. A fast SVD-hidden-nodes based extreme learning machine for large-scale data analytics[J]. Neural Networks, 2016, 77(1): 14.
    [18] 徐勇, 王东, 张慧. 基于自适应在线极限学习机模型的预测方法[J]. 统计研究, 2016, 33(7): 103-109.
    [19] 陆慧娟, 安春霖, 马小平, 等. 基于输出不一致测度的极限学习机集成的基因表达数据分类[J]. 计算机学报, 2013, 36(2): 341-348.
    [20] 高湘, 李妍, 何怡. 湖泊底泥磷释放及磷形态变化[J]. 环境工程学报, 2015, 9(7): 3350-3354. doi: 10.12030/j.cjee.20150745
    [21] 吴丹, 金小伟, 朱红霞, 等. 地表水总磷测定中现场前处理方式及分析方法比对研究[J]. 中国环境监测, 2020, 36(4): 123-131.
    [22] 朱广伟, 秦伯强, 张运林, 等. 2005-2017年北部太湖水体叶绿素a和营养盐变化及影响因素[J]. 湖泊科学, 2018, 30(2): 279-295. doi: 10.18307/2018.0201
    [23] 于洋, 彭福利, 孙聪, 等. 典型湖泊水华特征及相关影响因素分析[J]. 中国环境监测, 2017, 33(2): 88-94.
    [24] 夏文文, 钟声, 郁建桥. 浊度对不同型号总磷自动监测分析仪的影响[J]. 环境监控与预警, 2015, 7(4): 28-30. doi: 10.3969/j.issn.1674-6732.2015.04.010
    [25] 金筱请, 周慧. 过硫酸钾-钼锑抗分光光度法测定地表水中总磷的若干影响因素[J]. 环境监测管理与技术, 2002, 14(1): 38. doi: 10.3969/j.issn.1006-2009.2002.01.016
  • 加载中
图( 4) 表( 2)
计量
  • 文章访问数:  3001
  • HTML全文浏览数:  3001
  • PDF下载数:  74
  • 施引文献:  0
出版历程
  • 收稿日期:  2020-09-26
  • 录用日期:  2021-04-26
  • 刊出日期:  2021-06-10

基于极限学习机算法对太湖东部湖区水源地总磷数据的自动监测分析

    通讯作者: 郭蓉(1985—),女,硕士,高级工程师。研究方向:水环境监测与污染防治。E-mail:guorong@jshb.gov.cn
    作者简介: 崔嘉宇(1988—),男,硕士,工程师。研究方向:水环境监测、分析。E-mail:cjy19881029@163.com
  • 1. 江苏省环境监测中心,南京 210019
  • 2. 江苏省苏力环境科技有限责任公司,南京 210036
  • 3. 南京大学环境学院,南京 210093
基金项目:
国家水体污染控制与治理科技重大专项(2017ZX07302-003);2018年江苏省环保科研课题(重大技术攻关类)(2018008);江苏省环境监测科研基金项目(2003)

摘要: 对太湖东部湖区金墅港和渔洋山水源地总磷自动监测值与实验室监测值进行比对分析,基于相关性分析,选取对自动监测总磷浓度影响较大的浊度、蓝绿藻和叶绿素等指标,提出可选择极限学习机隐层节点的改进极限学习机模型(IELM)修正自动监测总磷数据。结果表明,总磷自动监测值相对实验室监测值偏差较大,绝对误差范围在0.05~0.112 mg·L−1,平均绝对误差为0.017 mg·L−1。若以相对误差小于或等于30%作为比对合格的标准值,总磷自动监测数据合格率仅为52.9%。经过IELM算法模型训练和测试,训练均方误差为0.000 073 5,测试均方误差为0.000 103。经过模型修正后的自动监测总磷数据更接近实验室监测值,其平均绝对误差降低0.026 mg·L−1,平均相对误差降低45%。按比对误差30%计算,模型修正后的总磷自动监测数据合格率为92.0%,可应用于自动监测总磷数据的修正。

English Abstract

  • 总磷(total phosphorus,TP)是表征水体富营养化程度的重要污染特征因子,是评价水质的重要指标之一。磷是促进生物生长的重要元素,水体环境中磷浓度过高会导致藻类过度繁殖,造成水体富营养化[1]。目前,我国国标规定的TP测定方法为钼酸铵分光光度法(GB 11893-1989)。传统的TP监测具有准确性高、抗干扰性强、质控体系完善等优点,但需要占用大量时间、人力和物力,难以实时反映水质变化情况,故无法满足水源地水质安全监控需求。水中TP的自动监测可实现实时在线监测,已经成为环保、水利等部门水质监测的主要手段[2]。然而,传统TP自动监测方法的抗干扰性弱,易受水体色度与浊度(Turb)的变化及样品处理条件等干扰[3],不确定性较高,且监测结果与同步实验室的结果相比存在一定差异,故无法精准反映水体的实际情况。

    近年来,人工神经网络广泛应用于水质研究。传统的神经网络通过误差反馈不断调整权重可解决一些实际问题,但梯度下降算法容易导致学习陷入局部最优状态、学习过程耗时长等问题。针对上述问题,HUANG等[4-5]提出了极限学习机算法(extreme learning machine,ELM)。该算法由广义逆直接求得输出层权重,在确保精度的同时提升了算法的学习速度。ELM已被探索应用于环境领域的研究中。张颖等[6]基于粒子群算法优化的极限学习机对淮河水质进行类别判定;崔东文[7]构建了基于ELM的湖库TP、TN模型,具备参数选择简便、训练速度快、不会陷入局部最优值等优点;边冰等[8]验证了深度极限学习机在水质预测方面具备合理性和可行性。

    本研究基于江苏省环境监测中心在太湖东部湖区金墅港和渔洋山水源地建设的2个水质自动监测站TP数据,分析TP自动监测与实验室监测的差距及其影响因素。采用改进的极限学习机算法,建立包含TP自动监测数据、相关影响因子及TP实验室监测数据的学习机模型,修正TP自动监测数据,以便进一步缩小与实验室数据的差异,更好地表征水源地TP的真实状况,为太湖环境综合治理提供参考。

  • 太湖富营养化问题突出。多年来,大多研究集中在蓝藻水华问题形势严峻的太湖西部和北部区域[9],而对太湖东部湖区的研究相对较少。根据江苏省环境监测中心长期水质及卫星遥感监测结果,2016年前,太湖东部湖区水质较好,TP较低,未曾出现蓝藻水华现象;而2016年以后,太湖东部湖区开始出现蓝藻水华,同时TP逐渐升高。一是由于入湖的磷污染物大幅增加,并通过湖体水动力变化,逐年从西向东迁移[10];二是由于东太湖水生植被的大量减少,沉水植物对磷元素的吸收相应减少,增加了风浪对底泥扰动导致的内源性营养盐的释放[11]。此外,TP变化还与风向、风速等因素密切相关[12]。2019年个别月份,太湖东部湖区金墅港和渔洋山水源地的TP甚至超过地表水环境质量标准(GB 3838-2002)集中式生活饮用水源地二级保护区Ⅲ类标准值,直接威胁饮用水水源地水质安全。

  • 太湖东部湖区金墅港、渔洋山水源地(位置如图1所示)的TP自动监测数据频次为每2 h一次,较高的数据量可实现TP的有效监测。目前,这2处水源地的TP自动监测仪器是日本岛津TNP4110,测定原理是采用碱性过硫酸钾消解-紫外分光光度法分析水样中的TP,仪器稳定性好,分析方法符合国家环境保护行业标准HJ 103-2003的要求。然而,若出现较大风浪导致水体浑浊,以及水体中出现过多蓝藻颗粒等情况时,会干扰TP消解和比色过程,此时TP的测定浓度并不能准确反映TP的实际情况[13]。本研究选用金墅港、渔洋山水源地2016年1月—2020年4月的TP自动监测数据,与实验室监测数据进行比对分析。实验室监测数据频次为每月一次,方式为手工采样。采样点位于自动监测站取水口,样品的采集、运输、保存均执行地表水采样技术规范(HJ 91-2002、HJ 493-2009)。实验室分析采用钼酸铵分光光度法(GB 11893-1989)。实验室监测数据能准确反映水源地TP,可作为TP自动监测数据的真值。比对分析时,自动监测选用在采样时间上与实验室手工采样时间最为临近的一组数据,时间差为0~59 min。

  • 极限学习机(ELM)是一个单隐层的神经网络,是在Moore-Penrose矩阵理论基础上提出的快速学习算法[14-15]。相较传统的神经网络具有训练速度快、参数选择简单、不易陷入局部最优等特点,可运用于水质评价和水质预测等方面。已有研究[16]表明,ELM 网络模型已在多输入、多输出的水质预测中取得了较好的效果。

    根据极限学习机理论[4-5],对于一个有L个节点的单隐层神经网络可表示为式(1)。

    式中:$ g\left(x\right) $为激活函数, $ {W}_{i}={\left[{W}_{i1},{W}_{i2},\cdots ,{W}_{in}\right]}^{\mathrm{T}} $为连接第i个隐层节点的输入权值;$ {b}_{i} $为第i个隐层节点的偏置;$\; {\beta }_{i}={\left[{\beta }_{i1},{\beta }_{i2},\cdots ,{\beta }_{im}\right]}^{\mathrm{T}} $为第i个隐层节点的输出权值。令$ H=g\left({W}_{i} \cdot {X}_{j}+{b}_{i}\right) $,则式(1)可换算为式(2)。

    式中:$H({W}_{1},{W}_{2},\cdots ,{W}_{L},{b}_{1},{b}_{2},\cdots ,{b}_{L},{x}_{1},{x}_{2},\cdots ,{x}_{N})=\left[\!\!{array}{ccc}g\left({W}_{1} \cdot {X}_{1}+{b}_{1}\right)& \cdots & g\left({W}_{L} \cdot {X}_{1}+{b}_{L}\right)\\ \vdots & \ddots & \vdots \\ g\left({W}_{1} \cdot {X}_{N}+{b}_{1}\right)& \cdots & g\left({W}_{L} \cdot {X}_{N}+{b}_{L}\right){array}\!\!\right]$$ \beta ={\left[\!\!{array}{c}{\beta }_{1}^{\mathrm{T}}\\ \vdots \\ {\beta }_{L}^{\mathrm{T}}{array}\!\!\right]}_{L \times M}$$T={\left[\!\!{array}{c}{t}_{1}^{\mathrm{T}}\\ \vdots \\ {t}_{N}^{\mathrm{T}}{array}\!\!\right]}_{N \times M} $

    为达到训练效果,需要得到$ {W}_{i} $$ {\beta }_{i} $$ {b}_{i} $使式(2)无限接近于最小化,得到式(3)。

    由此得到等价的最小化损失函数,见式(4)。

    在ELM算法中, 一旦输入权重$ {W}_{i} $及隐层的偏置$ {\beta }_{i} $被随机确定,隐层的输出矩阵$ H $就被确定。训练单隐层神经网络可转化为求解一个线性系统$ H\beta =T $,并且输出权重$ \beta $的范数最小且唯一,计算公式见式(5)。

    式中:$ {H}^{-1} $是矩阵$ H $的Moore-Penrose广义逆。

    根据ELM原理,隐层节点数越多,训练误差会越小。当隐层节点数等于样本数时,训练误差会趋于0;但会由此造成算法隐层节点的冗余,且一些隐含层节点并无意义[16-17],故有学者在水质评价时通过粒子群算法来优化极限学习机的输入权值和隐含层偏置[6]。然而,粒子群算法对离散的优化问题处理不佳,容易产生早熟收敛。本研究提出可选择极限学习机隐层节点的改进极限学习机模型(IELM,Improved ELM),采用多次试验取平均值的方法确定隐层节点数。多次试验求平均可减少随机产生的权值和阈值对模型稳定性的干扰,并增强学习机的稳定性[18-19]。通过试触法对每个节点数所建立的模型进行测试,分析测试误差的变化趋势,以此来确定合适的隐层节点数,可大大提升模型的预测精度,并有效降低随机值的产生对模型的干扰。

  • 图2为2016年以来金墅港水源地和渔洋山水源地的TP自动监测和实验室监测值的对比图。由图2可见,TP自动监测值和实验室监测值相差值为−0.05~0.112 mg·L−1,计算差值绝对值的平均值为0.017 mg·L−1,相对于湖库型TP标准为Ⅱ类(0.01~0.025 mg·L−1);而最大值0.112 mg·L−1,相对于湖库型TP浓度标准为Ⅴ类(0.1~0.2 mg·L−1)。自动站每隔一段时间会将自动监测值与实测值进行人工比对,以确定自动站是否正常运行。根据《江苏省水质自动监测质量管理暂行规定(苏环监〔2012〕6号)》,将自动值和手工值之差与手工值的比值定为比对误差。比对误差在±30%以内,TP自动监测数据才能有效反应实际情况。由此计算得到TP自动监测数据的合格率仅为52.9%。

    造成数据偏差较大的原因有如下几点。1)悬浮颗粒物是氮磷等营养元素在水中迁移转化的重要载体[20],同时也是微生物附着生长的重要载体[11],风浪等其他因素搅动底泥致使浊度增大,水中悬浮颗粒物增多,故实测数据偏大。2)悬浮物和蓝绿藻携带的TP经过消解转换为可检测的无机磷导致检测值较水体实际值高,另外蓝绿藻色度会干扰TP显色反应、浑浊的水质会干扰比色透光性亦会导致检测值和实际值产生偏差。3)对于实验室TP分析。根据《国家地表水环境质量监测网监测任务作业指导书(试行)(环办监测函〔2017〕249)》,TP人工采样静置及虹吸方式有利于粒径较大的颗粒物沉淀,可在一定程度上降低浊度对测定的干扰[3, 21]。在对太湖进行的实际采样过程中,若水样藻类较多,会采用63 μm筛过滤掉部分藻,并在分析时采用浊度及色度补偿以消除实验室的比色干扰,以进一步降低对TP测定结果的影响。样品从采样、运输,到实验分析、数据报出都有完整的全过程质量控制,以确保人工监测数据准确性更高。

  • 选取金墅港和渔洋山水源地水质自动监测站2016年1月—2020年4月的pH、溶解氧(DO)、浊度(Turb)、高锰酸盐指数(CODMn)、氨氮(${\rm{NH}}_4^ + $-N)、叶绿素质量浓度(Chl-a)、蓝绿藻密度(藻密度)等指标与TP进行相关性分析,自动监测频率为每2 h一次。结果表明:Turb与TP的相关性较高,相关系数为0.442;其次为藻密度,与TP的相关系数为0.207;相关性最小的为pH,与TP的相关系数为−0.015。各指标与TP的相关性分析结果见表1

    7个指标中,Chl-a、藻密度与TP的相关性较弱,分别为0.123、0.207。然而,也有学者发现太湖水质中的Chl-a、藻密度和TP呈显著正相关关系[11, 22-23];对与TP相关系数较大的Turb、藻密度和Chl-a等3项指标进行自相关分析发现,Turb与藻密度的相关性为0.139,具有一定相关性。以上结果的主要原因为颗粒态藻类会导致水体浊度增加,藻密度对水体色度会干扰显色反应,影响测定结果。其余指标之间相关系数均小于0.1,无相关性。

  • 根据TP的影响因素分析,将TP自动监测值及对其影响较大的Turb、藻密度和Chl-a等指标数据作为模型的输入数据集,TP的实验室监测值作为模型测试数据集,构建ELM模型。

    选取2个水源地2016年1月—2019年10月共92组数据为模型训练数据集,即训练样本数N=92;选取2个水源地2019年11月—2020年4月共12组数据作为模型测试数据集。为避免指标单位不统一对模型的影响,将Turb、藻密度和Chl-a进行归一化处理。正则化后的数据与TP自动监测值组合成数据输入集。

    将92组训练样本数据单独分为训练样本和测试样本:前80组数据作为训练样本;后12组数据作为测试样本。以1~80作为隐层节点的个数,分别进行10次、50次、100次、200次、500次和1 000次的训练,分析不同训练次数与隐层节点数的平均均方误差(mean-mse,M-MSE)的变化规律,结果如图3所示。

    图3可见,重复训练10、50和100次的M-MSE随隐层节点数增加的变化趋势不稳定,说明训练次数较少不能很好地降低随机值干扰。训练200次以上,随机值干扰明显降低。到了500、1 000次的时候,随机值的干扰很小。两者在最优节点数的M-MSE相差仅0.000 005,可忽略不计。训练的M-MSE在1~80个隐层节点总体呈逐级下降趋势。1~4个隐层节点对应的M-MSE呈指数级递减,4~80个隐层节点对应的M-MSE递减趋势逐步放缓。测试的M-MSE在1~4个隐层节点对应M-MSE变化趋势与训练的M-MSE走势一致;而在5个隐层节点以后对应M-MSE的变化幅度较小;在21个隐层节点左右,对应的M-MSE降至最小;在40个隐层节点以后对应的M-MSE快速增加。

    综合以上规律,同时考虑内存和计算成本等因素,确定该模型最佳隐层节点数为21个,最佳重复训练次数为500次。

  • 将前92组数据的TP自动监测值、Turb、藻密度、Chl-a作为模型的训练输入数据集,TP实验室监测值作为训练输出数据集,隐层节点数设为21,建立模型,重复训练500次。将后12组数据作为测试模型。经过模型训练和测试,试验用时较短为4.4 s。模型训练的M-MSE为0.000 073 5,模型测试的M-MSE为0.000 103。在P值小于0.01时,相关系数为0.881,具有显著相关性。模型训练的结果见图4,模型测试的结果见表2。由模型测试值和实验室监测值的差值来看,其绝对误差为−0.017~0.012 mg·L−1,相较自动监测值和实验室监测值的绝对误差为−0.021~0.084 mg·L−1,绝对误差降幅较大。相对误差在30%以内的数据有11个,超过30%的数据有1个,为40%,但相较测试前的相对误差有大幅降低。比较模型测试前后相对误差的绝对值,除第12个数据相对误差略有升高外,其余相对误差的降幅为4%~103%,相对误差总体降幅较大。因此,经过模型修正的TP自动监测数据已大大降低了其他因素的干扰,模型测试值更接近实验室监测值。

    模型测试中第8组和第11组数据误差≥30%。这2组数据中,Turb分别为23 NTU和26 NTU,已有研究[24]表明水质浊度值大于80 NTU时才会对TNP分析仪(日本岛津)的监测结果产生明显干扰;藻密度分别为368×104和387×104个·L−1,相较于2019年度太湖蓝藻预警期间湖体藻密度均值(1 218×104个·L−1),水源地的藻密度相对较低。因此,Turb和藻密度并不是导致这2组数据偏差较大的原因。TP的测定可能受到其他因素的影响,例如TP分析中磷钼蓝络合物的强吸附能力会导致实验用的玻璃器皿及比色皿必须充分酸泡,否则容易产生干扰;另外,实验中大多数玻璃器皿中含有的少量硼硅酸盐会在显色时产生痕量硅钼蓝,引入正误差[25]

  • 1)太湖东部湖区水源地自动监测TP数据和实验室TP数据偏差较大,受Turb、藻密度、Chl-a等影响,TP自动监测数据的合格率仅为52.9%,严重影响TP水质自动监控预警系统的发挥。

    2)通过试触法确定ELM隐层节点数和多次训练求均值的方法可减少随机产生输入权值和阈值所导致的模型误差,提高了模型的准确度和可重复性。经过IELM修正的TP自动监测数据与实验室数据的偏差明显降低。因此,将极限学习机算法嵌入到自动监测系统中修正TP自动监测数据,可有效提升数据的准确性,使其真实较为地反映TP实际情况,为管理决策及水质预警提供可靠数据支撑。

参考文献 (25)

目录

/

返回文章
返回