-
磷是河流中重要的营养素之一,其在河流中的分布存在显著的时空差异[1-2]。掌握磷在水体中的时空分布对于保护流域水环境安全,管理流域水系统十分重要。但是水质采样对于人力、财力的要求很高,对于大面积的流域及众多的污染参数(总磷、氨氮、重金属、有机质等),很难实现对污染参数在所有采样点的连续取样监测[3]。绝大多数的监测是对河流流量的连续监测以及对于水环境特性的间断性取样监测。这就需要建立一个可靠的、准确的依赖于河流流量及水环境特性等易检测指标的水质预测模型,对河流中污染物的时空分布特性进行模拟和预测。
水质预测历来受到国内外学者的广泛关注,前人开发了大量的模型对河流水质进行模拟,按照模型理论基础的不同可分为水质模拟模型预测法、混沌理论预测法、数理统计预测法、灰色系统理论预测法和神经网络模型预测法等[4-6],每种模型都有各自的适用工况和优缺点。其中数理统计模型已被证明在对水质进行预测时可获得较好的模拟效果。宫殿林等[7]通过多元线性回归模型建立了氮磷浓度与土地利用类型(农田、居民地和茶园)、景观格局制度(斑块密度、蔓延度和景观分割度)等变量之间相关关系;主成分分析[8]可以克服传统方法确定权数的随意性,有效消除指标间的相关性,对影响水质的主导因素进行识别;聚类分析[9]通过对水质指标进行聚类,并对聚类结果进行回归检验,以降低水质指标维数,从而获得各指标之间的内在联系,实现水质评估和预测的目的;为了克服解释变量过多造成的模型精度降低问题。张庆庆等[10]将广义加性模型应用于河道断面水质的预测,利用另一断面的流量、氨氮浓度和总氮等6种参数对该断面的氨氮浓度进行预测;偏最小二乘回归方法能够利用样本现有信息,并有效解决变量之间的多重相关问题。YAN et al[11]利用该方法建立了高锰酸盐指数与水体中pH、DO和氨氮等参数之前的相关关系;朱广利等[12]基于混沌理论对洛河流域的溶解氧浓度进行预测,预测误差可达到15%以下。然而,污染物在河流中的时空分布具有很强的随机性和复杂性,与水质影响因素(包括降雨、气温、水动力、人类活动和土地利用等)之间存在着强非线性关系,这使得传统数理统计模型的应用受到一定限制。随机森林模型[13]是一种新的机器学习模型,该模型的基础是决策树算法[14],通过构建了对象属性和对象值之间的映射关系,利用已知的数据构建预测准则,进而根据变量值对一个变量进行预测。该模型在非线性模拟方面具有较好的表现,且在生态、地理、医学和气候等领域已得到广泛应用[15-16]。
为了准确预测淮河中总磷的浓度并对其影响因素进行分析,掌握磷在水体中的时空分布规律。本文采集淮河干流正阳关至老子山段典型断面上覆水,对总磷浓度进行分析,利用随机森林算法建立基于气候特性、水动力、土壤类型和流域特性等参数的预测模型,并对各参数对河流中总磷浓度的影响程度进行评估。
基于随机森林的河流总磷预测模型及影响因素分析
Prediction model and influencing factors of total phosphorus concentration in river based on random forest method
-
摘要: 通过采集不同时间段淮河干流19个典型采样点的水样,获得水体中总磷浓度数据,针对河流总磷浓度时空分布差异大,受影响因素多和非线性的特点,基于随机森林算法,选择(气候特性、水动力、土壤类型和流域特性等)特征变量,构建模型对河流中总磷浓度进行预测,然后通过均方差增量参数对影响河流总磷浓度时空分布因素的重要性程度进行评估。研究结果表明,基于随机森林算法的模型可较好地模拟淮河水体中总磷浓度,模拟的一致性相关系数可达到0.83;对影响河流中总磷分布的因素进行评估发现,气候因素(降雨、温度)及水动力因素(流量)是最重要的因素;地表黏土含量对于水体中总磷的贡献要高于粉沙及沙粒的贡献;面源污染是淮河干流中总磷的主要来源,其中旱作农田的重要性系数高于灌溉农田。Abstract: By collecting water samples from 19 sampling points in the mainstream of the Huaihe River in different periods, the concentration of the total phosphorus in water was obtained. It can be noticed that the patial and temporal distribution was of a great difference and the totaol phosphorus appeared with a nonlinearity characteristics affected by lots of factors. The random forest method was employed to predict the total phosphorus concentration in river by choosing the variables of climate, hydropower, soil type and basin properties. Then, the influencing factors that affecting the spatial and temporal distribution of the total phosphorus concentration were analyzed by the square deviation of incremental parameter. Results showed that the concordance correlation coefficient of the simulation of the total phosphorus concentration in Huaihe River using random forest method could reach 0.83. Rainfall, temperature and river flow were the most important factors by analyzing the factors affecting the total phosphorus concentration distribution in rivers. The contribution of the surface clay to total phosphorus concentration in water was higher than that of silt and sand. Non-point source pollution was the main source of the total phosphorus of the Huaihe River, and the importante coefficient of the dry farmland was higher than that of the irrigated farmland.
-
表 1 现场实验采样点及采样时间
采样点 t 坐标 2014-06-11~
06-162014-11-11~
11-132015-06.15~
06-172016-05-30~
06-022016-09-05~
09-08正阳关 √ √ - √ √ N32°29′,E116°31′ 沙颍河 √ √ − √ √ N32°30′,E116°30′ 鲁台子 √ √ √ √ √ N32°33′,E116°37′ 凤台 − − √ √ √ N32°41′,E116°43′ 孔集 − − √ √ − N32°41′,E116°49′ 淮南平圩 − − √ √ − N32°40′,E116°54′ 淮南上 √ √ √ √ √ N32°40′,E116°57′ 淮南下 √ √ √ √ − N32°41′,E117°03′ 涡河口 √ √ − − √ N32°58′,E117°12′ 蚌埠闸河段 √ √ √ √ − N32°57′,E117°15′ 吴家渡 √ √ √ √ √ N32°57′,E117°22′ 高铁桥 √ √ √ − √ N32°58′,E117°25′ 沫河口 √ √ √ √ √ N32°58′,E117°26′ 临淮关 √ √ √ √ √ N32°55′,E117°37′ 安集 √ √ √ √ √ N33°01′,E117°48′ 陈台子 √ √ √ √ √ N33°02′,E117°52′ 小柳巷 √ √ √ √ √ N33°10′,E118°09′ 盱眙大桥 √ √ √ √ √ N33°02′,E118°29′ 老子山 √ √ √ √ − N33°11′,E118°37′ 表 2 随机森林模型中所用的子流域特征变量
变量 变量名称 结论图中简称 描述 类型 单位 来源 气候 降雨 Rain 各采样点对应流域的平均降雨 空间-时间 mm 中国气象数据网 温度 Tem 各采样点对应流域的平均气温 空间-时间 °C 中国气象数据网 流域 流域面积 Area 各采样点对应的子流域 空间 m2 SRTM 数据 流量 Flow 各采样点采样时刻的河流流量 空间-时间 m3·s−1 淮河水利委员会 土地类型 灌溉农田 Lu1 灌溉农田所占流域比例 空间 % 欧洲空间局 旱作农田 Lu2 旱作农田所占流域比例 空间 % 欧洲空间局 城市 Lu3 城市面积所占流域比例 空间 % 欧洲空间局 土壤 地表黏粒含量 Clay0 流域地表黏粒所占土壤比例(0 cm) 空间 % 国际土壤信息 地表粉沙含量 Silt0 流域地表粉沙所占土壤比例(0 cm) 空间 % 国际土壤信息 地表沙粒含量 Sand0 流域地表沙粒所占土壤比例(0 cm) 空间 % 国际土壤信息 表层黏粒含量 Clay5 流域表层黏粒所占土壤比例(0~5 cm) 空间 % 国际土壤信息 表层粉沙含量 Silt5 流域地表粉沙所占土壤比例(0~5 cm) 空间 % 国际土壤信息 表层沙粒含量 Sand5 流域地表沙粒所占土壤比例(0~5 cm) 空间 % 国际土壤信息 其他 季节 Season 一个代表四季的因子 时间 − 取样时季节 基流/非基流 Baseflow 表示取样时河流所处的水量状态 时间 − 取样时水量状态 表 3 随机森林模型的一致性相关系数参数
EST UPPER LOWER LCCC 0.83 0.88 0.77 表 4 变量重要性参数:均方差增量
变量 IncMSE/% 降雨 8.91 dr50 8.78 dr70 8.61 dr90 8.82 dr95 9.18 dr99 10.23 dr999 12.20 温度 7.92 dt50 8.41 dt70 7.42 dt90 7.25 dt95 9.82 dt99 10.06 dt999 7.85 流量 5.98 df50 5.95 df70 6.32 df90 5.27 df95 6.36 df99 6.35 df999 3.91 黏土(0 cm) 2.60 粉沙(0 cm) 2.73 沙粒(0 cm) 3.55 黏土(0~5 cm) 4.40 粉沙(0~5 cm) 3.60 沙粒(0~5 cm) −0.06 季节 3.41 基流/非基流 3.08 灌溉农田 0.16 旱作农田 1.00 城市 −1.90 注:df50, 70, 90, 95, 99, 999:折算系数为0.5、0.7、0.9、0.95、0.99和0.999的流量;dr50, 70, 90, 95, 99, 999:折算系数为0.5、0.7、0.9、0.95、0.99和0.999的流域平均降雨;dt50, 70, 90, 95, 99, 999:折算系数为0.5、0.7、0.9、0.95、0.99和0.999的流域平均温度。 -
[1] 王文涛, 曹西华, 袁涌铨, 等. 2012年长江口及其邻近海域营养盐分布的季节变化及影响因素[J]. 海洋与湖沼, 2016, 47(4): 804 − 812. doi: 10.11693/hyhz20160100017 [2] ZHANG W, JIN X, ZHU X, et al. Phosphorus characteristics, distribution, and relationship with environmental factors in surface sediments of river systems in Eastern China.[J]. Environmental Science & Pollution Research, 2016, 23(19): 1 − 10. [3] BARTLEY R, SPEIRS W J, ELLIS T W, et al. A review of sediment and nutrient concentration data from Australia for use in catchment water quality models[J]. Marine Pollution Bulletin, 2012, 65(4): 101 − 116. [4] 孙佳颖, 徐卫东. 河流水质预测模型研究进展[J]. 山西建筑, 2010, 36(36): 360 − 361. doi: 10.3969/j.issn.1009-6825.2010.36.229 [5] SONG G H, ZHANG Y H. Research progress and development trend of water quality models[J]. Equipment Environmental Engineering, 2008, 5(2): 32 − 36. [6] 王开章, 刘福胜, 孙鸣. 灰色模型在大武水源地水质预测中的应用[J]. 山东农业大学学报(自然科学版), 2002, 33(1): 66 − 71. [7] 宫殿林, 洪曦, 曾冠军, 等. 亚热带典型农业流域河流水质多元线性回归预测[J]. 生态与农村环境学报, 2017, 33(6): 509 − 518. doi: 10.11934/j.issn.1673-4831.2017.06.004 [8] SELLE B, SCHWIENTEK M, LISCHEID G. Understanding processes governing water quality in catchments using principal component scores[J]. Journal of Hydrology, 2013, 486: 31 − 38. [9] SIMEONOV V, STRATIS J A, SAMARA C, et al. Assessment of the surface water quality in Northern Greece[J]. Water Research, 2003, 37(17): 4119 − 4124. [10] 张庆庆, 许月萍, 牛少凤, 等. GAM在水质预测中的应用[C]//中国自然资源学会. 水与区域可持续发展——第九届中国水论坛论文集, 兰州, 2011: 258-262. [11] YAN B, FANG N F, ZHANG P C, et al. Impacts of land use change on watershed streamflow and sediment yield: An assessment using hydrologic modelling and partial least squares regression[J]. Journal of Hydrology, 2013, 484: 26 − 37. [12] 朱广利, 秦玉芳. 基于混沌理论的水质预测方法研究[J]. 湖北农业科学, 2012, 51(17): 3726 − 3729. doi: 10.3969/j.issn.0439-8114.2012.17.019 [13] BREIMAN L. Random forests[J]. Machine Learning, 2001, 45(1): 5 − 32. [14] TRENDOWICZ A, JEFFERY R. Classification and regression trees[J]. International Journal of Public Health, 2014, 57(1): 243 − 246. [15] 穆亚南, 丁丽霞, 李楠, 等. 基于面向对象和随机森林模型的杭州湾滨海湿地植被信息提取[J]. 浙江农林大学学报, 2018, 35(6): 105 − 114. [16] 刘家福, 李林峰, 任春颖, 等. 基于特征优选的随机森林模型的黄河口滨海湿地信息提取研究[J]. 湿地科学, 2018, 16(2): 97 − 105. [17] 魏复盛. 水和废水监测分析方法[M]. 北京: 中国环境科学出版社, 2002: 596. [18] BREIMAN L, FRIEDMAN J, STONE C J, et al. Classification and regression trees[M]. CRC press, 1984. [19] Rhodes A L, Newton R M, Pufall A. Influences of land use on water quality of a diverse New England watershed[J]. Environmental Science & Technology, 2001, 35(18): 3640 − 3645. [20] THOMAS R B, LEWIS J. An evaluation of flow-stratified sampling for estimating suspended sediment loads[J]. Journal of Hydrology, 1995, 170(1-4): 27 − 45. [21] FURNAS M M. Catchments and corals: terrestrial runoff to the Great Barrier Reef[M]. Australian Institute of Marine Science & CRC Reef Research Centre, 2003. [22] WANG Y, KUHNERT P, HENDERSON B. Load estimation with uncertainties from opportunistic sampling data–a semiparametric approach[J]. Journal of Hydrology, 2011, 396(1): 148 − 157. [23] LAWRENCE I, LIN K. A concordance correlation coefficient to evaluate reproducibility[J]. Biometrics, 1989, 45: 255 − 268. [24] 邱二生. 黑河水库水质及藻类监测和水体分层研究[D]. 西安: 西安建筑科技大学, 2010. [25] WITHERS P J, JARVIE H P. Delivery and cycling of phosphorus in rivers: a review.[J]. Science of the Total Environment, 2008, 400(1): 379 − 395. [26] 陈野, 李青云, 曹慧群. 河流泥沙吸附磷的研究现状与展望[J]. 长江科学院院报, 2014, 31(5): 12 − 16. doi: 10.3969/j.issn.1001-5485.2014.05.003 [27] JIN X, WANG S, PANG Y, et al. The adsorption of phosphate on different trophic lake sediments[J]. Colloids & Surfaces A Physicochemical & Engineering Aspects, 2005, 254(1): 241 − 248. [28] XIAO Y, CHENG H K, YU W W, et al. Effects of water flow on the uptake of phosphorus by sediments: An experime- ntal investigation[J]. Journal of Hydrodynamics Ser B, 2016. [29] 肖洋, 陆奇, 成浩科, 等. 泥沙表面特性及其对磷吸附的影响[J]. 泥沙研究, 2011(6): 64 − 68. [30] 徐楠, 印红伟, 陈志刚, 等. 农业磷面源污染形成机制及治理进展[J]. 苏州科技学院学报(工程技术版), 2012, 25(1): 18 − 22. [31] 冯爱萍, 黄莉, 徐逸, 等. 基于DPeRS模型的淮河流域氮磷面源污染评估[J]. 环境监控与预警, 2019(5): 66 − 71. [32] 高超, 张桃林. 不同利用方式下农田土壤对磷的吸持与解吸特征[J]. 环境科学, 2001, 22(4): 67 − 71. doi: 10.3321/j.issn:0250-3301.2001.04.015 [33] ROMAN D C, VOGEL R M, SCHWARZ G E. Regional regression models of watershed suspended-sediment discharge for the eastern United States[J]. Journal of Hydrology, 2012, 472-473(4): 53 − 62.