室内环境中的细颗粒物(PM2.5)污染作为全球重要的公共卫生问题之一,由于其高度非线性和复杂性而面临重大挑战。因为烹饪、吸烟、清洁等扬尘行为都会引起室内PM2.5浓度的显著波动。但是,很难进入私人空间收集足够的来自家庭的细颗粒物污染相关数据。囿于输入数据和信息的局限,传统的质量平衡原理计算模型难以预测未来的室内PM2.5浓度变化趋势。机器学习技术的最新进展为城市计算提供了新的潜力,成为传统方法的有益补充。其中,随机森林和各种人工神经网络及其变体方法已成为最受欢迎和广泛使用的技术。然而,现有的许多“黑箱”模型在可靠性、泛化性和可解释性方面仍未阐明清楚。
近日,清华大学建筑学院赵彬教授课题组与合作者的最新研究通过多机器学习模型的比较、验证和归因的全面评估框架(图1),证明了贝叶斯神经网络模型(BNN)在识别城市住宅PM2.5暴露的人口水平差异方面具有显著优势。研究选取了高斯过程回归(GPR)、分位数随机森林(QRF)和BNN三种模型进行对比。这三种方法是用于区间预测的代表性概率机器学习模型,且三种模型的结构复杂性以及黑箱程度逐步增加,一定程度代表了从“浅”到“深”的方法论思想。此外,通过独立数据源验证其泛化性,并使用SHapley加性解释(SHAP)方法对这些模型进行进一步分析,以量化其多因素贡献并阐明模型性能的差异。
图1 机器学习模型验证-对比-归因的评价框架。 GPR: 高斯过程回归; QRF: 分位数随机森林; BNN: 贝叶斯神经网络. MAE: 平均绝对误差 (μg/m3); RMSE: 均方根误差 (μg/m3); R2:决定系数. SHAP: SHapley加性解释方法。
研究发现BNN模型在保证这个区间的浓度预测准确的前提下,比QRF和GPR模型捕捉峰值浓度方面表现更为卓越,尤其是在样本量有限的情况下。总结三个模型在两个数据源上的性能指标对比(表1),发现GPR模型对测量数据点的覆盖不足,无法有效捕捉某一天城市内不同住宅之间的日均PM2.5浓度变化。QRF模型在新数据集上的表现较差,数据源Ⅱ中的R²、MAE和RMSE(分别为0.24、20.0 μg/m³和31.4 μg/m³),显著低于数据源Ⅰ训练集中的相应值(分别为0.95、3.09 μg/m³和4.71 μg/m³)。这种显著的性能差异表明,QRF模型在训练集上的优越表现可能源于过拟合问题。而BNN模型在均值拟合和区间覆盖方面均表现优异,展现了良好的泛化能力。因此,综合考虑模型在两个数据集上的一致性和鲁棒性,BNN模型被确定为最优模型,能更准确地反映数据的真实波动。
进一步,该研究采用SHAP方法阐明了不同输入因素对三种模型预测的总体影响(图2)。结果表明,三种模型之间的差异可主要归因于GDP和人口的贡献不同。具体而言,GPR模型主要将住宅PM2.5浓度与室外PM2.5浓度和室外气象条件关联,分别占总贡献的56%和27%。相比之下,BNN和QRF模型中GDP和人口这两个输入因素的贡献显著增加:GDP在对BNN和QRF模型的贡献中分别排名第二(15%)和第四(8%),而人口在这两种模型中的贡献排名第三(13%)和第二(17%)。这表明,要有效捕捉城市层面住宅PM2.5浓度的复杂变化,除了室外浓度和气象特征外,还需考虑社会经济因素。
图2 输入因素对BNN、QRF和GPR模型的贡献评估。(a) 特征的重要性排序;(b) 数据源I中各个样本的SHAP值分布。正SHAP值表示该特征增加了预测结果,而负值表示预测结果减少。颜色渐变表示数值特征的实际值。 BNN: 贝叶斯神经网络; QRF: 分位数随机森林; GPR: 高斯过程回归。PM2.5_out: 室外日均 PM2.5浓度;Tair: 室外日均温度; RHout: 室外日均湿度;GDP:国内生产总值。
总体而言,数据驱动的机器学习方法已经迅速发展成为一种与传统方法并列的重要工具。尽管初期常因其黑箱特性而受到质疑,但随着未来对数据的重视、搜集和不断完善,以及先进可解释方法的结合,其可靠性和应用范围必将进一步增强。本研究该框架能够对机器学习模型进行定性和定量解释,从而为未来研究阐明城市特征与室内空气污染物之间复杂的非线性关系提供有价值的参考。
该项工作于4月7日以“大时空尺度下室内PM2.5浓度预测的机器学习模型对比与评估”(Comparison and evaluation of machine learning models for predicting indoor PM2.5 concentrations on a large spatiotemporal scale)为题在线发表于《建筑模拟》(Building Simulation)。清华大学建筑学院建筑技术科学系2020级博士研究生代慧为该论文的第一作者,赵彬教授为通讯作者,北京航空航天大学董兆敏教授和深圳市建筑科学研究院股份有限公司的高峣高级工程师、任俊教授级高级工程师为合作作者。
本研究得到了清华大学恒隆房地产研究中心的资助。
文章链接:
https://doi.org/10.1007/s12273-025-1276-0
声明:本文系转载自互联网,请读者仅作参考,并自行核实相关内容。若对该稿件内容有任何疑问或质疑,请立即与铁甲网联系,本网将迅速给您回应并做处理,再次感谢您的阅读与关注。
不想错过新鲜资讯?
微信"扫一扫"