关键词:
需水预测
机器学习
区域建模
可解释性人工智能
SHAP方法
摘要:
需水预测旨在基于历史及当前水资源利用状况和经济社会发展动态,预估未来一定时期内的水资源需求,是水资源规划与管理的核心环节之一。目前我国正处于加快构建国家水网、全力推进南水北调后续工程高质量发展的关键时期,准确的需水预测是科学确定水资源配置工程总体布局和工程规模的重要基础,对于保障我国中长期水资源安全具有重要意义。我国现有的需水预测成果面临较大的争议,预测值与实际值存在较大偏差,不同专家学者使用不同方法得到的结果也大相径庭,这无疑降低了预测结果的可信度和实用性。面对传统需水预测方法准确度不足,尤其是难以捕捉需水量与其驱动因素之间复杂非线性关系等问题,本研究基于机器学习方法,提出了区域建模策略,构建了可解释性模型模块,探索了若干模型精度改进方法。在此基础上,构建了基于机器学习方法的高精度可解释需水预测模型,基于模型对水资源需求与主要驱动因素关系进行了解译分析,并在典型地区进行了应用。研究为需水预测提供了新的思路和方法,主要研究成果包括:
(1)构建了基于机器学习方法的高精度可解释需水预测模型。提出了结合区域建模策略和可解释性人工智能技术的建模方法,区域建模策略通过为多个城市建立一个统一的预测模型,解决了需水预测领域的数据稀缺问题;同时,可解释性人工智能技术通过为黑盒模型提供易于理解的模型解释,增强了模型的透明度和可信度。基于所提出的模型,设置了三个实验以探索不同机器学习改进方法对需水预测模型性能的影响,并使用基于Shapley Additive exPlanations(SHAP)方法的解释模型对预测结果进行解释,实现主要驱动因素的识别和量化分析。
(2)提出了引入静态属性、纳入先验知识以及应用迁移学习策略等模型精度提升方法。在样本内测试集中,引入静态属性后有76%的城市准确度得到提升,模型的对称平均绝对百分比误差(SMAPE)中位数从15.19%降低至10.57%。在样本外测试集中,引入静态属性后有高达89%的城市准确度得到改善,SMAPE中位数从23.27%降低至13.32%。表明静态属性能够为模型提供有价值的信息,可以广泛改善各个城市的预测性能。基于对需水预测问题的理解,提出了一种新的混合损失函数,能够减少单一损失函数带来的固有偏见。结果表明,基于混合损失函数、MSE损失函数和MSAPE损失函数的模型SMAPE中位数分别为9.74%、10.57%和10.39%,SMAPE>40%的城市分别为2个、3个和9个。最后,研究发现迁移学习策略适用于需水预测领域,能够广泛改善模型性能。该方法的应用显著提高了模型在各个城市的准确度,模型的SMAPE中位数从9.96%下降至8.36%。在城市个体角度,进行测试的198个城市中有170个性能得到改善,同时,SMAPE>40%的城市数量从3个减少至0个,表明绝大多数城市均能从迁移学习策略中受益。
(3)识别出了水资源需求的主要驱动因素,并对其与水资源需求的非线性关系进行了量化分析。其主要驱动因素为常住人口、平均气温、耕地面积、第一产业增加值、建成区面积和累积降水,这些因素的重要性分别为30.9%,15.9%,7.1%,6.3%,3.9%和2.6%,共计66.7%。考虑静态属性(纬度、经度和城市面积等)后,累积重要性超过90%。随后,基于SHAP方法量化了水资源需求与主要驱动因素之间的非线性关系。结果表明,这些非线性关系普遍存在并呈现出高度的复杂性,包括明显的边际效应递减现象、分段函数关系以及阈值效应等。
(4)以北京市为典型区进行了模型应用。将所提出的模型在京津冀地区13个城市进行验证与比对后,对北京市2035年的用水需求进行多情景预测,发现其需水量范围为39.20~42.66亿m3,其中,最有可能情景的需水量为40.91亿m3,与北京市近五年年均用水量基本一致。