摘要:
[目的]构建和比较多种基于机器学习方法的甲状腺乳头状癌(papillary thyroid carcinoma,PTC)颈部淋巴结转移(neck lymph node metastasis,NLNM)预测模型,评估性能最优的模型并提高模型的可解释性。[方法]回顾性分析2021年1月至2023年9月在广西科技大学第二附属医院接受甲状腺切除手术的903例PTC患者的临床资料。患者随机分为训练集(70%)和验证集(30%),将性别、年龄、肿瘤最大直径、病灶数量及是否存在被膜侵犯等13项临床病理特征变量纳入逻辑回归、梯度提升机、随机森林、决策树、支持向量机和轻量级梯度提升机(Light Gradient Boosting Machine,Light GBM)等10种机器学习算法,对NLNM的风险构建预测模型。通过受试者工作特征曲线下面积(area under the curve,AUC)、灵敏度、特异度、准确率和F1得分等指标比较各模型性能。并通过决策曲线、基于沙普利加和解释(SHapley Additive exPlanation,SHAP)法等可视化方法,对最优模型的效果和可解释性进行分析。[结果]在10种机器学习模型中,Light GBM的预测效果最佳,AUC为0.853(95%CI:0.793~0.837),准确率为0.771,F1得分为0.764,灵敏度为0.743,特异度为0.799。在决策曲线分析中,Light GBM模型显示出良好的稳定性。基于SHAP方法可视化Light GBM模型,结果显示,肿瘤最大径、甲状腺球蛋白、癌胚抗原和年龄是影响PTC患者颈部淋巴结转移风险预测的最显著因素。[结论]基于SHAP值可解释Light GBM模型对PTC患者NLNM具有最佳的预测价值。