关键词:
大语言模型
无标签数据
有噪声标签学习
表格学习
摘要:
在现代医疗领域,数据对于诊断、疗效评估和医学研究至关重要。虽然医疗表格数据的收集过程复杂且敏感,但更加突出的挑战在于这些数据的标注和整合。医疗表格数据,包括病历信息和检测结果等,分散于不同的机构和系统中。而整合这些数据,尤其是在跨机构合作的情况下,尤为困难。更重要的是,这些医疗表格数据的标注过程既耗时又成本高昂,因为它需要依赖于专业的医学知识。特别是在罕见病的数据标注方面,难度更大,因为相关的专家稀缺,专业知识和经验不足。因此,如何利用无标签的医疗表格数据有效地训练表格学习模型,成为了计算机辅助医疗的一个主要研究方向。
为了解决无法在无标签的医疗表格数据上训练模型的难题,本文提出了一种基于大语言模型监督的无标签医疗表格数据学习方法。该方法能够有效的利用无标签的医疗表格数据来训练表格学习模型,且所得模型的性能可与使用真实标记的医疗表格数据训练得到的模型媲美。鉴于大语言模型无法直接对医疗表格数据进行标注,本文提出了一种将医疗表格数据转化为提示词数据集的方法,这一方法严格遵守提示词编写规范,最大限度地发挥了大语言模型的潜能。然而,大语言模型标注的医疗表格数据集中的样本标签存在噪声,直接使用这些带噪声的数据训练表格学习模型会导致效果不佳。为此,本文提出了一种面向有噪声标签的医疗表格数据的监督学习方法GPTMix,其创新之处主要体现在以下四个方面:a.基于LLM的标签平滑策略,通过使用LLM生成的软标签,实现了标签平滑。这不仅缓解了标签噪声的影响,还提高了模型在各种挑战性环境中的鲁棒性和泛化能力。b.基于LLM的高质量验证集的早停策略,为了避免模型过拟合,引入了基于LLM筛选出的高质量验证集的早停策略。这一策略特别适用于样本量较少的医疗数据集,帮助模型在正确的时间点停止训练,防止过度拟合。c.分布对齐策略,这有助于确保模型在训练过程中关注到所有类别,有效利用有限的标签数据,从而增强模型在不同类别数据上的泛化能力。d.锚定数据增强策略,有助于模型学习到更具鲁棒性的表征,提高在不同数据分布下的泛化能力。
本文实验结果显示,基于大语言模型监督的无标签医疗表格数据学习方法,在7个医疗数据集上训练的模型显著超越了使用大语言模型生成的标签计算方法,ACC提升9.4%至21.9%,AUC提升10.8%至21.1%。与使用真实标签训练的模型相比,ACC达到其90.6%至103.1%,AUC达到其95.0%至115.1%,表明该方法的有效性。此外,本文提出的针对有噪声标签数据的医疗表格数据学习方法GPTMix,与基线方法对比表现最佳。与现有最好的方法对比,在7个数据集上ACC提升0.6%至2.4%,AUC提升0.7%至2.2%,证明了该方法的优越性。