关键词:
最简充分表示
信息瓶颈
变分推断
信息论
自监督
摘要:
深度学习的发展离不开数据的支持,然而数据中无法避免的噪声和冗余信息导致模型在泛化能力和鲁棒性上的挑战日益突出。在这一背景下,“最简充分”理念提出在保留任务目标信息的同时,需要最小化数据中的噪声和冗余信息,从而提升模型在多种应用场景中的性能。作为实现“最简充分”理念的重要手段之一,信息瓶颈(Information Bottleneck,IB)方法应运而生。该方法通过压缩不相关特征,聚焦于任务相关特征,已被广泛应用于图像分类、自然语言处理和神经网络解释性等领域。
虽然信息瓶颈方法在理论上展现了其价值,但在实际应用中仍面临诸多挑战。首先,脱离简化数据集和简化模型时,信息瓶颈的核心目标难以被有效计算。同时,信息瓶颈及其变体在优化过程中需要在“最简”和“充分性”之间进行权衡,造成目标信息与噪声“一荣俱荣,一损俱损”的局面。这将导致信息瓶颈这一理想化模型难以突破理论范畴,无法部署在实际应用中。其次,信息瓶颈对于目标信息的提纯依赖于输入的标签,这意味着它在无监督环境下无法定义和量化“任务相关信息”与“冗余信息”,因此无法适用于无监督领域及当前主流的自监督预训练模式。最后,由于其所依赖的互信息目标无法有效捕捉几何或拓扑结构,信息瓶颈无法表示和建模非欧几里得空间的数据(如社交网络、基因组数据和交通网络等),这使得“最简充分”理念在数据类型和结构日益多样化的背景下愈发难以实现。
在此背景下,本文基于信息瓶颈理论进行深入探索,围绕真实场景下的分类和分割两大典型任务展开研究,旨在构建高效、通用的“最简充分”视觉模型与其理论基础。为此,我们引入变分推断、知识蒸馏和随机游走等技术,优化信息瓶颈的目标函数,在解耦“最简”与“充分性”之间权衡问题的同时,突破了信息瓶颈在无监督学习和复杂数据环境中的应用限制。此外,本文结合信息论中的编码原理,对图型数据的拓扑结构进行层次化编码,并通过最小熵原则对编码长度进行约束,实现了对非欧几里得空间数据的“最简充分”建模,克服了信息瓶颈在非欧空间建模中的局限性。取得的成果主要包括以下几个方面:
(1)首先,本文首先利用变分推断将信息瓶颈目标函数转化为变分形式,并通过理论分析证明该目标等价于输入与输出的条件熵之差,一定程度上解决了信息瓶颈优化难题对实际应用的限制。并且,基于这一发现,本文将信息瓶颈的优化目标等效简化为相对熵,使得模型能够在不直接计算互信息的情况下进行优化,从而规避了高维数据中互信息估计的难题。在保证同构输入“最简充分性”的基础上,本研究进一步用信息熵定义了异构输入间的一致性,将信息瓶颈方法扩展至广义的多视图和多模态学习场景,充分释放了其在有监督模式下的潜力。
(2)其次,本文在前一项成果的理论指导下,提出了一种改进的自监督学习策略,解决了信息瓶颈在无监督场景下无法定义和量化“目标信息”与“冗余信息”的问题。这种将自监督学习目标重构为“最大化样本信息”和“消除扭曲转换带来的干扰”的策略,实现了无监督条件下对“最简充分”概念的重新诠释。同时,这一方法解除了“最简性”和“充分性”之间的耦合性,使模型能够自动提取和区分任务相关信息与冗余信息,有效扩展了信息瓶颈方法在无监督学习和复杂数据环境中的适用性。
(3)在解决欧氏空间中各场景下“最简充分”理论和实践难题后,本文从信息论的角度将这一理念推广至非欧空间数据,特别是针对复杂数据结构和大规模模型,解决了冗余邻接关系造成的低效、敏感等问题。具体来说,本文提出了一种针对图形数据的分层结构随机游走算法,通过压缩平均游走路径的长度来修剪冗余结构,在保留关键拓扑结构的同时实现其最简化。这不仅显著降低了计算复杂度,还增强了模型的泛化能力与可解释性,为构建非欧空间的最简充分视觉模型提供了新的思路。
(4)最后,基于上述研究对非欧空间数据实践的探索,本文结合信息论中的编码原理,提出了一种面向图数据的“最简充分”学习模式,显著提升了模型在面对多源异构,甚至不完整数据时鲁棒性。具体来说,本文首先对每个数据单元按对象和属性类别进行层次化编码,将节点间信息传递过程表示为编码序列。然后,根据信息论中的编码定理,通过熵量化所得编码序列的信息量,进而将离散的拓扑结构转化为连续的表示。最后,通过逼近无损压缩的最小熵获得对该拓扑结构的“最简充分”描述及各数据单元的最优压缩表示。由于该编码具有较强的适应性,此研究不仅为处理复杂和高维数据提供了理论支持,也为构建更为高效的“最简充分”模型奠定了坚实基础。