关键词:
紧致表示学习
哈希学习
离散优化
语义挖掘
大规模媒体检索
摘要:
随着互联网的迅速发展和智能设备的普及,媒体数据呈现爆炸式增长的趋势。这主要归因于人们日常生活中对图像、视频、音频等媒体内容的产生、分享和存储,以及社交媒体、在线视频平台等各类媒体服务的快速发展。在这种背景下,面向检索的紧致表示学习因其具有低存储和快速检索的优势,所以作为一种高效的表示、存储和检索方法备受关注。然而,尽管该类方法在处理大规模数据时表现出色,但在探索语义信息方面仍然存在不足。由于数据的语义结构复杂,可能受到噪声的影响,在线数据流语义无法保持一致或者语义增加,这进一步加剧了语义信息的探索难度。为了应对这些问题,本文着重围绕探索语义信息展开研究,旨在提出解决方案以改善面向检索任务的紧致表示学习方法的性能和适用性。
1)提出了一种深度跨模态紧致表示学习方法,旨在探索层次标签语义信息。在实际应用中,许多样本的标签呈现出分层结构,其中包含丰富的学习信息。然而,当前大多数方法的设计初衷并非是处理分层标签数据,从而导致无法充分挖掘标签层次结构的信息。为此,引入了一种名为监督分层深度跨模态哈希(Supervised Hierarchical Deep Cross-modal Hashing,SHDCH)的新方法,明确学习哈希码的分层标签结构。SHDCH通过深入分析标签层次结构,将每一层的相似性和不同层之间的相关性融入哈希码学习过程中。为了直接学习离散的哈希码而不是放宽二进制约束,提出了一种迭代优化算法。
2)提出了一种基于语义的在线噪音抑制紧致表示学习方法。随着社交媒体的迅速发展,社交图像(亦称为弱监督图像)以流式方式生成并在网络中传播,成为一种自然生成的数据形式。因此,设计适用于在线社交图像检索需求的方法变得至关重要。在此背景下,我们提出了一种名为弱监督在线哈希(Weakly-supervised Online Hashing,WOH)的新方法。WOH 将哈希码学习、在线学习和弱监督信息挖掘融合到一个统一的框架中,充分利用弱监督(即免费标签)来学习高质量的哈希码。此外,我们还通过引入l2,1-范数来抵消不完善标签的不利影响。这一方法开创了在线社交图像检索领域,为未来的研究者提供了新的研究思路和方法。
3)提出了一种基于高级代码和细粒度权重的在线多模态哈希方法(High-level Codes,Fine-grained Weights Method,HCFW)。该方法依旧面向流式数据,重点针对类别增量场景下,现有的在线多模态哈希方法在长期学习中面临着哈希码语义不一致问题。HCFW学习基于类别级别语义的高级代码,以确保哈希码的长期一致性。这些高级代码在处理类别增量挑战方面表现出色。在多模态哈希方面,HCFW引入了细粒度权重的概念,旨在促进多模态数据的互补融合,从而增强整体哈希性能。
4)提出了一种融入全局语义信息的自适应在线跨模态紧致表示学习算法从生成语义表示、保持哈希码特性等角度对HCFW的学习范式进行了优化,称为Adaptive Online Class-Incremental Hashing(POLISH)。该算法通过多个角度生成新类标签的表示,并将其视为有价值的全局语义信息。并根据实际场景中的要求,假设标签空间逐渐增加,提出了全局语义信息嵌入的方法,以生成高质量的哈希码。通过在两个实际基准数据集上进行广泛实验验证,POLISH在处理类别递增数据的跨模态哈希领域展现出卓越的有效性。
5)进一步深化了对哈希码优化的研究,为了规避较大的量化误差,提出了一种基于离散潜在因子模型的新型跨模态在线哈希方法,即离散在线跨模态哈希(Discrete Online Cross-modal Hashing,DOCH)。为了生成不同模态的统一高质量哈希码,DOCH不仅直接利用新数据和旧数据在汉明空间中的相似性,还通过标签嵌入充分利用了细粒度的语义信息。此外,DOCH通过高效的优化算法能够离散地学习哈希码,对大规模媒体数据集是非常高效和可扩展的。
这五个工作从语义挖掘的角度逐步深化了对面向检索的紧致表示学习技术的解决方案。从简单地利用标签的层次特性开始,逐步加深对语义信息的挖掘,探索如何抑制免费语义的噪声,如何确保语义的长期一致性以及如何应对在线数据流语义增加等问题,为面向检索的紧致表示学习技术的解决提供了更为全面和深入的视角。此外,本文在多个标准数据集上对上述方法进行了广泛的验证和分析,结果表明这些方法在提高面向检索的紧致表示学习的性能和适用性方面具有显著优势,特别是在语义信息的探索方面。