关键词:
连续学习
灾难性遗忘
类增量学习
经验回放
内存更新
摘要:
人工神经网络因其强大的函数逼近能力、表征学习能力和预测推断能力,在计算机视觉等领域取得了突破性进展。以其为代表的人工智能技术迅速走进并深深改变了人类的日常生活,技术的进步依赖于硬件的发展、大规模标注的数据以及耗时的模型训练。过去大多数研究通常聚焦于封闭、静态的独立同分布数据集,并在完成模型的离线训练后执行单一任务。然而,当数据分布随环境不断变化时,人工神经网络会忘记在先前任务中学到的知识,即发生“灾难性遗忘”。人类对外界环境的变化有极强的适应和学习能力,如何让人工神经网络具备同样的能力成为当前研究的关键。连续学习作为一个新的学习范式,旨在赋予模型从数据分布不断变化的数据流中持续学习、累计和巩固知识的能力,使得神经网络达到“稳定性-可塑性”的平衡,进而克服灾难性遗忘。当前的连续学习研究往往放宽了约束优化的限制,比如在训练和测试时提供任务边界和任务身份等先验知识,允许在当前任务上离线训练等,这些宽松的设定不满足连续学习的真实期望,限制了算法在实际场景的应用。因此,针对人工神经网络容易遭受灾难性遗忘的问题,以及当前连续学习方法存在的不足,本文在基于回放机制方法的基础上开展在线连续学习研究,重点在回放过程中的样本利用效率、知识迁移类型和内存更新策略三个方面展开合理有效的深入探究。
针对当前连续学习设定通常放宽学习期望的问题,本文引入更具挑战的在线类增量连续学习设定,即模型以在线方式从数据流中学习新的类别和任务,任务身份和任务边界等先验知识不再被提供来辅助推断,该设定更加符合真实应用场景。在线设定约束下,可用于回放的次数是有限的,因此如何从更多维度挖掘内存样本潜力至关重要。针对回放方法内存样本利用率低的问题,本文提出了在线类增量设定下的多级回放算法,首先利用原始样本构建通用经验回放损失,其次利用样本训练过程中产生的logits信息和最终池化层特征,分别构建响应约束和特性约束。多级回放可以压榨出更多过去的知识来强化监督,克服模型遗忘。
针对当前回放方法通常从实例层面考虑知识迁移,忽略了样本间相互关系的问题,受语言结构主义启发,本文提出了一个新的在线连续学习框架,即对比相关性保留回放。利用存储在内存中的原始样本及其对应的特征表征,分别构建过去相关性和当前相关性。为了更好的捕获相关性和高阶依赖,基于贝叶斯规则建立互信息和知识迁移的的联系,通过最大化过去相关性和当前相关性之间的互信息,以迁移更多结构化的知识到当前模型。针对互信息难以精确计算的问题,利用对比学习目标最大化互信息的下界。针对对比学习过程负样本需求较大的问题,为了避免在每次回放过程中内存检索批次过大,通过直接使用内存中的过去特征来构建负相关性。
内存更新作为回放过程的重要一环,决定了哪些样本可以被存储在内存以供后续回放,因此将直接影响连续学习算法的表现。本文对内存更新过程进行深入研究,针对当前内存更新策略忽略样本间差异和内存均衡性的问题,提出了一种可以提高内存样本均衡性和多样性的在线内存更新策略,从类间和类内两个层面考虑内存样本选择,最大程度地同时保证内存样本的均衡多样性。在类间层面,在内存更新时选择替换内存中样本数量最多的类,以保证不同类别间的均衡性。在类内层面,通过样本相似性和样本多样性的计算,选择替换数量最多类中样本多样性值最低的样本,以保证每个类中的样本尽可能多样。
基于所研究的多级回放算法、对比相关性保留算法和均衡多样的内存更新策略,本文分别在足式机器人场景地面图像数据集、服务机器人场景家用物品数据集和真实机器人目标识别抓取平台上进一步开展实验验证。首先,针对足式机器人需要对地面物理特性进行预估的问题,构建真实的地面图像数据集,并在该数据集上进行连续识别验证。其次,针对服务机器人对家用物品识别的需求,选择可用于机器人视觉的连续家用目标识别数据集,用该数据集对算法进行详尽评估。最后,搭建机械臂实验平台,让机械臂依次学习不同的目标识别抓取任务,验证算法在真实机器人平台上的有效性。实验结果证明,提出的算法获得了更优的表现,为机器人在实际场景的应用奠定了基础。