关键词:
抗主瓣干扰
抗干扰策略学习
深度强化学习
博弈论
主动对抗
动态对抗
摘要:
作为战场上的“千里眼,顺风耳”,雷达在现代战争中扮演着决定战争成败的重要角色。为了对抗雷达,电子对抗(Electronic Countermeasures,ECM)技术应运而生,给雷达有效探测带来了很大的挑战。根据信号的到达方向,可将干扰分为主瓣干扰和副瓣干扰。相较于副瓣干扰,主瓣干扰在接收处理中会获得与目标回波相同的天线增益,难以在空域进行有效抑制。同时,随着认知电子战技术的发展,干扰的智能化水平不断提高,未来的电子战装备将具备学习、适应环境的能力,给雷达抗干扰技术研究提出了更高的要求。为应对主瓣干扰以及智能化干扰带来的挑战,本文从主动和动态对抗的角度出发,研究了基于深度强化学习(Deep Reinforcement Learning,DRL)和博弈论的雷达智能抗干扰策略学习方法。本文的主要工作总结如下:1.针对频率捷变雷达和主瓣压制干扰对抗的问题,提出一种基于DRL的抗主瓣干扰策略学习方法。在电磁博弈过程中,干扰通常采用某种策略并基于截获的雷达信息针对性地采取行动。由于干扰策略的复杂性,基于特定数学模型求解抗干扰策略较为困难。为此,本文将雷达干扰对抗过程建模为马尔可夫决策过程(Markov Decision Process,MDP),并针对性地设计了 MDP中的状态、回报、行动。本文提出基于DRL算法近端策略优化(Proximal Policy Optimization,PPO)求解上述MDP问题。仿真表明,该方法可针对不同干扰策略,通过雷达与干扰交互,自主学习有效的抗干扰策略。此外,针对干扰可能采取多种不同干扰策略的问题,本文在上述方法的基础上提出了一种基于策略蒸馏的统一抗干扰策略学习方法。该方法利用策略蒸馏技术将多种抗干扰策略迁移到一个深度网络中,使得雷达可以同时对抗多种不同的干扰策略。2.针对电磁博弈过程中雷达和干扰感知对手时存在不确定性的问题,提出一种基于模仿学习和 WR2L(Wasserstein Robust Reinforcement Learning,WR2L)的鲁棒抗主瓣干扰策略学习方法。在雷达和干扰交互过程中,雷达需要感知电磁频谱并推断干扰行动,同样,干扰也需要截获雷达信息并测量雷达参数,而这一过程往往存在一定不确定性。如果在训练过程中不考虑不确定性,直接将得到的抗干扰策略应用到电磁博弈中,会导致抗干扰策略的训练环境和测试环境失配,从而引起抗干扰策略性能的下降。本文首先在给定干扰策略的条件下基于模仿学习将该策略转换为由深度网络参数表示的数学形式,并将其作为参考环境动态参数;然后通过摄动参考环境动态参数得到环境动态参数;最后基于WR2L求解以雷达策略参数和环境动态参数为优化变量的maxmin问题,得到针对该干扰策略的鲁棒抗干扰策略。该方法可以提高雷达抗干扰策略的鲁棒性,降低电磁博弈过程中因不理想观测和截获而带来的影响。3.针对雷达和智能化干扰的对抗问题,提出一种基于博弈论的雷达抗干扰策略设计方法。认知电子战的发展使得干扰的智能化水平不断提高。针对这一问题,本文基于博弈论对二者进行建模。具体而言,雷达和干扰为博弈中的玩家,雷达的频域波形和干扰的功率谱密度分别为它们的行动,雷达接收信号和目标随机脉冲响应之间的互信息为效用函数。斯塔柯尔伯格博弈是一种特殊的完美信息扩展形式博弈,在该博弈中,雷达和干扰均可以完美获取关于对手的行动信息,而且行动顺序存在先后关系。针对该博弈,本文分别推导了雷达为leader和干扰为leader时的斯塔柯尔伯格均衡(Stackelberg Equilibrium,SE)策略。在雷达干扰斯塔柯尔伯格博弈基础上,本文分析了对等博弈中纳什均衡存在的条件并指出了此时SE策略的物理意义。4.针对频率捷变雷达和干扰在对抗时存在多轮交互以及不完美信息的问题,提出一种基于神经虚拟自我对局(Neural Fictitious Self-Play,NFSP)的抗干扰策略学习方法。在电磁博弈过程中,雷达和干扰往往存在多轮交互。此外,由于载机平台空间有限,干扰机工作在收发分时模式以实现良好的收发隔离。因此,干扰机不能完全截获雷达信息,雷达和干扰之间的博弈存在不完美信息的问题。为了解决上述问题,本文提出以不完美信息扩展形式博弈为框架对雷达和干扰建模,并以博弈树的形式对雷达和干扰的博弈过程进行描述。在该框架下,本文提出基于NFSP求解雷达和干扰的策略。仿真实验以利用度为评估标准,其结果显示随着训练的进行,雷达和干扰的策略逐渐收敛并达到近似纳什均衡。