论文部分内容阅读
随着电磁环境的日益恶劣和干扰的智能化,传统的跳频通信抗干扰技术已难以满足军事通信需求,迫切需要具有环境感知和学习的智能抗干扰技术。强化学习和深度强化学习算法通过具有学习能力的智能体(Agent)与环境交互并学习,可以适应高动态的复杂环境并根据自身状态得到最优决策,已经被广泛应用在无线通信领域。因此,本文主要研究应用强化学习和深度强化学习的跳频通信系统智能抗干扰决策技术。首先,研究了复杂电磁环境下跳频通信系统智能抗干扰决策问题,将跳频用户视为Agent,以Q学习为基础进行决策问题建模,并提出基于最优解引导机制的启发式Q学习(Heuristically Accelerated Q-Learning with Optimal Solution Guidance Mechanism,HAQL-OSGM)算法。针对强化学习收敛速度慢和探索与利用平衡困难的问题,根据最优解引导机制设计了相应的启发式函数,并与Sigmoid函数一起应用于Q-Learning算法的动作选择策略中,更好地平衡了探索与利用,提高了算法的收敛速度。仿真结果表明,较传统方法,基于HAQL-OSGM的跳频通信系统智能抗干扰决策算法的收敛速度、收敛性能和跳出局部最优解能力等方面都具有明显优势,且对多变的干扰环境具有适应性。其次,研究了变跳速变间隔跳频图案的智能决策。针对传统跳频图案设计方法前置条件多、参数灵活度低、抗复杂干扰能力不强的问题,提出了基于Pareto样本和优先经验回放的深度Q网络(Deep Q-Network with Priority Experience Replay Based on Pareto Samples,PPERDQN)的双变跳频图案智能决策算法。使用深度强化学习提高跳频图案参数决策的灵活性,采用优先经验回放技术和Pareto最优解理论进行改进提高算法的学习效率。仿真结果表明,在双变跳频图案的智能决策中PPER-DQN算法能更高效地筛选样本,有效提高了算法收敛速度,产生的双变跳频图案较常规跳频图案性具有更强、更鲁棒的抗干扰性能。最后,研究了跳频异步组网通信中的智能抗干扰决策问题。针对传统跳频组网通信中频谱资源分配效率低、抗复杂干扰能力差的问题,将各子网分别视为Agent,提出了基于集中式训练和分散式执行框架的多智能体模糊深度强化学习(Multi-agent Fuzzy Deep Reinforcement Learning based on Centralized Training and Decentralized Execution,MFDRL-CTDE)算法。为了适应非稳定的环境和提高Agent相互学习的效率,引入集中式训练和分散式执行框架;提出了基于模糊推理系统的融合权重分配机制以解决Agent之间的差异性和协作问题;引入优先经验回放技术和竞争性网络结构,以提高算法学习效率。仿真结果表明,MFDRL-CTDE算法具有更快的收敛速度和更高、更稳定的收敛性能且对多变的复杂电磁环境有更好的通用性。