摘要:
基于马尔科夫决策过程框架研究了三维空间内隐蔽接敌策略的强化学习方法,定义了环境模型中的优势区域和暴露区域。针对高维状态空间策略学习所面临的维数灾问题,给出基于径向基神经网络(radial basis function neural network, RBFNN)的Q学习算法,说明了训练样本的分级采样方法,并针对不同情况下的接敌机动策略学习进行了仿真分析。仿真结果表明,借助于合理的分级采样方法,基于RBFNN的Q学习算法能有效生成隐蔽接敌策略。
徐安, 寇英信, 于雷, 李战武. 基于RBF神经网络的Q学习飞行器[J]. Journal of Systems Engineering and Electronics, 2012, 34(1): 97-101.
XU An, KOU Yingxin, YU Lei, LI Zhanwu. Stealthy engagement maneuvering strategy with Q-learning based on RBFNN for air vehicles[J]. Journal of Systems Engineering and Electronics, 2012, 34(1): 97-101.