基于深度强化学习的海战场目标搜寻路径规划

基于深度强化学习的海战场目标搜寻路径规划

杨清清, 高盈盈, 郭玙, 夏博远, 杨克巍

Target search path planning for naval battle field based on deep reinforcement learning

Qingqing YANG, Yingying GAO, Yu GUO, Boyuan XIA, Kewei YANG

表2 各项实验参数设置

Table 2 Experimental parameters setting

参数名称	参数大小		参数名称	参数大小
隐含层个数	1		累计回报折扣因子	0.5
隐含层神经元个数	1 500		ε-greedy探索率	0.9
输出层神经元个数	8		目标网络更新间隔步数	300
神经元激活函数	ReLU		经验池容量	10⁴
神经网络学习率	0.001		经验块最小容量	200
动作划分个数	8		模型训练次数	10⁵