基于深度强化学习的海战场目标搜寻路径规划
杨清清, 高盈盈, 郭玙, 夏博远, 杨克巍

Target search path planning for naval battle field based on deep reinforcement learning
Qingqing YANG, Yingying GAO, Yu GUO, Boyuan XIA, Kewei YANG
表2 各项实验参数设置
Table 2 Experimental parameters setting
参数名称 参数大小 参数名称 参数大小
隐含层个数 1 累计回报折扣因子 0.5
隐含层神经元个数 1 500 ε-greedy探索率 0.9
输出层神经元个数 8 目标网络更新间隔步数 300
神经元激活函数 ReLU 经验池容量 104
神经网络学习率 0.001 经验块最小容量 200
动作划分个数 8 模型训练次数 105