基于深度强化学习的海战场目标搜寻路径规划
杨清清, 高盈盈, 郭玙, 夏博远, 杨克巍

Target search path planning for naval battle field based on deep reinforcement learning
Qingqing YANG, Yingying GAO, Yu GUO, Boyuan XIA, Kewei YANG
表1 状态向量规范化描述
Table 1 State vector normalized description
要素 数据类似 转化方法 转化后长度
区域大小 数值 独热编码 2
区域当前POC矩阵 数值 独热编码 Lx×Ly
区域各栅格是否被搜索过 布尔型 独热编码 Lx×Ly
当前动作 枚举 定量化映射 1
初始位置 数值 独热编码 2