基于深度强化学习的海战场目标搜寻路径规划

图1 搜寻地图形式化描述示意图

Fig.1 Search map formal description schematic

本文假定待搜寻区域100%包含失事目标, 因此整个待搜寻区域的POC为1。假设初始先验信息已知, 且已进行归一化处理, 即满足:

(1) $\sum\limits_{m = 1, n = 1}^{{L_x} \cdot {L_y}} {{p_{mn}}} = 1$

1.2 搜寻概率地图更新机制

待搜寻目标的漂流轨迹预测是海上搜救的一个重要研究方向, 在实际搜寻过程中, 每个栅格的目标存在概率会随着海流、海浪、潮汐等影响因素的改变而变化, 实时获取POC矩阵需要结合海上部署传感器、气象卫星等多源信息的处理, 计算复杂度较高^[21]。本文重点验证算法的适用性和有效性, 简化了实时变化因素。为了降低计算复杂性, 仅考虑搜寻行动对目标存在概率值所产生的后验影响, 忽略海洋环境因素的影响。

若无人机在一定时间内完成了对待搜寻区域的搜寻任务后没有发现遇险目标, 则需要更新待搜寻区域的POC矩阵, 并建立下一时刻的目标存在概率模型。目标存在于子区域(m, n)内的先验概率为p_mn, 则在(m, n)中搜寻到目标的概率P(S_mn)表示为

(2) $P\left(S_{m n}\right)=p_{m n} \cdot \operatorname{POD}\left(S \mid p_{m n}^{\mathrm{T}}\right)$

其中, POD(S|p_mn^T)为目标真实存在于子区域(m, n), 且被无人机发现的概率。

当目标类型和无人机搜寻方式固定时, 搜寻目标发现概率(probability of detection, POD)函数相对固定。假设无人机在栅格内执行搜寻任务, 满足Koopman的3个随机搜寻条件, 则可得无人机的目标探测概率函数为

(3) $\operatorname{POD}(j, z)=1-\mathrm{e}^{-z_i w_i v_i / A}=1-\mathrm{e}^{-w_i l_i / A}$

式中: v为无人机i的飞行速度; z为无人机i的飞行时间; l为无人机i在时间内搜寻航行的总路程; w为无人机i的探测宽度即扫海宽度; A为搜寻栅格单元的面积; j为搜寻单元数(j=1, 2, …, xy)。式(3)中，扫海宽度是经过大量的搜救实验以及通过对历史搜救案例的总结得出的, 一般情况下, 可以通过查表得出^[22]。

当无人机完成对(m, n)区域的搜寻后但未搜寻到目标时, 可基于贝叶斯原理更新目标存在于各个子区域的后验概率p′_mn。若子区域已经被无人机搜寻, 则p′_mn表示无人机完成对子区域(m, n)的搜寻且未搜寻到目标的条件下, 目标仍存在于(m, n)区域内的概率; 若(m, n)未被无人机搜寻, 此时p′_mn表示POC矩阵更新后目标存在于子区域(m, n)的概率。p′_mn计算过程如下所示:

(1) 当(m, n)被搜索过, 但没有发现目标, 则目标仍旧存在于(m, n)的概率为

(4) $p_{m n}^{\prime}=p_{m n} \cdot \operatorname{POD}\left(\bar{S} \mid p_{m n}^{\mathrm{T}}\right)$

(2) 当(m, n)未被搜索过, 则目标存在于(m, n)的新概率p′_mn则为POC矩阵归一化后(m, n)位置处的概率。

1.3 目标搜寻规划模型

常规的海战场目标搜寻方式仅确定待搜寻区域, 再利用平行线等固定搜寻模式来规划搜寻路径, 导致搜寻成功率(probability of success, POS)较低^[23]。为此, 有必要以目标存在概率模型为基础, 在待搜寻区域E内规划搜寻路径。

因此, 海战场目标搜寻的规划模型即为: 在无人机有限的航程内, 对无人机的搜寻路径方案x进行规划, 以最大化目标发现的POS, 如下所示:

(5) $\begin{gathered}\max \operatorname{POS}(x)=\sum\limits_{m=1, n=1}^{L_x \cdot L_y} x(m, n) \cdot p_{m n}^{\prime} \\\text { s. t. } \operatorname{length}(x) < L\end{gathered}$

式中: x(m, n)为无人机是否搜寻子区域(m, n), 若是则为1, 否则为0;length(x) < L表示无人机搜寻路径长度小于其航程L。

2 海战场无人机搜寻目标的强化学习模型

2.1 环境空间

海洋监测中心通常基于蒙特卡罗随机粒子法进行漂流模拟得到海上遇险目标的POC矩阵, 并利用栅格法将待搜寻海域划分为若干子海域, 构建二维海洋环境栅格地图^[23]。将目标海域E划分成L_x×L_y个栅格, 将每个网格的中心点坐标作为该网格的位置坐标。假设初始先验信息已知, 赋予每个子区域(m, n)一定的初始POC值p_mn。每一个单元(m, n)都有一个属性值r, 表示子区域(m, n)的状态值, r_mn(t)=－1表示t时刻以前子区域(m, n)已被无人机搜寻过, r_mn(t)=1表示t时刻下无人机正处于子区域(m, n), r_mn(t)=0表示t时刻及以前子区域(m, n)均未被搜寻过。

2.2 动作空间

动作空间的定义会影响到无人机路径规划的效果。如图 2所示, 将360°划分n等份, 角度间隔α=360°/n。假设n=8, 则α=45°。在每个决策时间点, 无人机可以采取以下行动, 比如: 左偏α_i^k、直行或右偏α_i^k。为方便建模, 无人机i的动作空间可表示为a_i^k=[u_i^k], 动作决策变量a_i^k={1, 2, …, 8}, 分别表示: 上、右上、右、右下、下、左下、左和左上^[24]。

图2

图2 动作空间

Fig.2 Action space

2.3 奖惩函数设计

在强化学习过程中, 无人机搜寻获取奖励值的大小不仅取决于学习算法的优劣, 也与奖励函数的定义密切相关^[25]。强化学习算法通过设置奖励函数对无人机所做动作进行定量化评价, 引导整个无人机的搜寻路径学习过程。强化学习算法的总体目标是引导无人机获取最大的累计奖励值, 也就是找到一条由起始点至目标点的最优^[26]。因此, 设计合适的奖励函数对于无人机在不同环境状态下的学习效果好坏具有重要意义^[27]。

本文针对海上目标搜寻的实际情况, 基于最优搜寻理论中POC和POS等重要参数概念设立奖励机制, 并与稀疏奖赏函数相结合设计碰撞惩罚机制^[28]。且在模型训练过程中奖励分为两个部分, 一个是针对每个行动的即时奖励, 另一个是针对整个行动回合表现的回合奖励。

2.3.1 即时奖励

{R¹, R², …，R^L}表示无人机在一个回合(L步)中每一步的即时奖励集合。为尽量避免无人机重复往返同一子海域, 设置已搜寻过的海域搜寻效益奖励为r_punish。同时, 为避免无人机绕出目标海域或者进入危险区和障碍区, 同样设置越界惩罚为r_punish。随着搜寻时间的增加, 子区域(m, n)的p_mn将以一定比例g(0 < g < 1)逐渐衰减, g值在搜寻开始前根据搜救情况具体设定, 设计第L步的即时奖励函数^[23]如下:

(6) $R_{m n}(L)=\left\{\begin{array}{l}\operatorname{POS}_{m n} \cdot g^L, \text { 未搜寻区域 } \\r_{\text {punish }}, \text { 其他区域 }\end{array}\right.$

2.3.2 奖励再分配

每个动作的最终奖励是对应即时奖励和回合奖励的加成。由于回合奖励是整个回合中所有动作的结果, 因此利用折扣因子对回合奖励进行重新分配: r^t+γ^T－t·R, 其中γ为折扣因子。这种折扣计算方式假设越早阶段的动作对回合奖励的贡献越小, 折扣越大, 而越靠近回合结束时的阶段动作对回合奖励的贡献越大, 折扣越小。每个动作的最终奖励是相应即时奖励和折扣回合奖励的总和。

3 基于Rainbow的海战场目标搜寻规划深度强化学习算法

2018年, DeepMind在DQN的基础上提出了一种融合6个改进机制的基于价值的深度强化学习方法: Rainbow。其中融合的改进机制分别为: 双Q网络、优先经验回放、对决网络、多步学习、分布式学习、噪声网络。Rainbow被证明在多个基准测试中优于其他基于价值的深度强化学习算法^[16]。因此, 本节采用Rainbow的思想设计海战场目标搜寻规划的深度强化学习算法。

3.1 状态向量设计

根据海战场目标搜寻规划问题的参数信息, 设置环境的当前状态包含区域大小、区域当前POC矩阵、区域各栅格是否被搜索过、当前动作、初始位置等信息。为了方便神经网络输入, 将状态信息转化成张量形式, 如表 1所示。

表1 状态向量规范化描述

Table 1 State vector normalized description

要素	数据类似	转化方法	转化后长度
区域大小	数值	独热编码	2
区域当前POC矩阵	数值	独热编码	L_x×L_y
区域各栅格是否被搜索过	布尔型	独热编码	L_x×L_y
当前动作	枚举	定量化映射	1
初始位置	数值	独热编码	2

新窗口打开| 下载CSV

3.2 带Noise、Dueling和Distributional的神经网络结构设计

3.2.1 利用噪声改进原始DQN的神经网络参数

假设原网络的参数为θ, 针对输入向量x, 有:

(7) $\boldsymbol{y}=\sigma(\boldsymbol{\theta} \cdot \boldsymbol{x}+\boldsymbol{b})$

式中: σ是激活函数; y是输出向量。

为了增加神经网络的随机性, 鼓励智能体进行更广泛的探索, 一个有效方法是对θ增加随机噪声, 即θ=μ+σ°ξ, μ和σ分别是神经网络θ的均值和标准差, ξ是随机噪声, °表示点乘。增加噪声后的神经网络被称为噪声网络, 其对应的参数为θ^N=(θ, ξ), 参数数量比原始DQN多一倍。

3.2.2 利用对决对网络结构进行改进

对决网络对原始DQN的最外一层进行了扩展: 将原有神经网络的隐藏层连接到价值和优势两个独立部分, 然后, 将这两个部分结合起来后全连接到输出层, 如图 3所示。

图3

图3 对决网络结构示意图

Fig.3 Schematic diagram of dueling network structure

令对决神经网络的参数为θ^D, 其中价值网络为θ^V, 优势网络为θ^A, 则最优动作价值函数的对决神经网络预测定义为

(8) $\begin{gathered}Q_*\left(s_t, a_t ; \boldsymbol{\theta}^D\right) \triangleq \\V\left(s_t ; \boldsymbol{\theta}^V\right)+A\left(s_t, a_t ; \boldsymbol{\theta}^A\right)-\max A\left(s_t, a ; \boldsymbol{\theta}^A\right)\end{gathered}$

公式的最后一项是为了防止V和A的随意波动产生的不唯一性。在工程实现时, 右侧的$\mathop {\max }\limits_a A\left({{s_t}, a; {\mathit{\boldsymbol{\theta }}^A}} \right)$通常替换为$\mathop {{\mathop{\rm mean}\nolimits} }\limits_a A\left({{s_t}, a; {\mathit{\boldsymbol{\theta }}^A}} \right)$, 以取得更好的效果。

3.2.3 改原有DQN中神经网络的值输出为值分布输出

在值分布神经网络中, 输入依旧是一个状态s_t, 输出则变成一个矩阵, 矩阵的一行代表一个动作对应价值的概率分布, 如图 4所示。

图4

图4 值分布网络结构示意图

Fig.4 Distributional network structure diagram

假设动作空间有m个动作, 针对每个动作的价值有N种可能取值z=[z₁, z₂, …, z_N], 则针对每个动作a则有一个概率分布向量p=[p₁^a, p₂^a, …, p_N^a], 满足如下定义:

(9) ${Q_*}\left( {{s_t}, {a_t}} \right) = {\rm{E}}\left[ {Z\left( {{s_t}, {a_t}} \right)} \right] \approx \sum\limits_{i = 1}^N {{z_i}} p_i^{{a_t}}$

经过上述噪声、对决和值分布3种方法的加成, 原DQN的神经网络参数θ就变成θ^N2D, 后续将以θ^N2D作为神经网络的结构进行算法设计。

3.3 算法框架与流程

结合Rainbow算法和DQN基本思想, 设计海战场目标搜寻规划深度强化学习算法框架, 如图 5所示。

图5

图5 海战场目标搜寻规划深度强化学习算法框架

Fig.5 Deep reinforcement learning algorithm framework for target search planning in naval battle field

具体流程如下。

步骤1 构建两个相同结构的神经网络: 预测网络θ_P^N2D和目标网络θ_T^N2D, 并初始化参数。

步骤2 根据当前观测状态s_t, 利用预测网络θ_P^N2D预测无人机搜寻动作空间的值分布, 然后基于式(9)计算每个无人机搜寻动作的期望价值。

步骤3 根据ε-greedy策略, 从无人机搜寻动空间中选择一个动作a^t。

步骤4 产生新的状态s_t+1。

步骤5 若回合没有结束, 获取环境输出的临时奖励r_t, 若回合结束, 获取环境输出的临时奖励r_t和回合奖励R_t。

步骤6 更新当前状态为s_t+1, 并输入预测网络θ_P^N2D, 转到步骤2。

步骤7 当回合结束时, 重新计算该回合所有动作的奖励值:

(10) $r_t^{\prime}=r_t+\lambda^{(T-t)} R_t$

式中: r′_t是每个状态下采取动作的最终回报值; λ^(T－t)是奖励的折扣因子, 其作用是将回合奖励R_t更多地分配给后期的动作, 更少地分配给前期的动作。

步骤8 将[s_t、a_t、s_t+1、r_t]存储到记忆库中。

以上步骤是智能体与环境交互的过程, 每经过一定数量的交互, 智能体根据存储在记忆库中的轨迹数据, 对神经网络进行训练, 如下述步骤所示。

步骤9 利用优先经验回放策略从记忆库中采样数据。为记忆库中的每一条记忆赋予权重, 依据是导致预测值严重偏离目标值的那些情况应该是重点关注和训练的。因此, 首先计算预测网络的预测值和目标网络的目标值:

(11) $Q\left(s_i, a^i ; \boldsymbol{\theta}_P^{N 2 D}\right)=\left(\sum\limits_{j=1}^N z_j \cdot p_j\left(s_i, a^i ; \boldsymbol{\theta}_P^{N 2 D}\right)\right)$

(12) $Q\left(s_i, a^i ; \boldsymbol{\theta}_T^{{N} 2 D}\right)=r_i^{\prime}+\gamma \cdot \mathop {\max }\limits_a \left(\sum\limits_{j=1}^{{N}} z_j \cdot p_j\left(s_{i+1}, a ; \boldsymbol{\theta}_T^{{N} 2 D}\right)\right)$

据此, 计算预测值和目标值的偏离程度:

(13) $\delta_i=\left|Q\left(s_i, a^i ; \boldsymbol{\theta}_P^{{N} 2 D}\right)-Q\left(s_i, a^i ; \boldsymbol{\theta}_T^{{N} 2 D}\right)\right|$

然后, 计算每条记录被选中的概率, 与偏离程度的绝对值正相关, 满足:

(14) $\left\{\begin{array}{l}p_i \propto \delta_i+\varepsilon \\\sum p_i=1\end{array}\right.$

式中: ε为一个极小值, 避免概率为0。

然后, 按照概率从记忆库中抽样。

步骤10 将采样后的数据[s_i, aⁱ, s_i+1, r_i]分别输入到预测网络θ_P^N2D和目标网络θ_T^N2D, 预测网络的预测值分布输出为

(15) $\begin{gathered}Z\left(s_i, a^i ; \boldsymbol{\theta}_P^{{N} 2 D}\right)= \\{\left[p_1\left(Q\left(s_i, a^i\right)=z_1\right), p_2\left(Q\left(s_i, a^i\right)=z_2\right), \cdots, p_N\left(Q\left(s_i, a^i\right)=z_N\right)\right]}\end{gathered}$

再根据目标网络θ_T^N2D计算目标值分布:

(16) $\begin{aligned}&Z^{\mathrm{T}}\left(s_i, a^i ; \boldsymbol{\theta}_T^{{N} 2 D}\right)=r_i+\gamma Z\left(s_{i+1}, a^* ; \boldsymbol{\theta}_T^{{N} 2 D}\right)\\&a^*=\underset{a}{\operatorname{argmax}}\left(\sum\limits_{j=1}^N z_j \cdot p_j\left(s_{i+1}, a ; \boldsymbol{\theta}_T^{{N} 2 D}\right)\right)\end{aligned}$

由于Z^T(s_i, aⁱ; θ_T^N2D)的分布中的每一项都是p_j(Q(s_i, aⁱ)=r_i+γz_j), 因此需要与p_j(Q(s_i, aⁱ)=z_j)对齐, 经过对齐调整之后, Z^T(s_i, aⁱ; θ_T^N2D)变为Z_H^T(s_i, aⁱ; θ_T^N2D)。

步骤11 根据预测网络θ_P^N2D和目标网络θ_T^N2D的输出计算KL(Kullback-Leibler)散度。

(17) $\begin{gathered}\mathrm{KL}\left(Z\left(s_i, a^i ; \boldsymbol{\theta}_P^{{N} 2 D}\right) \| Z_H^{\mathrm{T}}\left(s_i, a^i ; \boldsymbol{\theta}_T^{{N} 2 D}\right)\right)= \\\sum\limits_{j=1}^N p_j\left(s_i, a^i ; \boldsymbol{\theta}_P^{{N} 2 D}\right) \cdot\left[\ln p_j\left(s_i, a_i ; \boldsymbol{\theta}_P^{{N} 2 D}\right)-\ln p_j^{\mathrm{H}}\left(s_i, a_i ; \boldsymbol{\theta}_T^{{N} 2 D}\right)\right]\end{gathered}$

步骤12 将KL散度作为损失函数, 对预测网络θ_P^N2D进行训练, 损失函数关于参数θ_P^N2D的梯度为

(18) $\nabla_{\boldsymbol{\theta}_P^{N 2 D}} L_{\boldsymbol{\theta}_P^{{N} 2 D}}=\nabla_{\boldsymbol{\theta}_P^{{N} 2 D}}\left[\operatorname{KL}\left(Z\left(s_i, a^i ; \boldsymbol{\theta}_P^{{N} 2 D}\right) \mid Z_H^{\mathrm{T}}\left(s_i, a^i ; \boldsymbol{\theta}_T^{{N} 2 D}\right)\right)\right]$

根据该梯度, 对θ_P^N2D的参数执行一步梯度下降:

(19) $\boldsymbol{\theta}=\boldsymbol{\theta}-\alpha \cdot \nabla_{\boldsymbol{\theta}_P^{{N} 2 D}} L_{\boldsymbol{\theta}_P^{{N} 2 D}}$

式中: α是深度神经网络的学习率。

4 实例应用研究

4.1 示例描述

本文以一次民用渔船海上事故为例, 对本文所提算法进行示例研究。2018年6月27日3时许, “碧海159”轮与木质渔船“鲁沾渔5186”在渤海湾(38°16′.0N, 118°08′.8E)处(套尔河2号浮和3号浮之间水域)发生碰撞, 商船轮舱破损进水, 宣布弃船求生, 渔船翻扣。商船上有船员23名, 渔船上9人。现场西南风4~5级, 能见度良好。3:30时，经评估, 此险情属船舶碰撞特大险情, 险情指挥由山东省海上搜救中心负责。海事部门和水产渔业部门投入了大量飞机和船舶开展了联合搜寻工作, 也协调了大型过往商船协助搜救。但是由于失事附近海域的海况开始变得恶劣, 成为搜救工作的一大难点。因此, 本文拟根据此案例背景采用所提出的算法调用无人机开展遇险目标搜寻工作。本文的训练样本数据参考北海预报中心提供的基于漂流预测模型的预测结果样本特征, 随机生成符合实际目标存在情况的概率密度值。

4.2 搜寻态势初始化

根据国家海上搜救环境保障服务平台的海洋气象数据, 获取在渤海海域该船舶发横侧翻的事故信息, 获得搜救信息为预测落水人员可能存在于一个15 nmile×20 nmile的连续海域内。在该海域内负责搜寻任务的无人机的起始位置随机产生, 设置栅格比例为1∶1, 即一个单位时间段内, 无人机可搜寻范围为1 nmile²。根据信息安全保密原则, 本文将样本数据脱敏后映射为特征相似的概率矩阵, 图 6为无人机开始搜寻时构建的POC矩阵热力图。

图6

图6 搜寻区域POC预测热力图

Fig.6 POC predictive heat map of search area

图 7为搜救平台预测得到的落水人员初始POC分布, 图 8为归一化过后的POC分布，分别如下所示。

图7

图7 搜救场景中预测得到的初始POC矩阵

Fig.7 The initial POC matrix predicted in search and rescue scenario

图8

图8 归一化后的POC矩阵

Fig.8 Normalized POC matrix

4.3 参数设置

设无人机续航能力为20、30、40步(1步代表 1个栅格), 分析在不同续航能力情况下的优化结果, 算法其他参数设置如表 2所示。

表2 各项实验参数设置

Table 2 Experimental parameters setting

参数名称	参数大小	参数名称	参数大小
隐含层个数	1	累计回报折扣因子	0.5
隐含层神经元个数	1 500	ε-greedy探索率	0.9
输出层神经元个数	8	目标网络更新间隔步数	300
神经元激活函数	ReLU	经验池容量	10⁴
神经网络学习率	0.001	经验块最小容量	200
动作划分个数	8	模型训练次数	10⁵

新窗口打开| 下载CSV

4.4 实验结果展示与分析

4.4.1 损失函数与奖励函数曲线

损失函数曲线是评价算法是否收敛的重要依据, 奖励函数曲线是评价算法训练效果的依据。因此, 绘制训练过程的损失函数和奖励函数曲线图, 分别如图 9和图 10所示。

图9

图9 不同航程下的损失值曲线

Fig.9 Loss value curve under different voyage

图10

图10 不同航程下的奖励值曲线

Fig.10 Bonus curves under different voyages

为了方便展示, 图 9只展示了2 000次训练的收敛曲线, 可以看出, Rainbow算法在不同航程情形下均能够快速收敛。图 10展示了每100次训练的平均奖励值, 可以看出, Rainbow算法在10⁵次训练过程中能够稳步提升训练效果, 训练前期的提升效果较快, 后期提升越来越缓慢。

4.4.2 与其他搜寻模式的对比分析

针对本文所提出的算法, 与当前海上搜救实际业务中常用的平行搜寻模式^[2]和基于遗传算法(genetic algorithm, GA)获取的近似最优搜寻路径进行对比。在相同的初始位置(1, 1)和相同的搜寻环境下对比搜索效果, 如图 11所示。

图11

图11 不同航程下的测试结果

Fig.11 Test results under different voyages

图 11(a)~图 11(c)分别表示3种搜寻模式的累计POC成功率对比, 图 11(d)~11(f)分别表示3种搜寻模式的搜寻路径。从中可以看出, 本文所提的智能搜寻模式在30步和40步的情况下效果最优, 在20步情况下, GA的效果最优。其原因在于GA的输入是初始POC矩阵, 且在优化过程中无法更新, 而Rainbow算法每个步骤观察到的都是最新的POC矩阵, 因此能够在后期搜索期间做出更合理的决策。实验显示出深度强化学习算法能够应对动态变化的环境。

图 11(d)~图 11(f)中, 蓝色箭头和线条表示基于常规平行搜寻模式产生的搜寻路径, 绿色箭头和线条表示基于Rainbow算法产生的搜寻路径, 红色箭头和线条表示基于GA产生的搜寻路径。可直观看出, 常规搜寻模式的路径较为规则, 但无法尽快搜寻到重点海域。相比之下, 基于Rainbow和GA的搜寻路径可使无人机快速覆盖目标存在概率最大的海域, 但GA无法应对动态变化的环境要素, 在实际应用中面临环境变化时往往需要重新进行优化, 而Rainbow则可以面对动态环境进行实时决策。

5 结束语

本文面向海战场目标搜寻规划问题, 考虑问题求解的快速响应性和实时动态性要求, 提出一种基于Rainbow深度强化学习算法的海战场目标搜寻规划方法, 构建了海战场目标搜寻规划的强化学习模型与深度强化学习算法。案例分析中, 验证了所提算法能够在经过一定训练后稳定收敛, 训练后的强化学习智能体在各种航程条件下的效果均优于常规平行线搜寻模式。下一步研究应考虑多个多种类型搜寻设备同时进行搜寻的情形, 也将考虑更贴合实际海洋搜寻环境的仿真模型, 基于多智能体深度强化学习方法研究海战场多设备目标搜寻规划方法, 进一步提升海战场目标搜寻的成功率和效率。

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

OTOTE

D A

, LI

, AI

, et al.

A decision-making algorithm for maritime search and rescue plan

[J]. Sustainability, 2019, 11 (7): 2084- 2099.

DOI:10.3390/su11072084 [本文引用: 1]

[2]

JIN

Y Q

, WANG

, SONG

Y T

, et al.

Optimization model and algorithm to locate rescue bases and allocate rescue vessels in remote oceans

[J]. Soft Computing, 2021, 25 (4): 3317- 3334.

DOI:10.1007/s00500-020-05378-6 [本文引用: 2]

[3]

GUO

, YE

Y Q

, YANG

Q Q

, et al.

A multi-objective INLP model of sustainable resource allocation for long-range maritime search and rescue

[J]. Sustainability, 2019, 11 (3): 929- 953.

DOI:10.3390/su11030929 [本文引用: 1]

[4]

RAHMES M, CHESTER D, HUNT J, et al. Optimizing cooperative cognitive search and rescue UAVs[C]//Proc. of the Autonomous Systems: Sensors, Vehicles, Security and the Internet of Everything, 2018.

[5]

LIANG

X Y

, DU

X S

, WANG

G L

, et al.

A deep reinforcement learning network for traffic light cycle control

[J]. IEEE Trans.on Vehicular Technology, 2019, 68 (2): 1243- 1253.

DOI:10.1109/TVT.2018.2890726 [本文引用: 1]

[6]

WANG

Y D

, LIU

, ZHENG

W B

, et al.

Multi-objective workflow scheduling with deep-Q-network-based multi-agent reinforcement learning

[J]. IEEE Access, 2019, 7, 39974- 39982.

DOI:10.1109/ACCESS.2019.2902846

[7]

LUONG

N C

, HOANG

D T

, GONG

, et al.

Applications of deep reinforcement learning in communications and networking: a survey

[J]. IEEE Communications Surveys and Tutorials, 2019, 21 (4): 3133- 3174.

DOI:10.1109/COMST.2019.2916583

[8]

MNIH

, KAVUKCUOGLU

, SILVER

, et al.

Human-level control through deep reinforcement learning

[J]. Nature, 2015, 518 (7540): 529- 533.

DOI:10.1038/nature14236 [本文引用: 2]

[9]

史腾飞, 王莉, 黄子蓉.

序列多智能体强化学习算法

[J]. 模式识别与人工智能, 2021, 34 (3): 206- 213.

SHI

T F

, WANG

, HUANG

Z R

Sequence to sequence multi-agent reinforcement learning algorithm

[J]. Pattern Recognition and Artificial Intelligence, 2021, 34 (3): 206- 213.

[10]

MNIH V, KAVUKCUOGLU K, SILVER D, et al. Playing atari with deep reinforcement learning[EB/OL]. [2021-10-12]. https://arxiv.org/abs/1312.5602.

[11]

SCHAUL T, QUAN J, ANTONOGLOU I, et al. Prioritized experience replay[EB/OL]. [2021-10-12]. https://arxiv.org/abs/1511.05952.

[12]

VAN H H, GUEZ A, SILVER D. Deep reinforcement learning with double q-learning[C]//Proc. of the AAAI conference on Artificial Intelligence, 2016.

[13]

WANG Z Y, SCHAUL T, HESSEL M, et al. Dueling network architectures for deep reinforcement learning[C]//Proc. of the International Conference on Machine Learning, 2016: 1995-2003.

[14]

BELLEMARE M G, DABNEY W, MUNOS R. A distributional perspective on reinforcement learning[C]//Proc. of the International Conference on Machine Learning, 2017: 449-458.

[15]

FORTUNATO M, AZAR M G, PIOT B, et al. Noisy networks for exploration[EB/OL]. [2021-10-12]. https://arxiv.org/abs/1706.10295.

[16]

HESSEL M, MODAYIL J, VAN H H, et al. Rainbow: combining improvements in deep reinforcement learning[C]//Proc. of the National Conference on Artificial Intelligence, 2018.

[本文引用: 2]

[17]

SUTTON

R S

, BARTO

A G

Reinforcement learning: an introduction[M]. Cambridge: Massachusetts Institute of Technology press, 1998.

[18]

SUTTON

R S

Learning to predict by the methods of temporal differences

[J]. Machine learning, 1988, 3 (1): 9- 44.

[19]

HAUSKNECHT M, STONE P. Deep recurrent Q-learning for partially observable MDPs[EB/OL]. [2021-10-12]. https://arxiv.org/abs/1507.06527v4.

DOI:10.3969/j.issn.1001-506X.2013.03.15 [本文引用: 1]

[20]

轩永波, 黄长强, 吴文超, 等.

运动目标的多无人机编队覆盖搜索决策

[J]. 系统工程与电子技术, 2013, 35 (3): 539- 544.

XUN

Y B

, HUANG

C Q

, WU

W C

, et al.

Coverage search strategies for moving targets using multiple unmanned aerial vehicle teams

[J]. Systems Engineering and Electronics, 2013, 35 (3): 539- 544.

DOI:10.3969/j.issn.1001-506X.2013.03.15 [本文引用: 1]

[21]

高盈盈. 海上搜救中无人机搜寻规划方法及应用研究[D]. 长沙: 国防科技大学, 2020.

GAO Y Y. Research on UAV search planning method and application in maritime search and rescue[D]. Changsha: National University of Defense Technology, 2020.

DOI:10.1016/j.oceaneng.2020.107399 [本文引用: 1]

[22]

XIONG

W T

, GELDER

P V

, YANG

K W

A decision support method for design and operationalization of search and rescue in maritime emergency

[J]. Ocean Engineering, 2020, 207, 107399- 107415.

[23]

GALLEGO

A J

, PERTUSA

, GIL

, et al.

Detection of bodies in maritime rescue operations using unmanned aerial vehicles with multispectral cameras

[J]. Journal of Field Robotics, 2019, 36 (4): 782- 796.

DOI:10.1002/rob.21849 [本文引用: 3]

[24]

高春庆, 寇英信, 李战武, 等.

小型无人机协同覆盖侦察路径规划

[J]. 系统工程与电子技术, 2019, 41 (6): 1294- 1299.

GAO

C Q

, KOU

Y X

, LI

Z W

Cooperative coverage path planning for small UAVs

[J]. Systems Engineering and Electronics, 2019, 41 (6): 1294- 1299.

DOI:10.1016/j.neucom.2017.06.066 [本文引用: 1]

[25]

YUE

, GUAN

X H

, WANG

L Y

A novel searching method using reinforcement learning scheme for multi-UAVs in unknown environments

[J]. Applied Sciences, 2019, 9 (22): 4964- 4978.

DOI:10.3390/app9224964 [本文引用: 1]

[26]

CHENG

, ZHANG

W D

Concise deep reinforcement learning obstacle avoidance for underactuated unmanned marine vessels

[J]. Neurocomputing, 2018, 272, 63- 73.

[27]

R P

, ZHAO

Z F

, SUN

, et al.

Deep reinforcement learning for resource management in network slicing

[J]. IEEE Access, 2018, 6, 74429- 74441.

DOI:10.1109/ACCESS.2018.2881964 [本文引用: 1]

[28]

TAMPUU

, MATⅡSEN

, KODELJA

, et al.

Multiagent cooperation and competition with deep reinforcement learning

[J]. Plos One, 2017, 12 (4): e0172395.