系统工程与电子技术 ›› 2020, Vol. 42 ›› Issue (8): 1726-1733.doi: 10.3969/j.issn.1001-506X.2020.08.12

• 传感器与信号处理 • 上一篇    下一篇

基于强化学习的多机协同传感器管理

闫实1,2(), 贺静1,2(), 王跃东1,2(), 孙自强3(), 梁彦1,2()   

  1. 1. 西北工业大学自动化学院, 陕西 西安 710072
    2. 信息融合教育部重点实验室, 陕西 西安 710072
    3. 南京电子技术研究所, 江苏 南京 210039
  • 收稿日期:2020-01-13 出版日期:2020-07-25 发布日期:2020-07-27
  • 作者简介:闫实 (1994-),男,博士研究生,主要研究方向为强化学习、传感器管理。E-mail:yanshi@mail.nwpu.edu.cn|贺静(1992-),女,博士研究生,主要研究方向为网络化控制系统、估计理论、强化学习。E-mail:hejing19920811@mail.nwpu.edu.cn|王跃东 (1995-),男,硕士研究生,主要研究方向为估计理论、强化学习。E-mail:kyle01234@163.com|孙自强 (1987-),男,工程师,博士,主要研究方向为传感器资源管理、优化学习。E-mail:zqsun01@163.com|梁彦 (1971-),男,教授,博士研究生导师,博士,主要研究方向为估计理论、信息融合、远程预警数据处理应用。E-mail:liangyan@nwpu.edu.cn
  • 基金资助:
    国家自然科学基金(61771399);国家自然科学基金(61873205)

Multi-airborne cooperative sensor management based on reinforcement learning

Shi YAN1,2(), Jing HE1,2(), Yuedong WANG1,2(), Ziqiang SUN3(), Yan LIANG1,2()   

  1. 1. School of Automation, Northwestern Polytechnical University, Xi'an 710072, China
    2. Key Laboratory of Information Fusion, Ministry of Education, Xi'an 710072, China
    3. Nanjing Institute of Electronic Technology, Nanjing 210039, China
  • Received:2020-01-13 Online:2020-07-25 Published:2020-07-27
  • Supported by:
    国家自然科学基金(61771399);国家自然科学基金(61873205)

摘要:

网络化战争中,机载雷达在实现对目标信息持续获取的同时保证载机安全生存是亟待解决的问题。对此,以多机协同作战安全转场任务为背景,提出基于深度强化学习算法的智能传感器管理方法。首先,综合考虑信号辐射量与目标威胁因素,计算目标运动过程中的实时威胁隶属度。其次,在强化学习框架下对雷达-目标分派问题建模,利用神经网络逼近动作-值函数,并根据时序差分算法进行参数更新。仿真结果表明,相比于传统调度方法,所提算法有效提升了任务成功率,缩短了任务完成用时。

关键词: 传感器管理, 强化学习, 威胁隶属度

Abstract:

In the networked war, it is urgent that airborne radar can continuously acquire target information while ensuring the safe survival. Focusing on this problem, in the context of safe transition tasks of multi-airborne cooperative operations, this paper proposes a intelligent sensor management method based on deep reinforcement learning. First, the real-time threat membership is calculated considering the signal radiation and several threat factors. Then, the radar-target assignment problem is modeled in a reinforcement learning framework. The neural network is used to approximate the action-value function, and the parameters are updated according to the temporal-difference algorithm. It can be seen from the simulation that the proposed algorithm improves the task success rate and shortens the time of task completion compared with the traditional scheduling methods.

Key words: sensor management, reinforcement learning, threat membership

中图分类号: