系统工程与电子技术 ›› 2022, Vol. 44 ›› Issue (3): 884-899.doi: 10.12305/j.issn.1001-506X.2022.03.21

• 系统工程 • 上一篇    下一篇

强化学习中的策略重用: 研究进展

何立1, 沈亮3, 李辉1,2,*, 王壮1, 唐文泉1   

  1. 1. 四川大学计算机(软件)学院, 四川 成都 610065
    2. 四川大学视觉合成图形图像技术国家级重点实验室, 四川 成都 610065
    3. 江西洪都航空工业集团有限责任公司, 江西 南昌 330024
  • 收稿日期:2021-01-18 出版日期:2022-03-01 发布日期:2022-03-10
  • 通讯作者: 李辉
  • 作者简介:何立(1996—), 男, 硕士研究生, 主要研究方向为深度强化学习技术|沈亮(1980—), 男, 研究员级高级工程师, 硕士, 主要研究方向为航空武器装备体系设计工程|李辉(1970—), 男, 教授, 博士, 主要研究方向为智能计算、战场仿真、虚拟现实|王壮(1987—), 男, 博士研究生, 主要研究方向为军事人工智能、深度强化学习技术|唐文泉(1993—), 男, 硕士研究生, 主要研究方向为深度强化学习技术
  • 基金资助:
    ”十三五”全军共用信息系统装备预研项目(31505550302)

Survey on policy reuse in reinforcement learning

Li HE1, Liang SHEN3, Hui LI1,2,*, Zhuang WANG1, Wenquan TANG1   

  1. 1. School of Computer Science (Software), Sichuan University, Chengdu 610065, China
    2. National Key Laboratory of Fundamental Science on Synthetic Vision, Sichuan University, Chengdu 610065, China
    3. Jiangxi Hongdu Aviation Industry Group Company Limited, Nanchang 330024, China
  • Received:2021-01-18 Online:2022-03-01 Published:2022-03-10
  • Contact: Hui LI

摘要:

策略重用(policy reuse, PR)作为一种迁移学习(transfer learning, TL)方法, 通过利用任务之间的内在联系, 将过去学习到的经验、知识用于加速学习当前的目标任务, 不仅能够在很大程度上解决传统强化学习(reinforcement learning, RL)收敛速度慢、资源消耗大等问题, 而且避免了在相似问题上难以复用的问题。本文综述了RL中的PR方法, 将现有方法细分为策略重构、奖励设计、问题转换、相似性度量等方面来分别介绍和分析各自的特点, 及其在多智能体场景和深度RL(deep RL, DRL)中的扩展。并且, 介绍了源和目标任务之间的映射方法。最后, 基于当前PR的应用, 叙述了该课题在未来发展方向上的一些猜想和假设。

关键词: 强化学习, 迁移学习, 策略重用, 任务映射

Abstract:

Policy reuse (PR) is a transfer learning (TL) method. By using the internal connection among tasks, the experience and knowledge learned in the past can be used to accelerate the learning of the current target task. To a large extent, it solves the problems of traditional reinforcement learning (RL), such as slow convergence speed and high resource consumption, and avoids the problem of difficult reuse on similar problems. This paper reviews PR methods in RL, subdivided as policy reconstruction, reward shaping, problem transformation and similarity measurement, presents their characteristics respectively, and introduces their extensions in multi-agent scenarios and deep RL (DRL). Then, the mapping methods between source and target tasks are introduced. Finally, based on the current application of PR, some conjectures and assumptions about the future development direction of this subject are described.

Key words: reinforcement learning (RL), transfer learning (TL), policy reuse (PR), task mapping

中图分类号: