系统工程与电子技术 ›› 2023, Vol. 45 ›› Issue (3): 886-901.doi: 10.12305/j.issn.1001-506X.2023.03.31
唐斯琪1, 潘志松1,*, 胡谷雨1, 吴炀2, 李云波1
唐斯琪(1993—), 女, 博士研究生, 主要研究方向为卫星网络资源分配、智能卫星网络基金资助:
Siqi TANG1, Zhisong PAN1,*, Guyu HU1, Yang WU2, Yunbo LI1
未来天基信息网络(space information network, SIN)领域将面临由结构复杂、环境动态、业务多样等发展趋势带来的挑战。数据驱动的深度强化学习(deep reinforcement learning, DRL)作为一种应对上述挑战的可行思路被引入SIN领域。首先简要介绍了DRL的基本方法, 并全面回顾了其在SIN领域的研究进展。随后, 以星地网络场景的中继选择为例, 针对大规模节点问题提出了基于平均场的DRL算法, 并提出一种基于微调的模型迁移机制, 用以解决仿真环境与真实环境之间的数据差异问题。仿真证明了其对网络性能优化的效果, 且计算复杂度和时间效率均具有可行性。在此基础上归纳和总结了DRL方法在SIN领域的局限性与面临的挑战。最后,结合强化学习前沿进展, 讨论了此领域未来的努力方向。
唐斯琪, 潘志松, 胡谷雨, 吴炀, 李云波. 深度强化学习在天基信息网络中的应用——现状与前景[J]. 系统工程与电子技术, 2023, 45(3): 886-901.
Siqi TANG, Zhisong PAN, Guyu HU, Yang WU, Yunbo LI. Application of deep reinforcement learning in space information network——status quo and prospects[J]. Systems Engineering and Electronics, 2023, 45(3): 886-901.
研究方向 | 计算能力 | 实时性要求 | 算法效果 | 综合收益 | 进展 |
资源分配 | 有限, 星上计算 | 较低, 可根据算法速度设定动态调整资源的时隙 | 较好, 可大幅提高资源利用率 | 较高, 资源紧缺是SIN面临的重要问题 | NASA已进行星上验证[ |
跳波束 | 有限, 星上计算 | 较低, 可根据算法速度设定跳波束时隙 | 基于MADRL的方法效果较好, DRL方法面临维度灾难 | 较高, 解决了流量空间分布不均匀对资源的浪费 | 理论研究 |
接入网络选择 | 终端分布式决策, 不需星上计算 | 较低, 可根据算法速度设定接入调整频率 | 较好, 但需要收集多层异构网络的信息 | 较高, 优化了空天地一体化网络中的接入决策 | 理论研究 |
拥塞控制[ | 终端分布式决策, 不需星上计算 | 较低, 可根据算法速度设定窗口调整频率 | 较好, 问题简单直接, 且决策空间有限 | 较高, 但需要考虑网络设备更换的代价 | 理论研究 |
计算卸载 | 较高, 终端分布式决策, 不需星上计算 | 高, 但对卫星无要求, 对终端能力和算法时效性有要求 | 有待提高, 其与通信过程的资源分配问题耦合, 考虑因素多, 决策维度高, DRL训练难度大 | 目前有限, 但在计算任务日益增加、边缘能力日益增强的未来场景[ | 理论研究 |
卫星切换 | 终端分布式决策, 不需星上计算 | 较低, LEO卫星过顶时间为分钟级, DRL算法使用阶段的决策时间为毫秒级 | 有待提高, 现有方法没能与资源分配结合, 因此效果有待优化 | 现阶段收益有限, 对未来超大规模星座[ | 理论研究 |
路由选择 | 有限, 星上计算 | 高, 数据包转发对时效性要求高 | 在拥塞或者受干扰的网络中性能优于其他方法 | 较低, 路由决策无法牺牲时间代价 | 理论研究 |
接入协议优化[ | 终端分布式决策, 不需星上计算 | 高, 数据包流量大 | MARL效果较好, 而DRL在节点规模增大时, 收敛效果变差 | 较低, 每个发送数据包需要承受DRL决策的时间代价 | 理论研究 |
缓存 | 有限, 星上计算 | 高, 内容访问请求流量大 | 有待提高, 内容数量多, 缓存决策动作空间大 | 较低, 卫星缓存资源有限, 优化缓存策略取得的收益有限 | 理论研究 |
领域 | 文献 | 场景 | 针对问题 | 优化目标 | DRL方法 |
资源分配 | [ | 多波束GEO卫星网络 | 用户时隙分配 | 用户满意度、能量和频谱利用率 | DQN |
[ | 多波束GEO卫星网络 | 用户信道分配 | 呼通率 | DQN | |
[ | LEO卫星物联网 | 用户信道分配 | 能量利用率 | DQN | |
[ | 多波束GEO卫星网络 | 波束带宽分配 | 公平性、流量满足程度 | MARL | |
[ | 多波束GEO卫星网络 | 波束功率分配 | 功率消耗、流量满足程度 | DDPG | |
[ | GEO卫星网络 | 配置链路参数 | 吞吐量、误码率、功耗、带宽稳定 | DQN | |
跳波束 | [ | 多波束GEO卫星 | 波束点亮方案 | 传输时延 | DQN |
[ | 多波束GEO卫星 | 波束点亮方案 | 实时服务时延, 非实时服务吞吐量, 公平性 | 双环DQN | |
计算卸载与缓存 | [ | 空天地一体化网络 | 任务卸载位置决策 | 平均处理时延 | DQN |
[ | GEO卫星辅助车联网 | 任务卸载、计算和通信资源联合分配 | 时延 | 优化、DQN | |
[ | 天地一体化网络 | 通信、缓存和计算资源联合分配 | 通信、缓存和计算开销 | DQN | |
[ | 多层卫星网络 | 缓存策略、计算卸载、接入选择联合决策 | 缓存和计算开销 | A3C | |
路由选择 | [ | LEO卫星星座 | 下一跳路由选择 | 跳数、丢包率、拥塞避免 | Double DQN |
[ | 天地一体化网络 | 下一跳路由选择 | 时延、丢包率、吞吐量 | DDPG | |
[ | LEO卫星星座 | 下一跳路由选择 | 时延、卫星电池能量寿命 | DQN | |
[ | LEO卫星星座 | 抗干扰路径集合计算 | 集合中链路不受干扰 | 近似策略优化 | |
卫星切换 | [ | LEO卫星星座 | 切换选择 | QoE | DQN |
[ | LEO卫星星座 | 切换选择 | 切换次数 | MARL | |
接入选择 | [ | 空天地一体化网络 | 接入选择 | 吞吐量 | DQN |
[ | 空天地一体化网络 | 接入选择与航迹调整 | 吞吐量 | DQN |
