针对未知动态环境下无人机(unmanned aerial vehicle, UAV)编队路径规划问题, 提出融合动态编队奖励函数的多智能体双延迟深度确定性策略梯度(multi-agent twin delayed deep deterministic strategy gradient algorithm incorporating dynamic formation reward function, MATD3-IDFRF)算法的UAV编队智能决策方案。首先, 针对无障碍物环境, 拓展稀疏性奖励函数。然后, 深入分析UAV编队路径规划中重点关注的动态编队问题, 即UAV编队以稳定的结构飞行并根据周围环境微调队形, 其本质为每两架UAV间距保持相对稳定, 同时也依据外界环境而微调。为此, 设计基于每两台UAV之间最佳间距和当前间距的奖励函数, 在此基础上提出动态编队奖励函数, 并结合多智能体双延迟深度确定性(multi-agent twin delayed deep deterministic, MATD3)算法提出MATD3-IDFRF算法。最后, 设计对比实验, 在复合障碍物环境中, 所提动态编队奖励函数能将算法成功率提升6.8%, 将收敛后的奖励平均值提升2.3%, 将编队变形率降低97%。