1478
软件学报 2022 年第 33 卷第 4 期
proposed based on predictive coding. The auto-encoder model is applied to compress the original task state space, and the predictive
coding of the dynami c environment is obtained through the st ate transition samples of th e environment combined with th e autoregressive
model using the mixed density distribution network, which improves the capacity of the task state representation. Temporal difference
error is utilized by the predictive-cod ing-bas ed sample adaptive method to predict the value function, whi ch improves the data efficienc y
and accelerates the convergence of the algorithm. To verify its effectiveness, a typical air combat scenario is constructed based on the
previous national wargame competition platforms, where five specially designed rule-based agents are included by the contestants. The
ablation experiments are implemented to verify the influence of different factors with regard to coding strategies and sampling policies
while the Elo scoring mechanism is adopted to rank the agents. Experimental results confirm that MDN-AF, the sample adaptive algorithm
based on predictive coding,reaches th e highest score with an average winning r ate of 71 %, 67.6% of which are easy wins. Mor eover, it ha s
learned four kinds of interpretable long-term strategies including autonomous wave division, supplementary reconnaissance, “snake”
strike and bomber-in-the-rear formation. In addition, th e agent applying this algorithm framework has won the national first prize of 2020
National Wargame Competition.
Key words: action planning; reinforcement learning; wargame; predictive coding; sample adaptive
自战争出现以来, 作战任务规划活动就一直存在. 在传统的作战任务规划中, 指挥员根据自身的作战经
验和对实时态势的理解进行作战行动即时规划, 指导作战行动. 然而, 随着装备技术的不断发展, 战争形态发
生了深刻的变化, 使得战场信息更加不完全、环境变化更加剧烈、对抗边界更加不确定、作战响应更加迅捷,
不依赖任务规划工具则难以制定高效的作战行动方案. 行动策略规划的主要流程为: 认知当前任务状态; 在
可选行动空间中, 选择满足预定目标的动作; 到达新的任务状态, 开始新的决策循环
[1]
. 当前行动策略规划的
研究主要方法为:
1) 经典规划方法: 规划问题由状态、目标和行动等 3 个部分组成, 状态随着行动的选择进行转换, 规
划的目标为寻找从初始状态到任务目标状态的行动序列. 典型的模型为 STRIPS 系统
[2]
及其变种
[3,4]
.
经典规划方法难以对作战任务各要素进行完整建模, 所得到的行动序列无法满足各个约束;
2) 基于层次任务网络的方法: 基于知识和任务分解, 采用自顶向下的层次分解方法, 将目标状态分解
至可执行的子任务后进行规划. 典型的系统有 SI PE -2
[5]
, O-Plan
[6]
, PASSAT
[7]
, I-X
[8]
. 层次任务网络
方法的主要难点为知识的获取与表示, 对设计人员具有较高的专业要求; 此外, 任务的分解需要依
靠已有的行动库和方法库, 对支撑系统的要求高, 且系统构建复杂
[9]
;
3) 案例推理方法: 对比当前任务同已有案例的相似性, 采用近似任务的行动方案进行规划. 典型的系
统包含 HICA P
[10]
, JADE
[11]
. 基于案例推理的规划方法仅需寻找与当前任务相似的案例
[12]
, 求解简
单, 但是难以有效地进行任务间的相似性度量, 且构建全面、高质量的案例库需要大量资源, 成本
高昂
[13]
;
4) 过程推理方法: 由信念、愿望、意图和规划这 4 个部分组成, 信念是智能体对环境和自身的知识; 愿
望是智能体计划达到的目标; 意图是智能体执行行动规划的驱动; 规划是在意图的驱动下, 基于智
能体的信念, 制定行动序列来达到愿望
[14]
. 典型的系统有 SWARMM
[15]
, ModSAF
[16]
, MANA
[17]
. 对
于给定的目标, 过程推理系统可在规划库中进行推理, 并执行规划出来的行动序列, 具有较高的执
行效率
[18]
.
现有的作战行动策略规划方法在特定场景下具有较好的表现, 但以离线方式产生的行动策略难以适应任
务的不确定性转移带来的波动; 其次, 在在线实时决策过程中, 注重即时的行动收益, 限制了行动规划的视
野, 无法对长时回报进行有效利用; 最后, 传统规划方法严重依赖人类知识, 所获得的模型受限于设计者的
水平, 限制了当前作战行动规划方法的能力上限, 难以生成超越设计者水平的行动策略.
将人工智能应用在军事领域, 旨在实现规划的高效率、动态环境下的高适应能力和行动策略的灵活性. 深
度强化学习(deep reinforcement learning, DRL)结合了深度神经网络和强化学习的优势, 可以用于解决智能体
在复杂高维状态空间中的感知决策问题, 在游戏、机器人、自动驾驶等领域, 深度强化学习已经取得了突破
性进展
[19]
. 然而, 现有无模型的 DRL 仅仅利用环境奖赏, 忽略了固有的、能够提高学习效率的潜在环境信息,
评论