预览
Abstract
Q-function隐含着RL问题的知识,但是不可解释。因此本⽂提出⾸个DRL中Q-function的
模仿学习⽅法Linear Model U-trees (LMUTs)
1. Introduction
现在已有很多⽅法把深度模型蒸馏为决策树[5,2,7],但他们都是基于监督的⽅法,⽽强化学
习是⽆监督的,所以不适⽤。
贡献1
提出了新颖的强化学习模仿学习框架,包含在线和离线两个⽅法:
Experience Training:记录DRL训练过程中的所有(s,a)数据对,以Q值作为软标签。
Active Play:离线的数据量⼤,很耗时,因此提出在线⽅法进⾏动态更新。
贡献2
提出Linear Model U-Tree (LMUT)
U-tree [13,20] 是⼀个经典的在线强化学习⽅法,使⽤树结构表达Q-function。⽂章改进
了U-tree⽅法,在每个叶节点下增加了⼀个线性函数,提出Linear Model U-Tree (LMUT),⽤
来产⽣连续的Q值。
评估⽅法
3个基准环境,5个baseline⽅法
fidelity
play performance
...
2. Related Works
评论