Interpretable policy derivation for reinforcement learning based on evolutionary feature synthesis

原创刘潇 2023-01-25

206

Abstract

黑盒属性限制了RL在高风险领域的使用。一些研究使用一个可解释模型（决策树）来抽取黑盒的策略。

本文follow这个idea，（1）尝试另一种形式的遗传编程技术，进化特征综合，从NN模型中抽取策略。（2）还提出一种进化算法来优化每一个问题中的算子集。（3）提出一种策略简化方法。

在4个强化学习中的实验，进化特征综合比基于树的遗传编程实现的性能更好，并且可解释性相当。

Introduction

强化学习很实用。。。但黑盒特征使其无法适用于高风险场景。。。构建一个可解释模型很重要，比解释一个黑盒模型更重要。基因编程genetic programming是可解释方法的一种，使用遗传编程构建一个符号表示的可解释模型。GP被引入到RL中，用来进化出一个可解释模型。然而，GP很难被用来从DNN agent中获得策略，EFS是第一个展示GP可以用于抽取DRL策略并实现与强解释模型相似解释性的方法。

本文提出一个基于进化特征综合(evolution feature synthesis (EFS) algorithm，有参考文献，别人的方法)的方法，从预训练DNN中抽取策略：（1）在真实环境交互中生成DNN行为策略，（2）然后进化出一系列回归函数，模仿DNN策略，与他尽可能相近。（3）用进化算法自动选择预定于的运算符来提高性能。（4）用一种简化算法来平衡性能-可解释性权衡（tradeoff between interpretability and performance）

评估：CartPole [31], the Acrobot [30], the MountainCar [23], and the Industrial Benchmark [10] environments.

结论：EFS抽取的策略优于GP，操作符优化的方法显著提高了策略reward，超过NN和常用可解释机器学习方法。

Evolutionary feature synthesis

EFS是一种新型GP方法，将非线性特征迭代组成线性模型。EFS的搜索空间是由预定义集合中的变量和运算符组成的所有可能的非线性特征。进化过程的目标是找到一组非线性特征，它们构成一个线性模型，可以很好地解决特定问题。在经过特征初始化阶段之后，EFS的演化过程包括三个阶段，即特征组成阶段、特征重要性评价阶段和特征选择阶段。

特征组成阶段

首先，训练数据集中每个原始变量x都被加入到特征集U中，U称作特征总体，对这些特征做标记，保证接下来的过程中不会被删除。

算子合成阶段，从运算符集中随机选择一个运算符o，如果是一元运算符，就随机选择一个特征，如果是二元运算符，就选择两个特征，构成o(u)或o(u1,u2)，假设种群大小为|P|，就生成|P|-|X|个特征

特征重要性评价阶段

用函数g评价每个特征的重要性(f-regresion是一个典型的评分函数)。

特征选择阶段

对特征重要性进行排序，选取|P|个特征作为线性模型的基础。最后，构成由多个线性特征构成的线性模型。

EFS-based policy derivation

提出一种新的基于EFS的策略推导方法，两个组成部分：

Deep neural network

DNN用于逼近环境的最优值函数[22]或策略函数[32]。通过DNN，我们可以在真实环境中模拟生成由状态和动作组成的行为序列S。然后，EFS可以利用这些行为序列(s, a)∈s生成可解释的策略模型。

EFS模型集:

EFS模型集由几个EFS模型m∈M组成，每个EFS模型是模拟行为序列S的一部分，以决定在特定状态S下应该选择哪个动作a。模型集的大小| m |等于动作空间| a |的大小。

策略派生过程：

1. 数据准备:在数据准备过程中，我们使用预训练的神经网络在不同情况下的强化学习环境中生成最优决策方案。用预先训练好的神经网络模型在真实环境中生成行为序列。

2. 算子优化:算子优化是一种可选过程，是在小规模实验的基础上，通过遗传算法预先选择一个最优算子子集。过程：（1）预定义一个所有可能算子的算子集，（2）对每一个算子采用一个二进制染色体P，表示算子是否被选择，（3）进化过程中，新染色体均匀随机两点交叉和一点突变的方式产生，（4）评估过程中，对每个算子的选择方案，使用训练和迭代次数较少的EFS来评估，使用2/5的训练和1/5的测试轮数，得到适合度，（5）采用竞赛选择算法对染色体进行选择，进行n轮

3. EFS进化:在EFS进化过程中，我们根据准备阶段获得的训练数据，进化一组EFS回归量。以尽可能地模拟行为序列。进化目标是使行为序列上各EFS回归量fa∈M的损失值最小

每个EFS回归量都包含完整的EFS过程

4. EFS集成:在获得一组回归器之后，我们将这些回归器聚合为基于一个简单决策函数的单个模型。每个EFS回归量都表示一个动作，输出这个动作的值，然后选取最大的值。

5. 策略简化:策略简化也是一种可选操作，它可以平衡复杂性和准确性之间的权衡。

模型复杂度指标为特征数量|F|，对进化出的最佳模型，用染色体的p值对特征进行排序，组成一个新的特征集，由一系列特征集组成一系列线性模型

墨力计划

「喜欢这篇文章，您的关注和赞赏是给作者最好的鼓励」

关注作者

Interpretable policy derivation for reinforcement learning based on evolutionary feature synthesis

Abstract

Introduction

Evolutionary feature synthesis

EFS-based policy derivation

评论