赵恒军
等
强化学习智能控制在安全攸关
中的应用——以某工业油泵为例
learning algorithm and making intelligent control applications. First, the safe reinforcement learning problem of the industrial oil pump is
formulated, and simulation environment of the oil pump is built; then, by designing the structure and activation function of the output layer,
the neural network type oil pump controller is constructed to satisfy the linear inequality constraints of the oil pump switching time; finally,
in order to better balance the safety and optimality control objectives, a new safe reinforcement learning algorithm is designed based on
the augmented Lagrange multiplier method. Comparative experiment on the industrial oil pump case shows that the controller generated
by the proposed algorithm surpasses existing algorithms in the same category, both in safety and optimality. In further evaluation, the
neural network controllers generated in this paper pass rigorous formal verification with probability 90%. Meanwhile, compared with the
theoretically optimal controller, neural network controllers achieve a loss of optimal objective value as low as 2%. The method proposed
in this paper is expected to be extended to more application scenarios, and the case study scheme is expected to be referenced by other
researchers in the field of intelligent control and formal verification.
Key words: reinforcement learning; intelligent control; cyber-physical system; safety verification; oil pump
信息物理系统(Cyber-Physical System, CPS)是一个深度结合计算机、物理硬件与网络的多维度智能化的复
杂系统,其应用领域已深入到社会生产和人民生活的各个方面.诸如航天器控制系统、汽车自动驾驶系统之类
的信息物理系统对安全性有极高的要求,称为安全攸关系统(Safety-Critical System),一旦系统发生故障将造成
严重的经济损失和不可挽回的人员伤亡. CPS 的安全性研究是当前的热点课题,其中如何设计 CPS 的安全控制
器是尤为重要的研究问题.
目前,针对 CPS 的安全控制器生成主要采用形式化方法.一类方法基于可达集分析
[1,2]
或障碍函数生成
[3]
,
结合传统优化方法、数值计算等生成具有安全保障的系统控制器;另一类通过指定控制器函数模板或不变式模
板,将安全控制器生成问题编码为一阶逻辑公式,利用符号计算方法生成满足安全约束的控制器
[4]
.这两类方法
在理论研究层面已经解决了部分规模有限的 CPS 安全控制问题,但尚无法推广到一般实际问题中,核心瓶颈源
于两个方面:形式化方法依赖刻画 CPS 物理行为的精确数学模型,例如,通常需要给定微分方程组或者差分方程
组描述系统物理行为,然而在实际问题中,复杂 CPS 系统由于客观环境的不确定性等因素,获取其准确的数学模
型非常困难;再者,基于可达集计算、障碍函数生成或不变式生成的传统形式化方法计算成本较高,对于复杂
CPS 的安全性分析与验证,往往无法在有效时间内得到结果.这导致传统形式化方法在实际 CPS 安全控制器设
计中的应用较为有限.针对这个问题,有研究者提出从数据中挖掘系统的模型
[5]
.本文利用人工智能技术以数据
驱动的、不依赖严格数学模型的方式生成 CPS 的安全控制器,规避形式化方法对数学模型的依赖和高计算复
杂性.
随着人工智能产业的飞速发展,人工智能的理论与技术成果被认为非常有可能在控制领域得到集成,智能
控制将是人工智能及相关前沿技术的综合体现.例如[6]针对航天控制场景
,指出“航天控制系统具有飞行环境不
确定、故障模式不确定、外部干扰不确定、自身模型不确定、飞行任务不确定等特有属性”,“智能控制技术将
成为实现智能航天的必然选择”.与传统控制技术相比,智能控制能够应用于具有高度非线性、强不确定性的复
杂系统,能够处理多重优化目标,是一种有强大生命力的新型控制技术.但是智能控制缺少严格的安全性、稳定
性等性能保障,这是其在安全攸关CPS领域取得广泛应用的主要障碍之一.
本文研究安全强化学习智能控制方法并运用于安全攸关 CPS 的控制器生成,致力于保障系统的安全性质,
与此同时,能达到系统最优控制目标.本文围绕[7]中提出的一个典型 CPS 案例——工业油泵控制系统,开展安全
强化学习算法研究和智能控制应用研究.该工业油泵控制系统已在一系列工作中被作为基准案例广泛研究
[7-11]
,其系统行为具有高度非线性性,控制目标具有安全、鲁棒和最优等多重性,给控制器的生成尤其是基于形式
化方法的生成带来很大困难,因而利用该案例探索智能控制方法的应用潜能显得十分必要;另外该案例具有显
式的理论最优解
[9]
,可以作为智能算法的评判标准,能够为本文的对比研究提供极大便利.本文利用深度强化学
习方法,为工业油泵控制系统设计一个以安全性和最优性为目标的神经网络控制器.首先,利用约束马尔可夫决
策过程形式化了工业油泵系统的安全强化学习问题;随后搭建了油泵系统的仿真环境,设计了和环境交互过程
中获得的收益值和损耗值;然后搭建了用于控制油泵开关时间点的神经网络控制器,为满足油泵开关时间的固
有物理约束,对神经网络输出层的结构和激活函数进行了巧妙设计,使得其输出满足线性不等式约束;最后,通
评论