强化学习智能控制在安全攸关CPS中的应用——以某工业油泵为例-赵恒军，李权忠，曾霞，刘志明.pdf

上善若水

436

24页

0次

2022-05-19

免费下载

软件学报 ISSN 1000-9825, CODEN RUXUEW E-mail: jos@iscas.ac.cn

Journal of Software, [doi: 10.13328/j.cnki.jos.006588] http://www.jos.org.cn

强化学习智能控制在安全攸关 CPS 中的应用——以某工业油泵为例

∗

赵恒军

1,3

李权忠

1,3

曾

霞

1,3

刘志明

2,3

(西南大学计算机与信息科学学院、软件学院,重庆 400715)

(西北工业大学智能嵌入式软件研究中心,陕西西安 710000)

(西南大学软件研究与创新中心,重庆 400715)

通讯作者: 曾霞

, E-mail: xzeng0712@swu.edu.cn

摘要: 信息物理系统(Cyber-Physical Systems,CPS)的安全控制器设计是一个热门研究方向,现有基于形式化方

法的安全控制器设计存在过度依赖模型、可扩展性差等问题.基于深度强化学习的智能控制可处理高维非线性复杂

系统和不确定性系统,正成为非常有前景的 CPS 控制技术,但是缺乏对安全性的保障.针对强化学习控制在安全性方

面的不足,围绕一工业油泵控制系统典型案例,开展安全强化学习算法和智能控制应用研究.首先形式化了工业油泵

控制的安全强化学习问题,搭建了工业油泵仿真环境;随后,通过设计输出层结构和激活函数,构造了神经网络形式

的油泵控制器,使得油泵开关时间的线性不等式约束得到满足;最后,为更好权衡安全性和最优性控制目标,基于增

广拉格朗日乘子法设计实现了新型安全强化学习算法.在工业油泵案例上的对比实验表明,所提算法生成的控制器

在安全性和最优性上均超越了现有同类算法.在进一步评估中,本文所生成神经网络控制器以 90%的概率通过了严

格形式化验证,同时与理论最优控制器相比实现了低至 2%的最优目标值损失.本文所提方法有望推广至更多应用

场景,实例研究的方案有望为安全智能控制和形式化验证领域其他学者提供借鉴.

关键词: 强化学习;智能控制;信息物理系统;安全验证;工业油泵

中图法分类号: TP311

中文引用格式: 赵恒军,李权忠,曾霞,刘志明.强化学习智能控制在安全攸关 CPS 中的应用——以某工业油泵为例.软件学

报,2022. http://www.jos.org.cn/1000-9825/6588.htm

英文引用格式: Zhao H, Li Q, Zeng X, Liu Z. Reinforcement Learning Based Intelligent Control for Safety Critical CPSs — A

Case Study of An Industrial Oil Pump. Ruan Jian Xue Bao/Journal of Software, 2022 (in Chinese).

http://www.jos.org.cn/1000-9825/6588.htm

Reinforcement Learning Based Intelligent Control for Safety Critical CPSs — A Case Study of

An Industrial Oil Pump

ZHAO Heng-Jun

1,3

, LI Quan-Zhong

1,3

, ZENG Xia

1,3

, LIU Zhi-Ming

2,3

(School of Computer and Information Science, Southwest University, Chongqing 400715, China)

(Centre for Intelligent and Embedded Software, Northwestern Polytechnical University, Xi’an 710000, China)

(Centre for Research and Innovation in Software Engineering, Southwest University, Chongqing 400715, China)

Abstract: The problem of safe controller design for Cyber-Physical Systems (CPS) is a hot research topic. The existing safe controller

design based on formal methods has problems such as excessive reliance on system models and poor scalability. Intelligient control based

on deep reinforcement learning can handle high-dimensional nonlinear complex systems and uncertain systems, and is becoming a very

promising CPS control technology, but it lacks safety guarantees. This paper addresses the safety issues of reinforcement learning control

by focusing on a case study of a typical industrial oil pump control system, and carries out research in desinging new safe reinforcement

∗ 基金项目: 国家自然科学基金(61902325, 62032019, 61972385, 61732019, 61702425), 西南大学国家人才建设项目

(SWU116007)

收稿时间: 2021-09-05; 修改时间: 2021-10-14; 采用时间: 2022-01-10; jos 在线出版时间: 2022-01-28

赵恒军

等

强化学习智能控制在安全攸关

CPS

中的应用——以某工业油泵为例

2205

learning algorithm and making intelligent control applications. First, the safe reinforcement learning problem of the industrial oil pump is

formulated, and simulation environment of the oil pump is built; then, by designing the structure and activation function of the output layer,

the neural network type oil pump controller is constructed to satisfy the linear inequality constraints of the oil pump switching time; finally,

in order to better balance the safety and optimality control objectives, a new safe reinforcement learning algorithm is designed based on

the augmented Lagrange multiplier method. Comparative experiment on the industrial oil pump case shows that the controller generated

by the proposed algorithm surpasses existing algorithms in the same category, both in safety and optimality. In further evaluation, the

neural network controllers generated in this paper pass rigorous formal verification with probability 90%. Meanwhile, compared with the

theoretically optimal controller, neural network controllers achieve a loss of optimal objective value as low as 2%. The method proposed

in this paper is expected to be extended to more application scenarios, and the case study scheme is expected to be referenced by other

researchers in the field of intelligent control and formal verification.

Key words: reinforcement learning; intelligent control; cyber-physical system; safety verification; oil pump

信息物理系统(Cyber-Physical System, CPS)是一个深度结合计算机、物理硬件与网络的多维度智能化的复

杂系统,其应用领域已深入到社会生产和人民生活的各个方面.诸如航天器控制系统、汽车自动驾驶系统之类

的信息物理系统对安全性有极高的要求,称为安全攸关系统(Safety-Critical System),一旦系统发生故障将造成

严重的经济损失和不可挽回的人员伤亡. CPS 的安全性研究是当前的热点课题,其中如何设计 CPS 的安全控制

器是尤为重要的研究问题.

目前,针对 CPS 的安全控制器生成主要采用形式化方法.一类方法基于可达集分析

[1,2]

或障碍函数生成

[3]

结合传统优化方法、数值计算等生成具有安全保障的系统控制器;另一类通过指定控制器函数模板或不变式模

板,将安全控制器生成问题编码为一阶逻辑公式,利用符号计算方法生成满足安全约束的控制器

[4]

.这两类方法

在理论研究层面已经解决了部分规模有限的 CPS 安全控制问题,但尚无法推广到一般实际问题中,核心瓶颈源

于两个方面:形式化方法依赖刻画 CPS 物理行为的精确数学模型,例如,通常需要给定微分方程组或者差分方程

组描述系统物理行为,然而在实际问题中,复杂 CPS 系统由于客观环境的不确定性等因素,获取其准确的数学模

型非常困难;再者,基于可达集计算、障碍函数生成或不变式生成的传统形式化方法计算成本较高,对于复杂

CPS 的安全性分析与验证,往往无法在有效时间内得到结果.这导致传统形式化方法在实际 CPS 安全控制器设

计中的应用较为有限.针对这个问题,有研究者提出从数据中挖掘系统的模型

[5]

.本文利用人工智能技术以数据

驱动的、不依赖严格数学模型的方式生成 CPS 的安全控制器,规避形式化方法对数学模型的依赖和高计算复

杂性.

随着人工智能产业的飞速发展,人工智能的理论与技术成果被认为非常有可能在控制领域得到集成,智能

控制将是人工智能及相关前沿技术的综合体现.例如[6]针对航天控制场景

,指出“航天控制系统具有飞行环境不

确定、故障模式不确定、外部干扰不确定、自身模型不确定、飞行任务不确定等特有属性”,“智能控制技术将

成为实现智能航天的必然选择”.与传统控制技术相比,智能控制能够应用于具有高度非线性、强不确定性的复

杂系统,能够处理多重优化目标,是一种有强大生命力的新型控制技术.但是智能控制缺少严格的安全性、稳定

性等性能保障,这是其在安全攸关CPS领域取得广泛应用的主要障碍之一.

本文研究安全强化学习智能控制方法并运用于安全攸关 CPS 的控制器生成,致力于保障系统的安全性质,

与此同时,能达到系统最优控制目标.本文围绕[7]中提出的一个典型 CPS 案例——工业油泵控制系统,开展安全

强化学习算法研究和智能控制应用研究.该工业油泵控制系统已在一系列工作中被作为基准案例广泛研究

[7-11]

,其系统行为具有高度非线性性,控制目标具有安全、鲁棒和最优等多重性,给控制器的生成尤其是基于形式

化方法的生成带来很大困难,因而利用该案例探索智能控制方法的应用潜能显得十分必要;另外该案例具有显

式的理论最优解

[9]

,可以作为智能算法的评判标准,能够为本文的对比研究提供极大便利.本文利用深度强化学

习方法,为工业油泵控制系统设计一个以安全性和最优性为目标的神经网络控制器.首先,利用约束马尔可夫决

策过程形式化了工业油泵系统的安全强化学习问题;随后搭建了油泵系统的仿真环境,设计了和环境交互过程

中获得的收益值和损耗值;然后搭建了用于控制油泵开关时间点的神经网络控制器,为满足油泵开关时间的固

有物理约束,对神经网络输出层的结构和激活函数进行了巧妙设计,使得其输出满足线性不等式约束;最后,通

of 24

免费下载

软件学报计算机技术

关注

评论