暂无图片
暂无图片
暂无图片
暂无图片
暂无图片
深度强化学习综述:兼论计算机围棋的发展.pdf
88
17页
0次
2024-11-26
免费下载
33 6
2016 6
Control Theory & Applications
Vol. 33 No. 6
Jun. 2016
:
DOI: 10.7641/CTA.2016.60173
1
, 邵 坤
1
,
1
, 李 栋
1
,
1
,
1
(1. 中国研究 , 100190
2
, 周 彤
3
,
4
(2. 北京 , 100083; 3. 华大 , 100084;
4. 国家金委 , 北京 100085)
摘要: 深度强化学习将深度学习的感知能力和强化学习的决策能力相结合, 可以直接根据输入的图像进行控制,
是一种更接近人类思维式的人工智能方法. 自提出以, 深度强化学习理论和应用方面均得了显著的成.
(DeepMind)–AlphaGo, 20163
4:1的大比分战胜了世界围棋顶级选手李世石(Lee Sedol), 为人工智能历史上一个新里程碑. 为此, 本文综述深度
强化学习的发展历程, 兼论计算机围棋的历史, 分析算法特性, 探讨未来的发展趋势和应用前景, 期望能为控制理论
与应用新方向的发展提供有价值的参考.
关键词: 深度强化学习; 初弈号; 深度学习; 强化学习; 人工智能
中图分类号: TP273 文献标识码: A
Review of deep reinforcement learning and discussions on
the development of computer Go
ZHAO Dong-bin
, SHAO Kun, ZHU Yuan-heng, LI Dong, CHEN Ya-ran, WANG Hai-tao
(1. The State Key Laboratory of Managentment and Control for Complex Systems, Institute of Automation,
Chinese Academy of Sciences, Beijng 100190, China)
LIU De-rong
2
, ZHOU Tong
3
, WANG Cheng-hong
4
(2. College of Automation, University of Science and Technology Beijing, Beijing 100083, China;
3. Department of Automation, Tsinghua University, Beijing 100084, China;
4. Department of Information Sciences, National Natural Science Foundation of China, Beijing 100085, China)
Abstract: Deep reinforcement learning which incorporates both the advantages of the perception of deep learning and
the decision making of reinforcement learning is able to output control signal directly based on input images. This mech-
anism makes the artificial intelligence much close to human thinking modes. Deep reinforcement learning has achieved
remarkable success in terms of theory and application since it is proposed. ‘Chuyihao–AlphaGo’, a computer Go deve-
loped by Google DeepMind, based on deep reinforcement learning, beat the world’s top Go player Lee Sedol 4:1 in March
2016. This becomes a new milestone in artificial intelligence history. This paper surveys the development course of deep
reinforcement learning, reviews the history of computer Go concurrently, analyzes the algorithms features, and discusses
the research directions and application areas, in order to provide a valuable reference to the development of control theory
and applications in a new direction.
Key words: deep reinforcement learning; AlphaGo; deep learning; reinforcement learning; artificial intelligence
1 (Introduction)
谷歌公司的人工智能研究团队--深智(DeepMind),
两年布了项令目的究成: Atari
[1]
1[2]
. 这些
, (deep
稿: 20160329; : 20160621.
. E-mail: dongbin.zhao@ia.ac.cn; Tel.: +86 10-82544764.
: .
(61273136, 61573353, 61533017).
Supported by National Natural Science Foundation of China (61273136, 61573353, 61533017).
1
: 谷歌深智团队围棋, , .
, 机器”三大特, , .
702 33
learning, DL)(reinforce-
ment learning, RL) 紧密结合在一, 成深度强化学
(deep reinforcement learning, DRL).
架如图1所示. 这些算法的卓越性能远超出人们的想
, .
1 度强学习
[3]
Fig. 1 The framework of deep reinforcement learning
[3]
Nature使深度
. 2015 1
[1]
Q(deep Q-network, DQN), Atari
视频游戏上取得了突破性的成果. 深度Q网络模拟人
类玩家进行游戏的过程, 直接将游戏画面作为信息
, 游戏得分作为学习的强化信. 研究人员对训练
收敛后的法进行测, 发现49个视频游戏中
得分均超过人类的高级玩家. 在此基础上, 深智团队
20161
[2]
. 该算
(Monte Carlo tree search, MCTS), 极大减少
索过程的计算量, 提升了对棋局估计的准确度. 初弈
棋冠军樊, 5:0
. 20163, 当今界顶棋手业九段李
(Lee Sedol)了举目的, 4:1获得
胜利. 这也志着深度强化学习为一种全新的
学习算法, 已经能够在复杂的棋类博弈游戏中达到
.
, 入研度强习方, 动人
智能方法的发, 其在各个领域中的应用都有非
重要的意. 文将从深度强化学习技术和计算机
棋的发展历程两方面展开综述. 主要结构如下: 首先
介绍了深度强化学中的关键技术; 化学习和
学习; 然后对深度化学习发展历程和主要方法进行
介绍; 接着绍了机围史与,
初弈号的原理及其缺点; 后分析了深度强化
; .
2 (Reinforcement learning)
强化学习是受生物能够效适应环的启,
以试错的机制与环境进行交, 通过最大化累积奖
.
化学系统4基本分组: 状态s, a,
P
a
s,s
r. 策略π : S A
义为状态空间到动作空的映. 能体在当前状
s下根据策略π来选择动作a, 执行该动作并以概
P
a
s,s
转移到下一状态s
, 同时接收到环境反馈回来的
奖赏r. 强化学习的目标是通过调整策略来最大化
积奖. 通常使用值函数估计某个策略π的优劣程度.
假设初始状态s
0
= s, 则关于π状态函数
V
π
(s) =
t=0
γ
t
r(s
t
, a
t
)|s
0
= s, a
t
= π(s
t
),
(1)
γ (0, 1).
, ,
π
= arg max
π
V
π
(s).
(2)
,
Q
π
(s
t
, a
t
) = r(s
t
, a
t
) + γV
π
(s
t+1
),
(3)
π
= arg max
aA
Q
π
(s, a ).
(4)
. 1992 ,
Tesauro等成功使用强化学习使西洋双陆棋达到了大
级的
[4]
; Sutton撰写1本系性介强化
[5]
; Kearns1
以用少量的经验得到近似最优解
[6]
; 2006 Kocsis
提出的置信上限树算法革命性地推动了强化学习在
,
[7]
;
2015 , Littman Nature
[8]
. 1总结了强化学习发展历程中的重要事件.
Q
SARSA 学习、TD 学习、策略梯度和自适应动态规
.
1 强化学习
Table 1 Timeline of reinforcement learning research events
1956 Bellman
[9]
1977 Werbos
[10]
1988 SuttonTD
[5]
1992 WatkinsQ
[11]
1994 RummerySARSA
[12]
1996 Bertsekas
[13]
1999 Thrun
[14]
2006 Kocsis
[7]
2009 Lewis提出控制
[15]
2014 Silver
[16]
2.1 (Monte Carlo method)
蒙特
[14, 17]
是一计理
导的化学习方. 在强化学习中应用可以追溯
1968 , Michie
[18]
. 此后, Barto讨论蒙特罗方在策评估
of 17
免费下载
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文档的来源(墨天轮),文档链接,文档作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论

关注
最新上传
暂无内容,敬请期待...
下载排行榜
Top250 周榜 月榜