请选择 进入手机版 | 继续访问电脑版

弈客论坛

 找回密码
 立即注册
搜索
热搜: 弈客围棋
查看: 802|回复: 1

最新版AlphaZero问世:2小时攻克将棋,4小时攻克国象

[复制链接]

108

主题

109

帖子

1016

积分

超级版主

Rank: 8Rank: 8

积分
1016
发表于 2017-12-7 15:13:18 | 显示全部楼层 |阅读模式

本文首发于知乎专栏——技术备忘录,作者,Peng Bo,原标题《比AlphaGo Zero更强的AlphaZero来了!8小时解决一切棋类!》

读过AlphaGo Zero论文的同学,可能都惊讶于它的方法的简单。另一方面,深度神经网络,是否能适用于国际象棋这样的与围棋存在诸多差异的棋类?MCTS(蒙特卡洛树搜索)能比得上alpha-beta搜索吗?许多研究者都曾对此表示怀疑。

但今天AlphaZero来了(https://arxiv.org/pdf/1712.01815.pdf),它破除了一切怀疑,通过使用与AlphaGo Zero一模一样的方法(同样是MCTS+深度网络,实际还做了一些简化),它从零开始训练:
  • 4小时就打败了国际象棋的最强程序Stockfish!
  • 2小时就打败了日本将棋的最强程序Elmo!
  • 8小时就打败了与李世石对战的AlphaGo v18!

在训练后,它面对Stockfish取得100盘不败的恐怖战绩,而且比之前的AlphaGo Zero也更为强大(根据论文后面的表格,训练34小时的AlphaZero胜过训练72小时的AlphaGo Zero)。



这令人震惊,因为此前大家都认为Stockfish已趋于完美,它的代码中有无数人类精心构造的算法技巧。
然而现在Stockfish就像一位武术大师,碰上了用枪的AlphaZero,被一枪毙命。

在reddit的国象版面的讨论中(Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm • r/chess),大家纷纷表示AlphaZero已经不是机器的棋了,是神仙棋,非常优美,富有策略性,更能深刻地谋划(maneuver),完全是在调戏Stockfish。

喜欢国象的同学注意了:AlphaZero不喜欢西西里防御。

训练过程极其简单粗暴。超参数,网络架构都不需要调整。无脑上算力,就能解决一切问题。
Stockfish和Elmo,每秒种需要搜索高达几千万个局面。

AlphaZero每秒种仅需搜索几万个局面,就将他们碾压。深度网络真是狂拽炫酷。

当然,训练AlphaZero所需的计算资源也是海量的。这次Deepmind直接说了,需要5000个TPU v1作为生成自对弈棋谱。

不过,随着硬件的发展,这样的计算资源会越来越普及。未来的AI会有多强大,确实值得思考。

个人一直认为MCTS+深度网络是非常强的组合,因为MCTS可为深度网络补充逻辑性。我预测,这个组合未来会在更多场合显示威力,例如有可能真正实现自动写代码,自动数学证明。

为什么说编程和数学,因为这两个领域和下棋一样,都有明确的规则和目标,有可模拟的环境。

(在此之前,深度学习的调参党和架构党估计会先被干掉...... 目前的很多灌水论文,电脑以后自己都可以写出来)

也许在5到20年内,我们会看到《Mastering Programming and Mathematics by General Reinforcement Learning》。然后许多人都要自谋出路了......



作者,PENG Bo,禀临科技 http://withablink.com 联合创始人

【如需转载本文,请先与作者联系】

回复

使用道具 举报

3

主题

19

帖子

70

积分

注册会员

Rank: 2

积分
70
发表于 2018-2-11 15:34:42 | 显示全部楼层
还有中国象棋呢?斗兽棋呢??????
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

手机版|小黑屋|弈客论坛 ( 沪ICP备15003219号-1 )

GMT+8, 2018-8-16 07:06

Powered by Discuz! X3.3

© 2001-2017 Comsenz Inc.

快速回复 返回顶部 返回列表