找回密码
 欢迎注册
查看: 12736|回复: 13

[分享] 计算机下围棋已经达到了击败职业围棋选手的水平

[复制链接]
发表于 2016-3-11 16:56:16 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?欢迎注册

×
谷歌的DeepMind团队研发出了一个下围棋的程序,叫做AlphaGo,这个程序去年以$10$战$8$胜的战绩击败了欧洲的围棋冠军樊麾。谷歌接下来又邀请了韩国的围棋冠军李世石与AlphaGo对战$5$局。目前已经进行了$2$局,AlphaGo以$2$比$0$的比分领先李世石。

AlphaGo首先搭建了一个可以进行深度学习的神经网络,然后录入大量的职业围棋选手的对局,用来训练这个神经网络。经过训练的神经网络可以以$57%$的正确率预测职业棋手在一个特定的局面下,他会把子落在哪里。于是这个神经网络就可以用来帮助AlphaGo找出若干个候选的落子点了。他们把这个网络称为“决策网络”。AlphaGo又以类似的方法搭建了另一个神经网络,这个神经网络可以用来评估在给定的局面下,哪方有优势。这个网络称为“价值网络”。

于是AlphaGo就可以对博弈产生的所有可能的局面进行排查了。在排查的过程中,AlphaGo只搜索“决策网络”找出的候选落子点,而不是将所有的落子点进行暴力穷举。经过一定深度的搜索,并借助“价值网络”的局势评估,AlphaGo就可以大致得出“决策网络”找出的每个候选落子点的好坏,从而选择最好的点落子。

最后,AlphaGo在云平台下使用了$1920$个CPU同时进行运算,以排查尽可能多的局面。因此AlphaGo的“棋艺”如此之高也不足为奇了。
毋因群疑而阻独见  毋任己意而废人言
毋私小惠而伤大体  毋借公论以快私情
发表于 2016-3-11 17:24:08 | 显示全部楼层
AlphaGo这个系统主要由几个部分组成:

1、走棋网络(Policy Network),给定当前局面,预测/采样下一步的走棋。
2、快速走子(Fast rollout),目标和1一样,但在适当牺牲走棋质量的条件下,速度要比1快1000倍。
3、估值网络(Value Network),给定当前局面,估计是白胜还是黑胜。
4、蒙特卡罗树搜索(Monte Carlo Tree Search,MCTS),把以上这三个部分连起来,形成一个完整的系统。

/////////////////////////////////////////////////////////////////////////

又据爆料,谷歌所属的Deepmind公司接下来会做这样一个实验:开发一个新的阿尔法,将不再学习人类棋谱,而是自我学习围棋!即不“喂”它任何人类的棋谱,从零开始,只让它在自我对弈的纯实战中学习提高。也就是说,新的阿尔法不学人类,完全“创造”自己的围棋下法。

如果在这种情况下与人类 PK,胜算几何?
毋因群疑而阻独见  毋任己意而废人言
毋私小惠而伤大体  毋借公论以快私情
发表于 2016-3-11 17:42:09 | 显示全部楼层
本帖最后由 dianyancao 于 2016-3-11 19:05 编辑

谷歌发表了关于AlphaGo的论文,训练卷积网络用于构建一棵博奕树,博奕树的每条边通过先验概率,选择一些价值大的候选节点进入搜索,累加叶子节点的价值,得到该边对应的局面的价值

决策时总是选择价值大的节点进入,使用到的博奕树的广度和深度是被截断的,广度对应每个回合的走法数,深度对应游戏进行的回合数,对于价值比较大的节点选择最优路径不截断走到底(游戏分出胜负)得到叶子节点的惩罚价值来改进该节点的局面价值的估计

一共用了三种网络,第一种有监督学习网络有两个,一个用于决策自己怎么走,另一个用于预测对方怎么走,第二种网络是一个增强学习网络,用于改进第一种网络的参数,第三种网络是价值网络用于预测游戏的输赢

卷积网络学习使用的批随机梯度上升(下降),第一种网络的初始训练使用的样本是专家级的人类走法,第二种网络通过随机生成棋局对战样本训练改进第一种网络的初始参数,第三种价值网络拟合第二种网络的输出用于估计被截断后的博奕树节点的价值

感觉这个框架和人类棋手走棋的方法很相似呢,欢迎指出错误,论文:
Mastering the game of Go with deep neural networks and tree search
毋因群疑而阻独见  毋任己意而废人言
毋私小惠而伤大体  毋借公论以快私情
发表于 2016-3-12 11:07:02 | 显示全部楼层
看起来原理就是遗传算法了。
玩十滴水游戏就是这种算法,可是不知道怎么编程。
毋因群疑而阻独见  毋任己意而废人言
毋私小惠而伤大体  毋借公论以快私情
发表于 2016-3-12 11:31:03 来自手机 | 显示全部楼层
我估计电脑会完胜,因为人会有失误并且计算判断会受限,但电脑不会。
毋因群疑而阻独见  毋任己意而废人言
毋私小惠而伤大体  毋借公论以快私情
发表于 2016-3-12 17:41:55 | 显示全部楼层
及时机器百战百胜也是人的胜利。机器没有喜怒哀乐,只是在一些已有的棋局基础上进行胜负概率的判断,即使下对了一步棋也不知道为什么要这么下。我感觉意义不大。

点评

不能这么说。围棋的突破绝对是人工智能上一个重大的突破。至于说意识问题,其实人类的意识到底是怎么回事很难说,而机器到了什么程度才会有自我意识,更加难以判断。  发表于 2016-3-12 20:22
毋因群疑而阻独见  毋任己意而废人言
毋私小惠而伤大体  毋借公论以快私情
发表于 2016-3-12 20:45:49 | 显示全部楼层
yyy_fcz 发表于 2016-3-12 17:41
及时机器百战百胜也是人的胜利。机器没有喜怒哀乐,只是在一些已有的棋局基础上进行胜负概率的判断,即使下 ...

这其实就是个基于大数据的判断选择程序,谈不上是真正的人工智能。

点评

机器计算速度快,存储棋局数据多,可以搜索自己各种下一步后,对方和己方连续多步后,哪种方式取胜的概率最大,然后来进行选择。这当然比以前的围棋程序强多了。据说,阿尔法狗能搜索到3步后的所有步的概率。  发表于 2016-3-13 09:13
已经不是基于大数据的判断了。据说第三盘中计算机还下出了惊世骇俗的下法,知道过去很多步后人类才看出作用,这已经不是利用过去大数据可以产生的了  发表于 2016-3-12 21:21
毋因群疑而阻独见  毋任己意而废人言
毋私小惠而伤大体  毋借公论以快私情
发表于 2016-3-13 19:03:44 来自手机 | 显示全部楼层
终于赢了一局!看来程序还得改进调试。

点评

机器的弱点被发现后就会一直输下去,除非设计者再进行修补改进。  发表于 2016-3-13 20:36
毋因群疑而阻独见  毋任己意而废人言
毋私小惠而伤大体  毋借公论以快私情
发表于 2016-3-15 22:41:59 | 显示全部楼层
开发一个新的阿尔法,将不再学习人类棋谱,而是自我学习围棋!即不“喂”它任何人类的棋谱,从零开始,只让它在自我对弈的纯实战中学习提高。也就是说,新的阿尔法不学人类,完全“创造”自己的围棋下法。
这个完全可以做到,只是刚开始学习的速度会非常慢。先学习终局盘面,都已经知道胜负了,终局学习没有问题,然后再学习接近终局的盘面,再逐步向前学习。最终可以搞定。
3F7FDA02072DB5981049553F8B872D00.png

点评

新的阿尔法已经在$2017$年开发出来了,打赢了所有的顶尖棋手,无人能与之匹敌。以后就看AI之间的对战了。  发表于 2018-10-12 22:45
毋因群疑而阻独见  毋任己意而废人言
毋私小惠而伤大体  毋借公论以快私情
您需要登录后才可以回帖 登录 | 欢迎注册

本版积分规则

小黑屋|手机版|数学研发网 ( 苏ICP备07505100号 )

GMT+8, 2024-12-22 01:11 , Processed in 0.027519 second(s), 20 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表