5 分钟

“左右互搏”的阿尔法狗,是如何成为跨界棋王的‪?‬ 每天懂点黑科技

    • 科技

金庸大侠的武侠小说里面,老顽童周伯通被黄药师关在桃花岛上,一个人找不到对手,只有左右互搏, 从而悟出了新的武功。
而现实生活中,闻名遐迩的AlphaZero,采用的也是这样的方法。
今天的这期节目,向大家介绍一下阿尔法狗“左右互搏”的科技原理。

DeepMind公司的这一系列研究,有三个主要的里程碑:
第一阶段,AlphaGo通过学习人类棋手的棋谱,以4:1战胜人类超一流棋手李世石
在这个阶段,AlphaGo的训练方法,叫做监督式学习(Supervised Learning),简单理解,就是从人类职业围棋高手对弈的棋谱中进行学习,集百家之长,来对付一个对手。在特定局面之下,走哪一步的胜率更高,都是精确的数据。
然而,现有的棋谱毕竟是有限的,把天下九段高手的武功全部学完,水平到了十段,就变成独孤求败了,很难再有提升。
(值得一提的是,在人工智能的很多应用领域,一旦超越了人类,再想提升就会变得很难,其主要原因,都是缺乏用于学习的标注数据。)


因此,在第二阶段,AlphaGo采用了新的训练方法,叫做强化学习(Reinforced Learning),自己与自己下棋,左右互搏,利用这一过程中产生的数据进行学习。
值得注意的是,用于训练的数据中,不包含任何人类高手的棋谱,零经验,正如它的名字AlphaGoZero。
那么问题来了,没有人类高手的棋谱作为训练数据,如何判断左右互搏中下出的棋,是好棋还是坏棋呢?
一盘棋最终的胜负当然是判断标准,但,左手赢了并不代表左手下的棋都是好棋,只能表明在这一盘总共的n步棋当中,有若干步棋,左手比右手下得好。
那么,我们能不能对这些相对好的下法有所保留,再通过左右互搏,迭代出更好的下法呢?答案是能。

强化学习的核心思路,就是建立一个评价反馈系统,让智能体以“试错”的方式进行学习,通过环境提供反馈,对好的行为予以鼓励,对坏的行为予以惩罚,久而久之,好的行为就会被保留下来。

凭借TPU的超级计算能力,采用左右互搏的方法,人类棋手不曾下过的棋也放在了训练数据中,因此AlphaGoZero以100:0战胜了前面的AlphaGo。


第三阶段,DeepMind团队把左右互搏的方法拓展到其他棋类,训练出新的AI。AlphaZero横跨围棋、国际象棋、将棋,通过8小时训练战胜AlphaGo,4小时训练战胜了可碾压当年“深蓝”的顶级国际象棋程序Stockfish,2小时训练战胜顶级将棋程序Elmo,成为了跨界棋王。
AlphaZero的训练,只需要知道这几类棋的规则,通过左右互搏产生数据,在棋类领域具备了一定的通用性,向通用人工智能迈出了一步。

总结一下今天的内容:
今天我们以AlphaGo的发展历程为主线,介绍了“监督式学习”与“强化学习”的概念。
监督式学习,是在师傅的监督下,学习什么是好的什么是坏的。
强化学习,是采用“试错”的方式学习,通过环境进行评估反馈,做的好时有奖励,做的不好时被批评。

当年,深蓝战胜国际象棋世界冠军卡斯帕罗夫;
去年,AlphaGo赢了围棋世界冠军李世石、柯洁;
今年,OpenAI 5又在DOTA2这样的多人实时战略游戏中,战胜了职业游戏高手。
在棋牌、电竞等领域,人工智能战胜人类,一次次引起了媒体的广泛关注。
而这一系列算法模型等研究成果,又可以在其他应用领域中,创造出更大的价值。

金庸大侠的武侠小说里面,老顽童周伯通被黄药师关在桃花岛上,一个人找不到对手,只有左右互搏, 从而悟出了新的武功。
而现实生活中,闻名遐迩的AlphaZero,采用的也是这样的方法。
今天的这期节目,向大家介绍一下阿尔法狗“左右互搏”的科技原理。

DeepMind公司的这一系列研究,有三个主要的里程碑:
第一阶段,AlphaGo通过学习人类棋手的棋谱,以4:1战胜人类超一流棋手李世石
在这个阶段,AlphaGo的训练方法,叫做监督式学习(Supervised Learning),简单理解,就是从人类职业围棋高手对弈的棋谱中进行学习,集百家之长,来对付一个对手。在特定局面之下,走哪一步的胜率更高,都是精确的数据。
然而,现有的棋谱毕竟是有限的,把天下九段高手的武功全部学完,水平到了十段,就变成独孤求败了,很难再有提升。
(值得一提的是,在人工智能的很多应用领域,一旦超越了人类,再想提升就会变得很难,其主要原因,都是缺乏用于学习的标注数据。)


因此,在第二阶段,AlphaGo采用了新的训练方法,叫做强化学习(Reinforced Learning),自己与自己下棋,左右互搏,利用这一过程中产生的数据进行学习。
值得注意的是,用于训练的数据中,不包含任何人类高手的棋谱,零经验,正如它的名字AlphaGoZero。
那么问题来了,没有人类高手的棋谱作为训练数据,如何判断左右互搏中下出的棋,是好棋还是坏棋呢?
一盘棋最终的胜负当然是判断标准,但,左手赢了并不代表左手下的棋都是好棋,只能表明在这一盘总共的n步棋当中,有若干步棋,左手比右手下得好。
那么,我们能不能对这些相对好的下法有所保留,再通过左右互搏,迭代出更好的下法呢?答案是能。

强化学习的核心思路,就是建立一个评价反馈系统,让智能体以“试错”的方式进行学习,通过环境提供反馈,对好的行为予以鼓励,对坏的行为予以惩罚,久而久之,好的行为就会被保留下来。

凭借TPU的超级计算能力,采用左右互搏的方法,人类棋手不曾下过的棋也放在了训练数据中,因此AlphaGoZero以100:0战胜了前面的AlphaGo。


第三阶段,DeepMind团队把左右互搏的方法拓展到其他棋类,训练出新的AI。AlphaZero横跨围棋、国际象棋、将棋,通过8小时训练战胜AlphaGo,4小时训练战胜了可碾压当年“深蓝”的顶级国际象棋程序Stockfish,2小时训练战胜顶级将棋程序Elmo,成为了跨界棋王。
AlphaZero的训练,只需要知道这几类棋的规则,通过左右互搏产生数据,在棋类领域具备了一定的通用性,向通用人工智能迈出了一步。

总结一下今天的内容:
今天我们以AlphaGo的发展历程为主线,介绍了“监督式学习”与“强化学习”的概念。
监督式学习,是在师傅的监督下,学习什么是好的什么是坏的。
强化学习,是采用“试错”的方式学习,通过环境进行评估反馈,做的好时有奖励,做的不好时被批评。

当年,深蓝战胜国际象棋世界冠军卡斯帕罗夫;
去年,AlphaGo赢了围棋世界冠军李世石、柯洁;
今年,OpenAI 5又在DOTA2这样的多人实时战略游戏中,战胜了职业游戏高手。
在棋牌、电竞等领域,人工智能战胜人类,一次次引起了媒体的广泛关注。
而这一系列算法模型等研究成果,又可以在其他应用领域中,创造出更大的价值。

5 分钟