5 分钟

“左右互搏”的阿尔法狗，是如何成为跨界棋王的‪？‬ 每天懂点黑科技

- 科技

金庸大侠的武侠小说里面，老顽童周伯通被黄药师关在桃花岛上，一个人找不到对手，只有左右互搏，从而悟出了新的武功。
而现实生活中，闻名遐迩的AlphaZero，采用的也是这样的方法。
今天的这期节目，向大家介绍一下阿尔法狗“左右互搏”的科技原理。

DeepMind公司的这一系列研究，有三个主要的里程碑：
第一阶段，AlphaGo通过学习人类棋手的棋谱，以4:1战胜人类超一流棋手李世石
在这个阶段，AlphaGo的训练方法，叫做监督式学习(Supervised Learning)，简单理解，就是从人类职业围棋高手对弈的棋谱中进行学习，集百家之长，来对付一个对手。在特定局面之下，走哪一步的胜率更高，都是精确的数据。
然而，现有的棋谱毕竟是有限的，把天下九段高手的武功全部学完，水平到了十段，就变成独孤求败了，很难再有提升。
（值得一提的是，在人工智能的很多应用领域，一旦超越了人类，再想提升就会变得很难，其主要原因，都是缺乏用于学习的标注数据。）

因此，在第二阶段，AlphaGo采用了新的训练方法，叫做强化学习(Reinforced Learning)，自己与自己下棋，左右互搏，利用这一过程中产生的数据进行学习。
值得注意的是，用于训练的数据中，不包含任何人类高手的棋谱，零经验，正如它的名字AlphaGoZero。
那么问题来了，没有人类高手的棋谱作为训练数据，如何判断左右互搏中下出的棋，是好棋还是坏棋呢？
一盘棋最终的胜负当然是判断标准，但，左手赢了并不代表左手下的棋都是好棋，只能表明在这一盘总共的n步棋当中，有若干步棋，左手比右手下得好。
那么，我们能不能对这些相对好的下法有所保留，再通过左右互搏，迭代出更好的下法呢？答案是能。

强化学习的核心思路，就是建立一个评价反馈系统，让智能体以“试错”的方式进行学习，通过环境提供反馈，对好的行为予以鼓励，对坏的行为予以惩罚，久而久之，好的行为就会被保留下来。

凭借TPU的超级计算能力，采用左右互搏的方法，人类棋手不曾下过的棋也放在了训练数据中，因此AlphaGoZero以100:0战胜了前面的AlphaGo。

第三阶段，DeepMind团队把左右互搏的方法拓展到其他棋类，训练出新的AI。AlphaZero横跨围棋、国际象棋、将棋，通过8小时训练战胜AlphaGo，4小时训练战胜了可碾压当年“深蓝”的顶级国际象棋程序Stockfish，2小时训练战胜顶级将棋程序Elmo，成为了跨界棋王。
AlphaZero的训练，只需要知道这几类棋的规则，通过左右互搏产生数据，在棋类领域具备了一定的通用性，向通用人工智能迈出了一步。

总结一下今天的内容：
今天我们以AlphaGo的发展历程为主线，介绍了“监督式学习”与“强化学习”的概念。
监督式学习，是在师傅的监督下，学习什么是好的什么是坏的。
强化学习，是采用“试错”的方式学习，通过环境进行评估反馈，做的好时有奖励，做的不好时被批评。

当年，深蓝战胜国际象棋世界冠军卡斯帕罗夫；
去年，AlphaGo赢了围棋世界冠军李世石、柯洁；
今年，OpenAI 5又在DOTA2这样的多人实时战略游戏中，战胜了职业游戏高手。
在棋牌、电竞等领域，人工智能战胜人类，一次次引起了媒体的广泛关注。
而这一系列算法模型等研究成果，又可以在其他应用领域中，创造出更大的价值。

5 分钟