Alpha Zero是Deepmind继AlphaGo Zero(主要针对围棋推出的算法)之后推出的终极对弈杀器,在经过短短几个小时的训练就相继征服了国际象棋,日本将棋以及中国围棋。
那么Alpha Zero
Alpha Zero是Deepmind继AlphaGo Zero(主要针对围棋推出的算法)之后推出的终极对弈杀器,在经过短短几个小时的训练就相继征服了国际象棋,日本将棋以及中国围棋。
那么Alpha Zero为何会如此强大呢,这其中的关键就在于深度神经网络和蒙特卡洛搜索树的结合。其中深度神经网络的输入当前以及历史的棋盘布局,输出下一步的下棋位置的概率分布以及胜率。蒙特卡洛搜索树则是一种常用的搜索树,通过不断的推演棋盘之后的状态,从而下那些胜率高的位置。在蒙特卡洛搜索的过程中结合了深度神经网络对于当前棋盘的评估,使得蒙特卡洛搜索的质量更好。
整个训练过程就可以归结为两步:
1. 利用蒙特卡洛搜索树和深度神经网络的自我对弈(self-play)得到更好的下棋数据;
2. 用这些数据来训练神经网络,以提高其评估的质量。反复的运行上述过程,就可以不断提高Alpha Zero的下棋水平
在这里我们可以将Alpha Zero的训练过程比作人的学习过程。人在开始学习的时候,不知道该怎么下,就可能会胡乱的下棋。但是经过几轮的下棋之后,人就会讲之前的下棋经验累积起来,慢慢的开始了解到什么时候该下哪里以及我是快输了还是赢了。此外人在下棋的过程中,总会是推演之后的下棋状态,从而下的位置更好。然后随着下的盘数增加,人的经验就回越来越丰富,下棋的水平也越来越高。这其中人脑就是深度神经网络,能够存储过去的经验,而结合神经网络的蒙特卡洛搜索就是基于当前的经验和未来的推演来得到更好的棋局,神经网络的训练过程就是总结棋局成为经验。
但是Alpha Zero为什么能在那么短时间内就能去的如此之快的进步。这就在于其中使用了大量的TPU和CPU,使得Alpha Zero能在极短的时间内就能下很多盘棋,大大加快了学习的速度。