谷歌DeepMind重新定义了它的AlphaGo AI


谷歌(google)旗下的DeepMind发表了一篇新论文,概述了团队如何利用创造了AlphaGo的机器学习系统,建立了一个处理国际象棋和围棋的新系统,并在每一场比赛中击败顶级程序 。这个名为AlphaZero的程序也击败了它的前身AlphaGo Zero 。
对于DeepMind来说,这是一个合乎逻辑的下一步行动 。国际象棋和围棋(起源于的一种类似于国际象棋的棋盘游戏)都是电脑程序的游戏,已经打败了人类顶级棋手 。AlphaZero击败了斯托克菲什和埃尔莫,前者在国际象棋中处于领先地位,后者是与shogi对弈的最佳程序 。
这个程序被训练成只玩它自己,通过一个被称为强化学习的过程,除了关于每个游戏规则的某些关键信息外,没有任何预先知识,比如每个棋子如何移动 。AlphaGo(包括AlphaGo Zero,它依赖于自我游戏强化学习来进行训练)是专门为围棋开发的,而AlphaZero的设计则要灵活得多 。
这种通用架构可以为开发未来的AI系统提供蓝图,既可以用来玩游戏,也可以用来解决其他有明确规则和目标的问题,比如设计药物 。
DeepMind训练了三个AlphaZero的独立实例,分别用于围棋、围棋和国际象棋 。国际象棋系统对自己下了4400万盘,而shogi系统下了2400万盘,围棋系统下了2100万盘 。
AlphaZero的统治地位并不确定 。围棋和DeepMind选择的另外两款游戏之间有一些关键的区别 。国际象棋和shogi都对不同棋子的移动方式有限制,而且棋盘也不像围棋那样是独立旋转的 。更重要的是,在shogi中捕获的棋子可以被对手放置在棋盘上 。
【谷歌DeepMind重新定义了它的AlphaGo AI】

    推荐阅读