谷歌的DeepMind揭开了AlphaGo人工智能的面纱

【谷歌的DeepMind揭开了AlphaGo人工智能的面纱】
专注于推进人工智能研究的谷歌部门DeepMind今天发布了一个新版本的AlphaGo程序,它只通过玩自己来学习游戏 。
该系统被称为AlphaGoZero,通过学习其自我游戏的结果,使用一种称为强化学习的机器学习技术来工作 。随着零的不断训练,该系统开始学习先进的概念,在游戏中,自己去挑选某些有利的位置和序列 。
经过三天的训练,该系统能够击败AlphaGoLee,DeepMind的软件,去年击败了韩国顶级球员LeeSedol,100场比赛为零 。经过大约40天的训练-这意味着2900万场自我游戏-阿尔法戈零能够击败阿尔法戈大师(今年早些时候击败了世界冠军克杰)89场比赛到11场 。
结果表明,当涉及到不同技术的有效性时,在人工智能领域还有很多需要学习的东西 。阿尔法围棋大师是使用许多类似的方法,阿尔法围棋零是,但它开始训练人类数据,首先开始自我游戏 。
一个有趣的注意是,虽然AlphaGoZero在几周的训练中学习了几个关键概念,但该系统的学习方式不同于许多接近围棋游戏的人类玩家 。连续的“拉粉”石头,以一个楼梯一样的模式在棋盘上玩,是人类在练习游戏时学到的第一件事之一 。《自然》杂志发表的论文《深度心灵》(Deep Mind)指出,Zero在后来的训练中才理解这一概念 。
此外,AlphaGoZero比它的许多前辈更有效率 。阿尔法·戈·李需要使用几台机器和48台谷歌的张量处理单元机器学习加速器芯片 。系统的早期版本AlphaGo Fan需要176个GPU 。阿尔法围棋零,连同阿尔法围棋大师,每个只需要一个单一的机器与四个TPU 。

    推荐阅读