AlphaGo自学成才_四川时代专修学院

　　人工智能的最大挑战是研发一种能从零开始、以超人类的水平学习复杂概念的算法。为了打败人类围棋世界冠军，科学家在训练上一款AlphaGo时，同时用到了监督式学习（基于上百万种人类专业选手的下棋步骤）和基于自我对弈的强化学习。那款AlphaGo的训练过程长达几个月，用到多台机器和48个TPU（神经网络训练所需的专业芯片）。

　　新研究中，英国DeepMind公司的David Silver、Julian Schrittwieser和同事介绍了AlphaGo Zero，它的学习从零开始，且单纯基于与自己的对弈。人类的输入仅限于棋盘和棋子，没有任何人类数据。AlphaGo Zero仅用到一张神经网络，这张网络经过训练，专门预测程序自身的棋步和棋局的赢家，在每次自我对弈中进步。新程序只使用一台机器和4个TPU。

　　结果显示，通过几天的训练——包括近500万局自我对弈，AlphaGo Zero便能够超越人类并打败所有之前的AlphaGo版本。随着程序训练的进行，它独立发现了人类用几千年才总结出来的围棋规则，还建立了新的战略，为这个古老的游戏带来新见解。

上一篇：东南亚电商Shopee母公司于纽交所上市
下一篇：【第三届微商春晚】微一案张小飞：打造一家无法复制的公司

我要留言

友情连接：

Copyright 2011 www.sctimesedu.com.cn All Rights Reserve
成都高升桥东路（西藏自治区教育厅驻成都市办事处内）　邮编：610000
电话：028-85096458，85052458 移动座机:13438079236 　传真：028-85056498
蜀ICP备09022937号