要聞

新版阿爾法圍棋橫空出世：自學(xué)3天，100:0碾壓李世石版“舊狗”

2017-10-19 18:46:53

美國當(dāng)?shù)貢r間10月18日，谷歌人工智能DeepMind團(tuán)隊在《Nature》上發(fā)表論文，宣布新版的AlphaGo Zero計算機(jī)程序可以突破突破人類知識的局限，迅速實(shí)現(xiàn)自我學(xué)習(xí)。新版阿爾法狗從零開始自學(xué)圍棋，僅用3天時間，就以100比0的成績擊敗了舊版的AlphaGo，這是人類人工智能史的重大突破。

每經(jīng)記者蔡鼎每經(jīng)實(shí)習(xí)編輯郭鑫

人工智能程序AlphaGo在先后擊敗世界圍棋冠軍李世石和柯潔之后，宣布退出“棋壇”。

如今，谷歌的深度學(xué)習(xí)團(tuán)隊又宣布了一個重磅消息：新版AlphaGo可以徹底擺脫人類的知識。當(dāng)?shù)貢r間10月18日，谷歌人工智能團(tuán)隊DeepMind團(tuán)隊在著名學(xué)術(shù)期刊《自然》上發(fā)表論文，宣布新版AlphaGo——AlphaGo Zero可以在沒有人類指導(dǎo)的情況下學(xué)習(xí)，實(shí)現(xiàn)無師自通！

據(jù)《每日經(jīng)濟(jì)新聞》了解，新版本AlphaGo從零開始自學(xué)圍棋，僅用3天時間，“阿爾法圍棋－零”就以100比0的成績打敗了此前戰(zhàn)勝李世石的舊版AlphaGo（舊版AlphaGo在擊敗李世石40天后，又戰(zhàn)勝了世界排名第一的柯潔）。

新AlphaGo Zero完虐舊版“阿爾法狗”

當(dāng)?shù)貢r間10月18日，谷歌人工智能團(tuán)隊DeepMind團(tuán)隊在著名學(xué)術(shù)期刊《自然》上發(fā)表論文表示，在輸入棋盤和棋子信息后，AlphaGo Zero通過與自己對弈490萬次學(xué)會了如何下出最好的圍棋。

經(jīng)過3天的訓(xùn)練，AlphaGo Zero就以100：0的比分贏下了李世石版AlphaGo，并且只用了1臺機(jī)器和4個TPU（谷歌專為加速深層神經(jīng)網(wǎng)絡(luò)運(yùn)算能力而研發(fā)的芯片）。比較而言，李世石版AlphaGo則用了48個TPU。AlphaGo Zero除了獨(dú)立地學(xué)會了人類花費(fèi)數(shù)千年時間發(fā)現(xiàn)的圍棋規(guī)則外，還自行學(xué)會了非常有趣的圍棋策略，并且許多走法都“極具創(chuàng)造性”。

那么AlphaGo Zero是如何實(shí)現(xiàn)這種飛躍的？《每日經(jīng)濟(jì)新聞》記者注意到，AlphaGo Zero采用的是人工神經(jīng)網(wǎng)絡(luò)。這種人工智能技術(shù)可以計算出對手下一步走棋的可能性，并且估算出下棋選手贏的概率。根據(jù)計算，AlphaGo Zero每一步都會選擇最大概率贏的走法。整個訓(xùn)練過程中，不需要人類參與，全程是AlphaGo Zero自我學(xué)習(xí)，自我對弈。在訓(xùn)練過程中，AlphaGo Zero每下一步需要思考的時間是0.4秒。通過對圍棋游戲的模擬和訓(xùn)練，神經(jīng)網(wǎng)絡(luò)會變得越來越好。值得一提的是，AlphaGo Zero相比之前的版本，僅使用了單一的神經(jīng)網(wǎng)絡(luò)。

DeepMind創(chuàng)始人：希望能應(yīng)用到其他結(jié)構(gòu)性問題上

谷歌深度學(xué)習(xí)聯(lián)合創(chuàng)始人兼CEO德米斯·哈比斯（Demis Hassabis）表示，AlphaGo Zero這個項(xiàng)目之所以如此強(qiáng)大，是因?yàn)樗?ldquo;不再受限于人類知識的局限”。哈比斯還相信，如果將這個項(xiàng)目應(yīng)用到治療像老年癡呆癥這樣重大的健康問題上的話，那么在幾周內(nèi)，就能找到治愈人類需要花費(fèi)幾百年時間才能找到的療法。

“最終，我們希望利用這種算法突破，來幫助解決各種緊迫的現(xiàn)實(shí)問題，”哈比斯表示。“如果類似的技術(shù)可以應(yīng)用到其他結(jié)構(gòu)性問題上，例如蛋白質(zhì)折疊、減少能源消耗或?qū)ふ腋锩孕虏牧希敲慈〉玫耐黄凭途哂型苿尤祟惱斫獾臐摿Γξ覀兊纳町a(chǎn)生積極影響。”

其實(shí)，谷歌的深度學(xué)習(xí)團(tuán)隊已經(jīng)開始使用AlphaGo Zero來研究蛋白質(zhì)折疊，并承諾稱將很快發(fā)表新的研究發(fā)現(xiàn)。錯誤折疊的蛋白質(zhì)曾導(dǎo)致了包括老年癡呆癥、帕金森病和囊性纖維化等許多毀滅性的疾病。

《每日經(jīng)濟(jì)新聞》記者注意到，近年來，越來越多的科技公司先后進(jìn)入健康領(lǐng)域。去年，微軟宣布計劃在10年內(nèi)攻克癌癥。谷歌的秘密部門Calico也在調(diào)查延長人類壽命甚至停止衰老的方法。

AlphaGo Zero重大突破：“白板理論”

《電訊報》指出，最新版的AlphaGo Zero最重大的突破在于實(shí)現(xiàn)了“白板理論”。在這個白板式的學(xué)習(xí)過程中，程序成了自己的老師，通過與自己下圍棋（或其他游戲）取得不斷的提高，這個過程中不需要人類的知識、數(shù)據(jù)或任何其他形式的干預(yù)。

AlphaGo的首席研究員戴夫·西爾弗（Dave Silver）博士指出:“如果一個程序能實(shí)現(xiàn)‘白板學(xué)習(xí)’,那么這個程序就有一個代理,這個所謂代理也可以被移植到任何其他的領(lǐng)域。意思就是說，Alphago Zero可以從圍棋中‘解放’出來，并致力于那種可以應(yīng)用到其他任何地方的算法。”

“對于我們來說，AlphaGo不是要去在各種領(lǐng)域中打敗人類，而是要去發(fā)現(xiàn)科學(xué)的意義，以及讓一個能無師自通的程序去進(jìn)行自我學(xué)習(xí)。”西爾弗博士補(bǔ)充道。“在很短的時間內(nèi)，Alphago Zero已經(jīng)理解了人類經(jīng)過數(shù)千年的積累、分析而總結(jié)的圍棋理論。除此之外，Alphago Zero還深入分析圍棋的走法，并自行算出了更多具有創(chuàng)造性的走法。”

責(zé)編郭鑫

特別提醒：如果我們使用了您的圖片，請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站，可聯(lián)系我們要求撤下您的作品。

人工智能阿爾法狗新版阿爾法狗 AlphaGo-Zero

上一篇文章

國產(chǎn)客機(jī)隊伍又壯大！第三架ARJ21飛機(jī)交付

返回每經(jīng)網(wǎng)首頁

下一篇文章

商魂激蕩·面孔 | 30多年黨齡的老黨員，把天道酬勤寫進(jìn)企業(yè)文化里

熱文精選