DeepMind研究團(tuán)隊(duì)發(fā)布了通用算法AlphaZero和測(cè)試數(shù)據(jù)

2021-12-29 23:30:22 來源：用戶：

12月7日，谷歌人工智能實(shí)驗(yàn)室的DeepMind研究團(tuán)隊(duì)在《科學(xué)》雜志上發(fā)表了一篇封面論文，并公布了通用算法AlphaZero和測(cè)試數(shù)據(jù)?！犊茖W(xué)》雜志評(píng)論說，多個(gè)復(fù)雜問題可以通過單一算法解決，這是創(chuàng)建通用機(jī)器學(xué)習(xí)系統(tǒng)和解決實(shí)際問題的重要一步。本文作者包括核心研發(fā)人員大衛(wèi)西爾弗；AlphaGo的d人事，以及DeepMind的創(chuàng)始人戴密斯哈薩比斯。

AlphaGo最早被人們熟知是2016年與圍棋世界冠軍李世石的人機(jī)對(duì)戰(zhàn)，最終以4-1的總比分獲勝。事實(shí)上，早在2016年1月，谷歌就在國際學(xué)術(shù)期刊《自然》上發(fā)表了一篇封面文章，介紹了AlphaGo在沒有任何讓步的情況下，以533.36萬英鎊的價(jià)格戰(zhàn)勝了歐洲冠軍和專業(yè)圍棋第二階段的魏凡。

2017年10月18日，DeepMind團(tuán)隊(duì)宣布了Alpha Go的最強(qiáng)版本，代號(hào)為AlphaGo Zero。當(dāng)時(shí)DeepMind說象棋AI的算法主要基于復(fù)雜枚舉，需要人工評(píng)估。在過去的幾十年里，人們已經(jīng)把這種方法做到了極致。AlphaGo Zero在圍棋上的超人表現(xiàn)，是通過和自己下棋練出來的。

現(xiàn)在DeepMind研究團(tuán)隊(duì)已經(jīng)將這種方法擴(kuò)展到了Alphaero的算法中。Alphaero花了長(zhǎng)達(dá)13天的時(shí)間“自學(xué)”，然后與國際象棋世界冠軍AI對(duì)質(zhì)：

在國際象棋比賽中，阿爾法零在四個(gè)小時(shí)后首次擊敗了第九屆TCEC世界冠軍斯托克菲什。

在通用象棋中，兩小時(shí)后，AlphaZero擊敗了通用象棋聯(lián)賽的世界冠軍Elmo。

《圍棋》中，AlphaZero經(jīng)過30個(gè)小時(shí)的激戰(zhàn)，擊敗了李世石的AlphaGo。

AlphaZero:一種算法采用所有三種象棋類型。

以前版本的AlphaGo從數(shù)千套訓(xùn)練開始，用人類玩家的棋譜來學(xué)習(xí)如何玩圍棋。當(dāng)你到達(dá)AlphaGo Zero時(shí)，你跳過這一步，通過自我游戲來學(xué)習(xí)下棋，從零開始。該系統(tǒng)從一個(gè)對(duì)圍棋一無所知的神經(jīng)網(wǎng)絡(luò)開始，結(jié)合神經(jīng)網(wǎng)絡(luò)和強(qiáng)大的搜索算法，自己玩游戲。游戲過程中，神經(jīng)網(wǎng)絡(luò)不斷調(diào)整升級(jí)，每一步都在預(yù)測(cè)輸家和最終贏家。

和AlphaGo Zero一樣，從隨機(jī)游戲開始，AlphaZero依靠深度神經(jīng)網(wǎng)絡(luò)、通用強(qiáng)化學(xué)習(xí)算法和蒙特卡洛樹搜索，通過自我游戲進(jìn)行強(qiáng)化學(xué)習(xí)，除了游戲規(guī)則外，沒有任何知識(shí)背景。強(qiáng)化學(xué)習(xí)是一種通過反復(fù)試驗(yàn)的機(jī)器學(xué)習(xí)方法。

DeepMind在博客中介紹，一開始AlphaZero完全是在鬼混，但是隨著時(shí)間的推移，系統(tǒng)從輸贏的博弈中學(xué)習(xí)，調(diào)整神經(jīng)網(wǎng)絡(luò)的參數(shù)等等，隨著每一輪，系統(tǒng)的性能提升了一點(diǎn)，自我游戲的質(zhì)量也提升了一點(diǎn)，神經(jīng)網(wǎng)絡(luò)變得越來越精準(zhǔn)。神經(jīng)網(wǎng)絡(luò)需要的訓(xùn)練量取決于游戲的風(fēng)格和復(fù)雜程度。實(shí)驗(yàn)結(jié)束后，AlphaZero花了9個(gè)小時(shí)掌握象棋，12個(gè)小時(shí)掌握通用象棋，13天掌握圍棋。

Azero繼承了AlphaGo Zero的算法設(shè)置和網(wǎng)絡(luò)架構(gòu)，但兩者有很多不同之處。比如Go中很少出現(xiàn)平局，所以AlphaGo Zero在結(jié)果為“輸贏”的假設(shè)下，對(duì)獲勝概率進(jìn)行估計(jì)和優(yōu)化。AlphaZero還會(huì)考慮抽簽或其他潛在結(jié)果，并對(duì)結(jié)果進(jìn)行估計(jì)和優(yōu)化。

其次，圍棋的棋盤會(huì)旋轉(zhuǎn)反轉(zhuǎn)，結(jié)果不會(huì)改變，所以AlphaGo Zero會(huì)通過生成8幅對(duì)稱圖像來增強(qiáng)訓(xùn)練數(shù)據(jù)。但是在國際象棋和一般象棋中，棋盤是不對(duì)稱的。因此，AlphaZero不會(huì)增強(qiáng)訓(xùn)練數(shù)據(jù)，也不會(huì)在蒙特卡洛樹搜索過程中改變棋盤位置。

在AlphaGo Zero中，自我游戲是由之前所有迭代中最好的玩家生成的，自我游戲也是針對(duì)這個(gè)新玩家的。AlphaZero只繼承AlphaGo Zero的單一神經(jīng)網(wǎng)絡(luò)，不斷更新，而不是等待迭代完成。自我博弈是利用這個(gè)神經(jīng)網(wǎng)絡(luò)的最新參數(shù)生成的，因此省略了評(píng)估步驟和選擇最佳玩家的過程。

此外，AlphaGo Zero通過貝葉斯優(yōu)化使用調(diào)整搜索的超參數(shù)；在AlphaZero中，所有游戲都重復(fù)使用同一個(gè)超參數(shù)，所以不需要針對(duì)特定的游戲進(jìn)行調(diào)整。唯一的例外是保證探索噪音和學(xué)習(xí)率。

研究團(tuán)隊(duì)展示了Alphaero蒙特卡羅樹在1000次、10000次之后的內(nèi)部搜索狀態(tài).直到100萬次的模擬游戲，阿爾法羅玩白色，斯托克菲什玩黑色。每個(gè)樹形圖顯示了十個(gè)最常搜索的狀態(tài)。

　　免責(zé)聲明：本文由用戶上傳，與本網(wǎng)站立場(chǎng)無關(guān)。財(cái)經(jīng)信息僅供讀者參考，并不構(gòu)成投資建議。投資者據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)。如有侵權(quán)請(qǐng)聯(lián)系刪除！

相關(guān)閱讀