蛇蛇大作戰(zhàn)電腦版攻略(蛇蛇大作戰(zhàn)游戲下載) 什么是啞口套和窗套(什么是啞口) WIN10電流麥解決方法(win10電腦電流麥怎么解決方法) 平時(shí)多吃什么食物補(bǔ)腎效果最好(平時(shí)多吃什么食物補(bǔ)腎效果最好女性) 哈倫褲適合什么年齡穿(哈倫褲適合什么人穿) 魔獸世界前夕稀有精英位置一覽 看完就知道了(魔獸世界9.0前夕稀有精英位置與掉落) 如何實(shí)現(xiàn)創(chuàng)業(yè)成功(如何實(shí)現(xiàn)創(chuàng)業(yè)成功發(fā)展) QQ空間如何添加大圖模塊(qq空間怎么添加圖片模塊) 夢(mèng)幻西游挖礦賺錢(挖礦賺錢) 剖腹產(chǎn)的好處(剖腹產(chǎn)的好處有哪些) 如圖已知ab為圓o的直徑弦cd⊥ab垂足為h(如圖 已知AB是圓O的直徑 弦CD垂直AB 垂足為H) 深圳上下沙租房攻略(深圳下沙哪里租房便宜) 被2345和hao123主頁(yè)篡改修復(fù)方法 2015(2345是怎樣篡改主頁(yè)的以及如何徹底刪除) nba歷史得分榜百度一下(nba歷史得分榜百度百科) 如何防霧霾 什么口罩防霧霾效果好(什么口罩可以防霾) 制作手工的材料有哪些(制作手工的材料有哪些簡(jiǎn)單) 天使等級(jí) 北京商標(biāo)注冊(cè)流程圖(北京商標(biāo)注冊(cè)流程圖解析) Galaxy S4 發(fā)布 全面解析新旗艦 圖(galaxy s4 上市時(shí)間) 土大黃根主要治什么病(土大黃與大黃的區(qū)別) vivo手機(jī)怎么定位(vivo手機(jī)怎么定位查找) dnf更新失敗怎么辦 安裝文件寫入失敗怎么辦(為什么dnf更新寫入失敗) 隔玻璃曬太陽(yáng)能起作用(隔著玻璃曬太陽(yáng)能補(bǔ)鈣) steam國(guó)服怎么玩apex(steam國(guó)服怎么玩最終幻想14) 納雍縣是哪個(gè)市 蜂蜜可以放冰箱嗎(蜂蜜可以放冰箱嗎可以放多久) 電腦怎么連熱點(diǎn)(聯(lián)想電腦怎么連熱點(diǎn)) 石器時(shí)代寵物攻略(石器時(shí)代寵物大全) 經(jīng)濟(jì)管理出版社地址(經(jīng)濟(jì)管理出版社) 芒果tv怎么看湖南衛(wèi)視(芒果tv怎么看湖南衛(wèi)視回放) iPhone13如何在微店購(gòu)物?(iphone13直營(yíng)店可以直接買到嗎) 淘寶海外版叫什么(淘寶海外版) 幽門螺桿菌抗體(幽門螺桿菌抗體偏高是怎么回事) iOS7.1.1固件下載(ios7.0.4固件下載) 紙的來(lái)源視頻(紙的來(lái)源) QQ農(nóng)場(chǎng)怎么出售種子精華(QQ農(nóng)場(chǎng)種子精華) 玉兔出宮怎么畫(玉兔出宮怎么畫簡(jiǎn)單) 光電信息科學(xué)與工程是干什么工作(光電信息科學(xué)與工程是干什么的) 卡通簽名頭像怎么制作(卡通簽名頭像怎么制作軟件) 比賽規(guī)則有哪些(比賽規(guī)則) 黑夾子的小妙用(黑夾子的小妙用有哪些) dear sir or madam要大寫嗎(dear sir or madam) 保衛(wèi)蘿卜——天際2攻略(保衛(wèi)蘿卜天際2關(guān)攻略) XP輸入法狀態(tài)條不見(jiàn)了怎么辦(xp輸入法不顯示) 語(yǔ)言能力描述范文100字(語(yǔ)言能力描述) 電腦顯示器總是黑屏怎么辦(電腦顯示器總是黑屏怎么辦恢復(fù)) 銀屑病怎么治療最好呢(治療銀屑病有什么好辦法) 東非高原動(dòng)物大遷徙(東非高原) 茶葉怎樣利用微波進(jìn)行了快速殺青處理(茶葉怎樣利用微波進(jìn)行了快速殺青處理工藝) Java:將數(shù)組排序并使用二分法判斷數(shù)組元素(java對(duì)二維數(shù)組排序)
您的位置:首頁(yè) >行業(yè)觀察 >

DeepMind研究團(tuán)隊(duì)發(fā)布了通用算法AlphaZero和測(cè)試數(shù)據(jù)

導(dǎo)讀 12月7日,谷歌人工智能實(shí)驗(yàn)室的DeepMind研究團(tuán)隊(duì)在《科學(xué)》雜志上發(fā)表了一篇封面論文,并公布了通用算法AlphaZero和測(cè)試數(shù)據(jù)?!犊茖W(xué)》雜志

12月7日,谷歌人工智能實(shí)驗(yàn)室的DeepMind研究團(tuán)隊(duì)在《科學(xué)》雜志上發(fā)表了一篇封面論文,并公布了通用算法AlphaZero和測(cè)試數(shù)據(jù)。《科學(xué)》雜志評(píng)論說(shuō),多個(gè)復(fù)雜問(wèn)題可以通過(guò)單一算法解決,這是創(chuàng)建通用機(jī)器學(xué)習(xí)系統(tǒng)和解決實(shí)際問(wèn)題的重要一步。本文作者包括核心研發(fā)人員大衛(wèi)西爾弗;AlphaGo的d人事,以及DeepMind的創(chuàng)始人戴密斯哈薩比斯。

AlphaGo最早被人們熟知是2016年與圍棋世界冠軍李世石的人機(jī)對(duì)戰(zhàn),最終以4-1的總比分獲勝。事實(shí)上,早在2016年1月,谷歌就在國(guó)際學(xué)術(shù)期刊《自然》上發(fā)表了一篇封面文章,介紹了AlphaGo在沒(méi)有任何讓步的情況下,以533.36萬(wàn)英鎊的價(jià)格戰(zhàn)勝了歐洲冠軍和專業(yè)圍棋第二階段的魏凡。

2017年10月18日,DeepMind團(tuán)隊(duì)宣布了Alpha Go的最強(qiáng)版本,代號(hào)為AlphaGo Zero。當(dāng)時(shí)DeepMind說(shuō)象棋AI的算法主要基于復(fù)雜枚舉,需要人工評(píng)估。在過(guò)去的幾十年里,人們已經(jīng)把這種方法做到了極致。AlphaGo Zero在圍棋上的超人表現(xiàn),是通過(guò)和自己下棋練出來(lái)的。

現(xiàn)在DeepMind研究團(tuán)隊(duì)已經(jīng)將這種方法擴(kuò)展到了Alphaero的算法中。Alphaero花了長(zhǎng)達(dá)13天的時(shí)間“自學(xué)”,然后與國(guó)際象棋世界冠軍AI對(duì)質(zhì):

在國(guó)際象棋比賽中,阿爾法零在四個(gè)小時(shí)后首次擊敗了第九屆TCEC世界冠軍斯托克菲什。

在通用象棋中,兩小時(shí)后,AlphaZero擊敗了通用象棋聯(lián)賽的世界冠軍Elmo。

《圍棋》中,AlphaZero經(jīng)過(guò)30個(gè)小時(shí)的激戰(zhàn),擊敗了李世石的AlphaGo。

AlphaZero:一種算法采用所有三種象棋類型。

以前版本的AlphaGo從數(shù)千套訓(xùn)練開始,用人類玩家的棋譜來(lái)學(xué)習(xí)如何玩圍棋。當(dāng)你到達(dá)AlphaGo Zero時(shí),你跳過(guò)這一步,通過(guò)自我游戲來(lái)學(xué)習(xí)下棋,從零開始。該系統(tǒng)從一個(gè)對(duì)圍棋一無(wú)所知的神經(jīng)網(wǎng)絡(luò)開始,結(jié)合神經(jīng)網(wǎng)絡(luò)和強(qiáng)大的搜索算法,自己玩游戲。游戲過(guò)程中,神經(jīng)網(wǎng)絡(luò)不斷調(diào)整升級(jí),每一步都在預(yù)測(cè)輸家和最終贏家。

和AlphaGo Zero一樣,從隨機(jī)游戲開始,AlphaZero依靠深度神經(jīng)網(wǎng)絡(luò)、通用強(qiáng)化學(xué)習(xí)算法和蒙特卡洛樹搜索,通過(guò)自我游戲進(jìn)行強(qiáng)化學(xué)習(xí),除了游戲規(guī)則外,沒(méi)有任何知識(shí)背景。強(qiáng)化學(xué)習(xí)是一種通過(guò)反復(fù)試驗(yàn)的機(jī)器學(xué)習(xí)方法。

DeepMind在博客中介紹,一開始AlphaZero完全是在鬼混,但是隨著時(shí)間的推移,系統(tǒng)從輸贏的博弈中學(xué)習(xí),調(diào)整神經(jīng)網(wǎng)絡(luò)的參數(shù)等等,隨著每一輪,系統(tǒng)的性能提升了一點(diǎn),自我游戲的質(zhì)量也提升了一點(diǎn),神經(jīng)網(wǎng)絡(luò)變得越來(lái)越精準(zhǔn)。神經(jīng)網(wǎng)絡(luò)需要的訓(xùn)練量取決于游戲的風(fēng)格和復(fù)雜程度。實(shí)驗(yàn)結(jié)束后,AlphaZero花了9個(gè)小時(shí)掌握象棋,12個(gè)小時(shí)掌握通用象棋,13天掌握圍棋。

Azero繼承了AlphaGo Zero的算法設(shè)置和網(wǎng)絡(luò)架構(gòu),但兩者有很多不同之處。比如Go中很少出現(xiàn)平局,所以AlphaGo Zero在結(jié)果為“輸贏”的假設(shè)下,對(duì)獲勝概率進(jìn)行估計(jì)和優(yōu)化。AlphaZero還會(huì)考慮抽簽或其他潛在結(jié)果,并對(duì)結(jié)果進(jìn)行估計(jì)和優(yōu)化。

其次,圍棋的棋盤會(huì)旋轉(zhuǎn)反轉(zhuǎn),結(jié)果不會(huì)改變,所以AlphaGo Zero會(huì)通過(guò)生成8幅對(duì)稱圖像來(lái)增強(qiáng)訓(xùn)練數(shù)據(jù)。但是在國(guó)際象棋和一般象棋中,棋盤是不對(duì)稱的。因此,AlphaZero不會(huì)增強(qiáng)訓(xùn)練數(shù)據(jù),也不會(huì)在蒙特卡洛樹搜索過(guò)程中改變棋盤位置。

在AlphaGo Zero中,自我游戲是由之前所有迭代中最好的玩家生成的,自我游戲也是針對(duì)這個(gè)新玩家的。AlphaZero只繼承AlphaGo Zero的單一神經(jīng)網(wǎng)絡(luò),不斷更新,而不是等待迭代完成。自我博弈是利用這個(gè)神經(jīng)網(wǎng)絡(luò)的最新參數(shù)生成的,因此省略了評(píng)估步驟和選擇最佳玩家的過(guò)程。

此外,AlphaGo Zero通過(guò)貝葉斯優(yōu)化使用調(diào)整搜索的超參數(shù);在AlphaZero中,所有游戲都重復(fù)使用同一個(gè)超參數(shù),所以不需要針對(duì)特定的游戲進(jìn)行調(diào)整。唯一的例外是保證探索噪音和學(xué)習(xí)率。

研究團(tuán)隊(duì)展示了Alphaero蒙特卡羅樹在1000次、10000次之后的內(nèi)部搜索狀態(tài).直到100萬(wàn)次的模擬游戲,阿爾法羅玩白色,斯托克菲什玩黑色。每個(gè)樹形圖顯示了十個(gè)最常搜索的狀態(tài)。

標(biāo)簽:

免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請(qǐng)聯(lián)系刪除!

最新文章