據(jù)“深層思維”公司介紹,自去年12月以來,該公司開發(fā)的“阿爾法星”人工智能程序與高水平人類職業(yè)選手先后舉行了11場比賽。在這一系列“人機大戰(zhàn)”中,人工智能程序最終以10比1擊敗人類選手。只有在1月24日舉行的現(xiàn)場比賽中,“阿爾法星”由于游戲視角受限,人類選手才勉強贏下一場。
這次的演示也是 DeepMind 的星際爭霸 2 AI AlphaStar 的首次公開亮相。除了此前比賽錄像的展示外,AlphaStar 還和 MaNa 現(xiàn)場來了一局,不過,這局AlphaStar 輸給了人類選手 MaNa 。
MaNa 正在聚精會神比賽
DeepMind 在演示中介紹,雙方的比賽固定在 Catalyst LE 地圖,采用 4.6.2 游戲版本,而且只能進行神族內(nèi)戰(zhàn),雙方將進行 5 場比賽。首先接受邀請的是 Liquid 戰(zhàn)隊的蟲族選手 TLO,目前世界排名 68。
“深層思維”公司聯(lián)合研發(fā)負責(zé)人戴維·西爾弗在比賽后指出:“盡管后續(xù)還有很多工作要做,但是我希望未來人們在回望今天時,會把這一比賽結(jié)果當(dāng)成人工智能系統(tǒng)的能力又向前邁了一步的表現(xiàn)。”
據(jù)介紹,與圍棋棋盤上所有棋子都對雙方可見不同,此類游戲中有“戰(zhàn)爭迷霧”,一方需要猜測和偵察對方的行動,屬于“不完美信息博弈”,并且要求人工智能必須實時做出反應(yīng),這對人工智能的要求更高。
“深層思維”公司表示,在“阿爾法星”之前,還沒有任何人工智能系統(tǒng)能夠在《星際爭霸2》中能與人類職業(yè)選手的技巧比擬。而“阿爾法星”能夠在這場“人機大戰(zhàn)”中大比分勝出的一個重要基礎(chǔ),就是它使用了深度神經(jīng)網(wǎng)絡(luò),研究人員通過監(jiān)督學(xué)習(xí)和強化學(xué)習(xí)的方式,直接利用游戲的原始數(shù)據(jù)來訓(xùn)練,以模仿學(xué)習(xí)的思路,讓模型快速學(xué)到高水平人類玩家在游戲中使用的策略和操作。
此外,《星際爭霸2》等游戲中有一個“手速”的概念,用APM(每分鐘操作指令數(shù))來衡量。在基準(zhǔn)測試中,“阿爾法星”每分鐘能夠執(zhí)行約280個操作指令,雖然遠低于人類職業(yè)選手,但是其動作更精確,也有助于在比賽中取得勝利。
下贏圍棋、打贏電腦游戲,這都能給人工智能的發(fā)展帶來什么呢?“深層思維”的研究團隊認為,訓(xùn)練“阿爾法星”的先進方法以及算法的先進架構(gòu)未來都會有助研究人員積累更多經(jīng)驗,最終設(shè)計出能夠應(yīng)對現(xiàn)實生活中不少復(fù)雜問題的人工智能程序,比如天氣預(yù)測、氣候模型計算以及語言理解等。
編輯:沈湫莎
策 栗子 夏乙 發(fā)自 凹非寺
量子位 & 騰訊科技 聯(lián)合出品
5分36秒的戰(zhàn)斗后,LiquidMaNa打出:GG。
DeepMind開發(fā)的全新AI程序AlphaStar,在今天凌晨的《星際爭霸2》人機大戰(zhàn)直播節(jié)目中,輕松戰(zhàn)勝2018 WCS Circuit排名13、神族最強10人之一的MaNa。
實際上,AlphaStar以10-1的戰(zhàn)績,全面擊潰了人類職業(yè)高手。
戰(zhàn)敗的不止MaNa,還有另一位高手TLO。
人工智能在《星際爭霸2》上的進步速度,遠遠超過了此前外界的預(yù)期。畢竟與下圍棋這件事相比,星際2要難得多。
在圍棋世界,動作空間只有361種,而星際2大約是1026。
與圍棋不同,星際玩家面對的是不完美信息博弈。“戰(zhàn)爭迷霧”意味著玩家的規(guī)劃、決策、行動,要一段時間后才能看到結(jié)果。
這意味著,AI需要學(xué)到長遠的布局謀篇的策略能力。
即便如此,AlphaStar最終還是學(xué)會了如何打星際2。即便此次黃旭東保持克制、誰也沒奶,但既定的事實已經(jīng)無法更改。
直播進行到一半,就有網(wǎng)友在他的微博下留言:比國足輸伊朗還慘。
盡管10戰(zhàn)連敗,人類職業(yè)高手仍然對人工智能不吝稱贊:不可思議。MaNa說,我從AI身上學(xué)到了很多。以及,今天最后一局MaNa也為人類爭取到了僅有的勝利!
賽后,TLO的說法跟李世乭輸給AlphaGo后很像。他說:相信我,和AlphaStar比賽很難。不像和人在打,有種手足無措的感覺。他還說,每局比賽都是完全不一樣的套路。
為什么AI這么強?別的先不展開講,這里只說一個點。其實在比賽之前,AlphaStar的訓(xùn)練量,相當(dāng)于打了200年實時對抗的星際2。
總而言之,谷歌DeepMind歷時兩年,終于讓人工智能更進一步,AlphaGo有了新的接班人AlphaStar。
DeepMind CEO哈薩比斯說,AlphaStar的技術(shù)未來可用于預(yù)測天氣、氣候建模等需要very long sequences的應(yīng)用場景。
一次里程碑意義的戰(zhàn)斗,落下帷幕。
一次人類的新征程,正式開場。
實際上,今天的人機大戰(zhàn)主要內(nèi)容并不是直播,而是回顧人機大戰(zhàn)的結(jié)果。簡單交待一下相關(guān)信息,比賽在Catalyst地圖上進行,這張地圖中文名叫“匯龍島”。
圖上設(shè)置了很多隘口和高地,網(wǎng)友說,這張圖群龍盤踞,大戰(zhàn)一觸即發(fā),官方稱“能創(chuàng)造出許多有意思的進攻路徑和防守陣形”。
游戲版本是去年10月的4.6.2,雙方都使用神族(星靈)。
第一場比賽,發(fā)生在去年12月12日。
AlphaStar對TLO。
第一局人類選手TLO開局兩分鐘后就率先發(fā)難,不過AlphaStar扛下來,并且逐漸扭轉(zhuǎn)了戰(zhàn)局,迅速累積起資源優(yōu)勢。
5分鐘左右,AlphaStar以追獵者為主要作戰(zhàn)單位,開始向TLO發(fā)起試探性的攻擊。并且在隨后的時間里,持續(xù)對TLO展開騷擾,直至取勝。
DeepMind介紹,比賽中,實際上AlphaGo的APM比TLO要低。AlphaStar的APM中值是277,而TLO的APM中值是390。而大部分其他bot的APM,都高達幾千甚至數(shù)萬。
前三局基本都是這樣。TLO說第四局就像換了個AI一樣,打法完全變了,很接近典型神族打法。
當(dāng)然,他又輸了。這個感覺沒錯,其實他每次對陣的AI都不一樣……
最后的結(jié)果是0-5,TLO一局沒贏。不過他說:如果我多練練神族,我能輕易打敗這些AI。畢竟TLO這些年一直主要在練蟲族。
五局比賽打完,DeepMind團隊為了慶祝喝了點酒,產(chǎn)生了一個大膽的想法:
再訓(xùn)練訓(xùn)練,和玩神族的職業(yè)選手打一場。
于是,快到圣誕節(jié)的時候,他們請來了Liquid的神族選手MaNa。
第二場比賽,發(fā)生在去年12月19日。
據(jù)說,MaNa五歲就開始打星際了。
在對戰(zhàn)MaNa之前,AlphaStar又訓(xùn)練了一個星期。雙方展開較量之前,MaNa只知道TLO輸了,不知道是5-0,而且,明顯沒有TLO上次來那么緊張。
面對神族最強10人之一,DeepMind認為比賽會很精彩,但對勝利沒什么自信。
雙方第一局對決,AlphaStar在地圖的左上角,MaNa在右下。4分鐘,AlphaStar派出一隊追獵者,開始進攻。基本上算是一波就推了MaNa。
正如開始所說,5分36秒,MaNa打出GG。
然后第二局也輸了。這時候MaNa緊張起來,第三局決心翻盤。7分30秒,AlphaStar出動了一支大軍打到MaNa家,MaNa GG。
最精彩的是第四局,MaNa的操作讓現(xiàn)場解說嘆為觀止,他自己賽后也坦言”真是盡力了“。但最后,他的高科技軍團在一群追獵者的360度包圍下,全滅。MaNa打出了GG。
而且,AlphaStar完成360度包圍這一高難度操作時,APM只有250左右。
第四局全程:
視頻地址:https://v.qq.com/x/page/f0831cwrjm1.html
需要說明的是,其實在這局比賽中,AlphaStar的APM幾乎已經(jīng)失控,幾度飆到1000多。量子位抓到了一些這樣的瞬間。
MaNa說,輸了好失望,我能出的單位都出了,最后輸給了一群追獵者?他還說,AlphaStar的微操太厲害了。incredible。跟AI學(xué)東西,這種經(jīng)歷挺好。
人類扳回一城
今天的直播的最后,是現(xiàn)場的表演局(Exhibition game),直播MaNa對戰(zhàn)AlphaStar。
在這場比賽中,MaNa采用了一種更激進的打法,一開局就造了更多的農(nóng)民(探機),這說不定是上個月剛剛跟AlphaStar學(xué)來的戰(zhàn)術(shù)。
12分鐘后,MaNa一路拆掉AlphaStar的各種建筑,擊敗了無法打出GG的AlphaStar。
總算是幫人類挽回一些顏面。
這場比賽,全程在此:
視頻地址:https://v.qq.com/x/cover/5gerx2xant7bu2w/i0831rwwv4r.html
另外DeepMind也放出了全部11局對決的視頻,有興趣可以前往這個地址查看:
https://deepmind.com/research/alphastar-resources/
之前的10局比賽,DeepMind還拍成了一個紀(jì)錄片。
視頻地址:https://v.qq.com/x/page/g08319vjvpr.html
DeepMind和暴雪周三發(fā)出預(yù)告后,熱情的網(wǎng)友們就已經(jīng)把各種可能的技術(shù)方案猜了一遍。
現(xiàn)在答案揭曉:
AlphaStar學(xué)會打星際,全靠深度神經(jīng)網(wǎng)絡(luò),這個網(wǎng)絡(luò)從原始游戲界面接收數(shù)據(jù) (輸入) ,然后輸出一系列指令,組成游戲中的某一個動作。
再說得具體一些,神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)對星際里的那些單位,應(yīng)用一個Transformer,再結(jié)合一個深度LSTM核心,一個自動回歸策略 (在頭部) ,以及一個集中值基線 (Centralised Value Baseline)。
DeepMind團隊相信,這個進化了的模型,可以為許多其他機器學(xué)習(xí)領(lǐng)域的難題帶來幫助:主要針對那些涉及長期序列建模、輸出空間很大的問題,比如語言建模和視覺表示。
AlphaStar還用了一個新的多智能體學(xué)習(xí)算法。
這個神經(jīng)網(wǎng)絡(luò),經(jīng)過了監(jiān)督學(xué)習(xí)和強化學(xué)習(xí)的訓(xùn)練。
最開始,訓(xùn)練用的是監(jiān)督學(xué)習(xí),素材來自暴雪發(fā)布的匿名人類玩家的游戲?qū)崨r。
這些資料可以讓AlphaStar通過模仿星際天梯選手的操作,來學(xué)習(xí)游戲的宏觀和微觀策略。
最初的智能體,游戲內(nèi)置的精英級 (Elite) AI就能擊敗,相當(dāng)于人類的黃金段位 (95%) 。
而這個早期的智能體,就是強化學(xué)習(xí)的種子。
在它的基礎(chǔ)之上,一個連續(xù)聯(lián)賽 (Continuous League) 被創(chuàng)建出來,相當(dāng)于為智能體準(zhǔn)備了一個競技場,里面的智能體互為競爭對手,就好像人類在天梯上互相較量一樣:
從現(xiàn)有的智能體上造出新的分支,就會有越來越多的選手不斷加入比賽。新的智能體再從與對手的競爭中學(xué)習(xí)。
這種新的訓(xùn)練形式,是把從前基于種群 (Population-Based) 的強化學(xué)習(xí)思路又深化了一些,制造出一種可以對巨大的策略空間進行持續(xù)探索的過程。
這個方法,在保證智能體在策略強大的對手面前表現(xiàn)優(yōu)秀的同時,也不忘怎樣應(yīng)對不那么強大的早期對手。
隨著智能體聯(lián)賽不斷進行,新智能體的出生,就會出現(xiàn)新的反擊策略 (Counter Strategies) ,來應(yīng)對早期的游戲策略。
一部分新智能體執(zhí)行的策略,只是早期策略稍稍改進后的版本;而另一部分智能體,可以探索出全新的策略,完全不同的建造順序,完全不同的單位組合,完全不同的微觀微操方法。
早期的聯(lián)賽里,一些俗氣的策略很受歡迎,比如用光子炮和暗黑圣堂武士快速rush。
這些風(fēng)險很高的策略,在訓(xùn)練過程中就被逐漸拋棄了。同時,智能體會學(xué)到一些新策略;比如通過增加工人來增加經(jīng)濟,或者犧牲兩個先知來來破壞對方的經(jīng)濟。
這個過程就像人類選手,從星際爭霸誕生的那年起,不斷學(xué)到新的策略,摒棄舊的策略,直到如今。
除此之外,要鼓勵聯(lián)賽中智能體的多樣性,所以每個智能體都有不同的學(xué)習(xí)目標(biāo):比如一個智能體的目標(biāo)應(yīng)該設(shè)定成打擊哪些對手,比如該用哪些內(nèi)部動機來影響一個智能體的偏好。
而且,智能體的學(xué)習(xí)目標(biāo)會適應(yīng)環(huán)境不斷改變。
神經(jīng)網(wǎng)絡(luò)給每一個智能體的權(quán)重,也是隨著強化學(xué)習(xí)過程不斷變化的。而不斷變化的權(quán)重,就是學(xué)習(xí)目標(biāo)演化的依據(jù)。
權(quán)重更新的規(guī)則,是一個新的off-policy演員評論家強化學(xué)習(xí)算法,里面包含了經(jīng)驗重播 (Experience Replay) ,自我模仿學(xué)習(xí) (Self-Imitation Learning) 以及策略蒸餾 (Policy Distillation) 等等機制。
為了訓(xùn)練AlphaStar,DeepMind用谷歌三代TPU搭建了一個高度可擴展的分布式訓(xùn)練環(huán)境,支持許多個智能體一起從幾千個星際2的并行實例中學(xué)習(xí)。每個智能體用了16個TPU。
智能體聯(lián)賽進行了14天,這相當(dāng)于讓每一個智能體都經(jīng)歷了連打200年游戲的訓(xùn)練時間。
最終的AlphaStar智能體,是聯(lián)賽中所有智能體的策略最有效的融合,并且只要一臺普通的臺式機,一塊普通的GPU就能跑。
AlphaStar打游戲的時候,在看什么、想什么?
上圖,就是DeepMind展示的AI打游戲過程。
原始的觀察里數(shù)據(jù)輸入到神經(jīng)網(wǎng)絡(luò)之中,產(chǎn)生一些內(nèi)部激活,這些激活會轉(zhuǎn)化成初步的決策:該做哪些操作、點擊什么位置、在哪建造建筑等等。另外,神經(jīng)網(wǎng)絡(luò)還會預(yù)測各種操作會導(dǎo)致的結(jié)果。
AlphaStar看到的游戲界面,和我們打游戲時看到的小地圖差不多:一個小型完整地圖,能看到自己在地圖上的所有單位、以及敵方所有可見單位。
這和人類相比有一點點優(yōu)勢。人類在打游戲的時候,要明確地合理分配注意力,來決定到底要看哪一片區(qū)域。
不過,DeepMind對AlphaStar游戲數(shù)據(jù)的分析顯示,它觀察地圖時也有類似于人類的注意力切換,會平均每分鐘切換30次左右關(guān)注的區(qū)域。
這,是12月打的10場游戲的情況。
今天直播中和MaNa對戰(zhàn)的AI,就略有不同。
連勝之后,DeepMind團隊總會有大膽的想法冒出來——他們迭代了第二版AlphaStar,這一版和人類觀察地圖的方式是一樣的,也要不停選擇將視野切換到哪,只能看到屏幕上視野范圍內(nèi)的信息,而且只能在這個范圍內(nèi)操作。
視野切換版AlphaStar經(jīng)過7天訓(xùn)練,達到了和第一版差不多的水平。
不過,這個版本的智能體原型還是在今天的直播中輸給了MaNa,成為了10-1里的1。
DeepMind對他們的AI仍然充滿信心,他們在博客中說,這個智能體只訓(xùn)練了7天,希望能在不久的將來,能測試一個完全訓(xùn)練好了的視野版智能體。
現(xiàn)在,AlphaStar還只能玩神族。DeepMind說,他們?yōu)榱嗽趦?nèi)部測試中減少訓(xùn)練時間和變量,決定先只玩一個種族。
不過,這不代表它就學(xué)不會其他種族。同樣的訓(xùn)練流程,換個種族還是一樣用。
這次人機大戰(zhàn)背后,有很多人的努力,我們這次重點介紹三個人。
首先是AlphaStar的兩個人類對手。
TLO是一位德國職業(yè)星際2選手,原名Dario Wünsch,1990年7月13日出生。現(xiàn)在效力于職業(yè)游戲戰(zhàn)隊Liquid。
之前TLO有個稱號:隨機天王。星際2的公測階段,他使用哪個種族都得心應(yīng)手,不過后來,TLO開始逐漸專攻于蟲族。
根據(jù)官方公布的數(shù)據(jù),TLO在2018 WCS Circuit排名:44。
國內(nèi)關(guān)于TLO的資料,不少都是幾年前的對戰(zhàn),現(xiàn)在TLO應(yīng)該已經(jīng)在自己職業(yè)生涯的末期,可以算是一位久經(jīng)沙場的老將。
MaNa是一位出生于波蘭的職業(yè)星際2選手,原名Grzegorz Komincz,1993年12月14日出生,目前也效力于Liquid。
與TLO相比,MaNa是一個正值當(dāng)打之年的選手。
而且,他更擅長的是神族。盡管他打出GG的速度更快……
MaNa去年獲得WCS Austin的第二名。根據(jù)官方公布的數(shù)據(jù),他在2018 WCS Circuit排名:13。
MaNa和TLO和AlphaStar的對戰(zhàn),發(fā)生在去年12月。地點在倫敦,就是DeepMind的總部。這不禁讓人想起當(dāng)年AlphaGo的故事。
AlphaGo名不見經(jīng)傳時,也是悄悄把樊麾請到了倫敦,然后把樊麾殺得有點懷疑“棋”生。然后開始向全世界公布突破性的進展。
TLO和MaNa,應(yīng)該就是星際2界的樊麾了吧。
第三個是AlphaStar的教父:Oriol Vinyals。
他是DeepMind星際2項目的核心負責(zé)人。我們在此前的報道里介紹過他。1990年代,十幾歲的Oriol Vinyals成了西班牙《星際爭霸》全國冠軍。
他之所以玩這款科幻策略游戲,是因為比其他打打殺殺的游戲更需要動腦子。維紐斯說:“沒上大學(xué)之前,這款游戲就讓我在生活中懷有更強的戰(zhàn)略思維。”
Vinyals的戰(zhàn)略思維的確獲得了回報:在巴塞羅那學(xué)習(xí)了電信工程和數(shù)學(xué)之后,維紐斯去過微軟研究院實習(xí),獲得了加州大學(xué)伯克利的計算機博士學(xué)位,接著加入谷歌大腦團隊,開始從事人工智能開發(fā)工作,然后又轉(zhuǎn)入谷歌旗下DeepMind團隊。
他又跟“星際爭霸”打起了交道。
但這一次不是他親自玩,而是教給機器人怎么玩。在人工智能成為全球最優(yōu)秀的圍棋選手后,星際成為了下一個攻克目標(biāo)。
早在2003年人類就開始嘗試用AI解決即時戰(zhàn)略(RTS)游戲問題。那時候AI還連圍棋問題還沒有解決,而RTS比圍棋還要復(fù)雜。
直到2016年,“阿爾法狗”打敗了李世石。DeepMind在解決圍棋問題后,很快把目光轉(zhuǎn)向了《星際2》。
與國際象棋或圍棋不同,星際玩家面對的是“不完美信息博弈”。
在玩家做決策之前,圍棋棋盤上所有的信息都能直接看到。而游戲中的“戰(zhàn)爭迷霧”卻讓你無法看到對方的操作、陰影中有哪些單位。
這意味著玩家的規(guī)劃、決策、行動,要一段時間后才能看到結(jié)果。這類問題在現(xiàn)實世界中具有重要意義。
為了獲勝,玩家必須在宏觀戰(zhàn)略和微觀操作之間取得平衡。
平衡短期和長期目標(biāo)并適應(yīng)意外情況的需要,對脆弱和缺乏靈活性的系統(tǒng)構(gòu)成了巨大挑戰(zhàn)。
掌握這個問題需要在幾個AI研究挑戰(zhàn)中取得突破,包括:
為了進一步探索這些問題,DeepMind與暴雪2017年合作發(fā)布了一套名為PySC2的開源工具,在此基礎(chǔ)上,結(jié)合工程和算法突破,才有了現(xiàn)在的AlphaStar。
除了DeepMind以外,其他公司和高校去年也積極備戰(zhàn):
今天AI搞定了《星際2》,DeepMind顯然不滿足于此,他們的下一步會是什么?
哈薩比斯在賽后說,雖然星際爭霸“只是”一個非常復(fù)雜的游戲,但他對AlphaStar背后的技術(shù)更感興趣。其中包含的超長序列的預(yù)測,未來可以用在天氣預(yù)測和氣候建模中。
他還透露將在期刊上發(fā)表經(jīng)過同行評審的論文,詳細描述AlphaStar的技術(shù)細節(jié)。一起期待吧~
— 完 —
誠摯招聘
量子位正在招募編輯/記者,工作地點在北京中關(guān)村。期待有才氣、有熱情的同學(xué)加入我們!相關(guān)細節(jié),請在量子位公眾號(QbitAI)對話界面,回復(fù)“招聘”兩個字。
量子位 QbitAI · 頭條號簽約作者
?'?' ? 追蹤AI技術(shù)和產(chǎn)品新動態(tài)
策 栗子 夏乙 發(fā)自 凹非寺
量子位 & 騰訊科技 聯(lián)合出品
5分36秒的戰(zhàn)斗后,LiquidMaNa打出:GG。
DeepMind開發(fā)的全新AI程序AlphaStar,在今天凌晨的《星際爭霸2》人機大戰(zhàn)直播節(jié)目中,輕松戰(zhàn)勝2018 WCS Circuit排名13、神族最強10人之一的MaNa。
實際上,AlphaStar以10-1的戰(zhàn)績,全面擊潰了人類職業(yè)高手。
戰(zhàn)敗的不止MaNa,還有另一位高手TLO。
人工智能在《星際爭霸2》上的進步速度,遠遠超過了此前外界的預(yù)期。畢竟與下圍棋這件事相比,星際2要難得多。
在圍棋世界,動作空間只有361種,而星際2大約是1026。
與圍棋不同,星際玩家面對的是不完美信息博弈。“戰(zhàn)爭迷霧”意味著玩家的規(guī)劃、決策、行動,要一段時間后才能看到結(jié)果。
這意味著,AI需要學(xué)到長遠的布局謀篇的策略能力。
即便如此,AlphaStar最終還是學(xué)會了如何打星際2。即便此次黃旭東保持克制、誰也沒奶,但既定的事實已經(jīng)無法更改。
直播進行到一半,就有網(wǎng)友在他的微博下留言:比國足輸伊朗還慘。
盡管10戰(zhàn)連敗,人類職業(yè)高手仍然對人工智能不吝稱贊:不可思議。MaNa說,我從AI身上學(xué)到了很多。以及,今天最后一局MaNa也為人類爭取到了僅有的勝利!
賽后,TLO的說法跟李世乭輸給AlphaGo后很像。他說:相信我,和AlphaStar比賽很難。不像和人在打,有種手足無措的感覺。他還說,每局比賽都是完全不一樣的套路。
為什么AI這么強?別的先不展開講,這里只說一個點。其實在比賽之前,AlphaStar的訓(xùn)練量,相當(dāng)于打了200年實時對抗的星際2。
總而言之,谷歌DeepMind歷時兩年,終于讓人工智能更進一步,AlphaGo有了新的接班人AlphaStar。
DeepMind CEO哈薩比斯說,AlphaStar的技術(shù)未來可用于預(yù)測天氣、氣候建模等需要very long sequences的應(yīng)用場景。
一次里程碑意義的戰(zhàn)斗,落下帷幕。
一次人類的新征程,正式開場。
實際上,今天的人機大戰(zhàn)主要內(nèi)容并不是直播,而是回顧人機大戰(zhàn)的結(jié)果。簡單交待一下相關(guān)信息,比賽在Catalyst地圖上進行,這張地圖中文名叫“匯龍島”。
圖上設(shè)置了很多隘口和高地,網(wǎng)友說,這張圖群龍盤踞,大戰(zhàn)一觸即發(fā),官方稱“能創(chuàng)造出許多有意思的進攻路徑和防守陣形”。
游戲版本是去年10月的4.6.2,雙方都使用神族(星靈)。
第一場比賽,發(fā)生在去年12月12日。
AlphaStar對TLO。
第一局人類選手TLO開局兩分鐘后就率先發(fā)難,不過AlphaStar扛下來,并且逐漸扭轉(zhuǎn)了戰(zhàn)局,迅速累積起資源優(yōu)勢。
5分鐘左右,AlphaStar以追獵者為主要作戰(zhàn)單位,開始向TLO發(fā)起試探性的攻擊。并且在隨后的時間里,持續(xù)對TLO展開騷擾,直至取勝。
DeepMind介紹,比賽中,實際上AlphaGo的APM比TLO要低。AlphaStar的APM中值是277,而TLO的APM中值是390。而大部分其他bot的APM,都高達幾千甚至數(shù)萬。
前三局基本都是這樣。TLO說第四局就像換了個AI一樣,打法完全變了,很接近典型神族打法。
當(dāng)然,他又輸了。這個感覺沒錯,其實他每次對陣的AI都不一樣……
最后的結(jié)果是0-5,TLO一局沒贏。不過他說:如果我多練練神族,我能輕易打敗這些AI。畢竟TLO這些年一直主要在練蟲族。
五局比賽打完,DeepMind團隊為了慶祝喝了點酒,產(chǎn)生了一個大膽的想法:
再訓(xùn)練訓(xùn)練,和玩神族的職業(yè)選手打一場。
于是,快到圣誕節(jié)的時候,他們請來了Liquid的神族選手MaNa。
第二場比賽,發(fā)生在去年12月19日。
據(jù)說,MaNa五歲就開始打星際了。
在對戰(zhàn)MaNa之前,AlphaStar又訓(xùn)練了一個星期。雙方展開較量之前,MaNa只知道TLO輸了,不知道是5-0,而且,明顯沒有TLO上次來那么緊張。
面對神族最強10人之一,DeepMind認為比賽會很精彩,但對勝利沒什么自信。
雙方第一局對決,AlphaStar在地圖的左上角,MaNa在右下。4分鐘,AlphaStar派出一隊追獵者,開始進攻。基本上算是一波就推了MaNa。
正如開始所說,5分36秒,MaNa打出GG。
然后第二局也輸了。這時候MaNa緊張起來,第三局決心翻盤。7分30秒,AlphaStar出動了一支大軍打到MaNa家,MaNa GG。
最精彩的是第四局,MaNa的操作讓現(xiàn)場解說嘆為觀止,他自己賽后也坦言”真是盡力了“。但最后,他的高科技軍團在一群追獵者的360度包圍下,全滅。MaNa打出了GG。
而且,AlphaStar完成360度包圍這一高難度操作時,APM只有250左右。
第四局全程:
視頻地址:https://v.qq.com/x/page/f0831cwrjm1.html
需要說明的是,其實在這局比賽中,AlphaStar的APM幾乎已經(jīng)失控,幾度飆到1000多。量子位抓到了一些這樣的瞬間。
MaNa說,輸了好失望,我能出的單位都出了,最后輸給了一群追獵者?他還說,AlphaStar的微操太厲害了。incredible。跟AI學(xué)東西,這種經(jīng)歷挺好。
人類扳回一城
今天的直播的最后,是現(xiàn)場的表演局(Exhibition game),直播MaNa對戰(zhàn)AlphaStar。
在這場比賽中,MaNa采用了一種更激進的打法,一開局就造了更多的農(nóng)民(探機),這說不定是上個月剛剛跟AlphaStar學(xué)來的戰(zhàn)術(shù)。
12分鐘后,MaNa一路拆掉AlphaStar的各種建筑,擊敗了無法打出GG的AlphaStar。
總算是幫人類挽回一些顏面。
這場比賽,全程在此:
視頻地址:https://v.qq.com/x/cover/5gerx2xant7bu2w/i0831rwwv4r.html
另外DeepMind也放出了全部11局對決的視頻,有興趣可以前往這個地址查看:
https://deepmind.com/research/alphastar-resources/
之前的10局比賽,DeepMind還拍成了一個紀(jì)錄片。
視頻地址:https://v.qq.com/x/page/g08319vjvpr.html
DeepMind和暴雪周三發(fā)出預(yù)告后,熱情的網(wǎng)友們就已經(jīng)把各種可能的技術(shù)方案猜了一遍。
現(xiàn)在答案揭曉:
AlphaStar學(xué)會打星際,全靠深度神經(jīng)網(wǎng)絡(luò),這個網(wǎng)絡(luò)從原始游戲界面接收數(shù)據(jù) (輸入) ,然后輸出一系列指令,組成游戲中的某一個動作。
再說得具體一些,神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)對星際里的那些單位,應(yīng)用一個Transformer,再結(jié)合一個深度LSTM核心,一個自動回歸策略 (在頭部) ,以及一個集中值基線 (Centralised Value Baseline)。
DeepMind團隊相信,這個進化了的模型,可以為許多其他機器學(xué)習(xí)領(lǐng)域的難題帶來幫助:主要針對那些涉及長期序列建模、輸出空間很大的問題,比如語言建模和視覺表示。
AlphaStar還用了一個新的多智能體學(xué)習(xí)算法。
這個神經(jīng)網(wǎng)絡(luò),經(jīng)過了監(jiān)督學(xué)習(xí)和強化學(xué)習(xí)的訓(xùn)練。
最開始,訓(xùn)練用的是監(jiān)督學(xué)習(xí),素材來自暴雪發(fā)布的匿名人類玩家的游戲?qū)崨r。
這些資料可以讓AlphaStar通過模仿星際天梯選手的操作,來學(xué)習(xí)游戲的宏觀和微觀策略。
最初的智能體,游戲內(nèi)置的精英級 (Elite) AI就能擊敗,相當(dāng)于人類的黃金段位 (95%) 。
而這個早期的智能體,就是強化學(xué)習(xí)的種子。
在它的基礎(chǔ)之上,一個連續(xù)聯(lián)賽 (Continuous League) 被創(chuàng)建出來,相當(dāng)于為智能體準(zhǔn)備了一個競技場,里面的智能體互為競爭對手,就好像人類在天梯上互相較量一樣:
從現(xiàn)有的智能體上造出新的分支,就會有越來越多的選手不斷加入比賽。新的智能體再從與對手的競爭中學(xué)習(xí)。
這種新的訓(xùn)練形式,是把從前基于種群 (Population-Based) 的強化學(xué)習(xí)思路又深化了一些,制造出一種可以對巨大的策略空間進行持續(xù)探索的過程。
這個方法,在保證智能體在策略強大的對手面前表現(xiàn)優(yōu)秀的同時,也不忘怎樣應(yīng)對不那么強大的早期對手。
隨著智能體聯(lián)賽不斷進行,新智能體的出生,就會出現(xiàn)新的反擊策略 (Counter Strategies) ,來應(yīng)對早期的游戲策略。
一部分新智能體執(zhí)行的策略,只是早期策略稍稍改進后的版本;而另一部分智能體,可以探索出全新的策略,完全不同的建造順序,完全不同的單位組合,完全不同的微觀微操方法。
早期的聯(lián)賽里,一些俗氣的策略很受歡迎,比如用光子炮和暗黑圣堂武士快速rush。
這些風(fēng)險很高的策略,在訓(xùn)練過程中就被逐漸拋棄了。同時,智能體會學(xué)到一些新策略;比如通過增加工人來增加經(jīng)濟,或者犧牲兩個先知來來破壞對方的經(jīng)濟。
這個過程就像人類選手,從星際爭霸誕生的那年起,不斷學(xué)到新的策略,摒棄舊的策略,直到如今。
除此之外,要鼓勵聯(lián)賽中智能體的多樣性,所以每個智能體都有不同的學(xué)習(xí)目標(biāo):比如一個智能體的目標(biāo)應(yīng)該設(shè)定成打擊哪些對手,比如該用哪些內(nèi)部動機來影響一個智能體的偏好。
而且,智能體的學(xué)習(xí)目標(biāo)會適應(yīng)環(huán)境不斷改變。
神經(jīng)網(wǎng)絡(luò)給每一個智能體的權(quán)重,也是隨著強化學(xué)習(xí)過程不斷變化的。而不斷變化的權(quán)重,就是學(xué)習(xí)目標(biāo)演化的依據(jù)。
權(quán)重更新的規(guī)則,是一個新的off-policy演員評論家強化學(xué)習(xí)算法,里面包含了經(jīng)驗重播 (Experience Replay) ,自我模仿學(xué)習(xí) (Self-Imitation Learning) 以及策略蒸餾 (Policy Distillation) 等等機制。
為了訓(xùn)練AlphaStar,DeepMind用谷歌三代TPU搭建了一個高度可擴展的分布式訓(xùn)練環(huán)境,支持許多個智能體一起從幾千個星際2的并行實例中學(xué)習(xí)。每個智能體用了16個TPU。
智能體聯(lián)賽進行了14天,這相當(dāng)于讓每一個智能體都經(jīng)歷了連打200年游戲的訓(xùn)練時間。
最終的AlphaStar智能體,是聯(lián)賽中所有智能體的策略最有效的融合,并且只要一臺普通的臺式機,一塊普通的GPU就能跑。
AlphaStar打游戲的時候,在看什么、想什么?
上圖,就是DeepMind展示的AI打游戲過程。
原始的觀察里數(shù)據(jù)輸入到神經(jīng)網(wǎng)絡(luò)之中,產(chǎn)生一些內(nèi)部激活,這些激活會轉(zhuǎn)化成初步的決策:該做哪些操作、點擊什么位置、在哪建造建筑等等。另外,神經(jīng)網(wǎng)絡(luò)還會預(yù)測各種操作會導(dǎo)致的結(jié)果。
AlphaStar看到的游戲界面,和我們打游戲時看到的小地圖差不多:一個小型完整地圖,能看到自己在地圖上的所有單位、以及敵方所有可見單位。
這和人類相比有一點點優(yōu)勢。人類在打游戲的時候,要明確地合理分配注意力,來決定到底要看哪一片區(qū)域。
不過,DeepMind對AlphaStar游戲數(shù)據(jù)的分析顯示,它觀察地圖時也有類似于人類的注意力切換,會平均每分鐘切換30次左右關(guān)注的區(qū)域。
這,是12月打的10場游戲的情況。
今天直播中和MaNa對戰(zhàn)的AI,就略有不同。
連勝之后,DeepMind團隊總會有大膽的想法冒出來——他們迭代了第二版AlphaStar,這一版和人類觀察地圖的方式是一樣的,也要不停選擇將視野切換到哪,只能看到屏幕上視野范圍內(nèi)的信息,而且只能在這個范圍內(nèi)操作。
視野切換版AlphaStar經(jīng)過7天訓(xùn)練,達到了和第一版差不多的水平。
不過,這個版本的智能體原型還是在今天的直播中輸給了MaNa,成為了10-1里的1。
DeepMind對他們的AI仍然充滿信心,他們在博客中說,這個智能體只訓(xùn)練了7天,希望能在不久的將來,能測試一個完全訓(xùn)練好了的視野版智能體。
現(xiàn)在,AlphaStar還只能玩神族。DeepMind說,他們?yōu)榱嗽趦?nèi)部測試中減少訓(xùn)練時間和變量,決定先只玩一個種族。
不過,這不代表它就學(xué)不會其他種族。同樣的訓(xùn)練流程,換個種族還是一樣用。
這次人機大戰(zhàn)背后,有很多人的努力,我們這次重點介紹三個人。
首先是AlphaStar的兩個人類對手。
TLO是一位德國職業(yè)星際2選手,原名Dario Wünsch,1990年7月13日出生。現(xiàn)在效力于職業(yè)游戲戰(zhàn)隊Liquid。
之前TLO有個稱號:隨機天王。星際2的公測階段,他使用哪個種族都得心應(yīng)手,不過后來,TLO開始逐漸專攻于蟲族。
根據(jù)官方公布的數(shù)據(jù),TLO在2018 WCS Circuit排名:44。
國內(nèi)關(guān)于TLO的資料,不少都是幾年前的對戰(zhàn),現(xiàn)在TLO應(yīng)該已經(jīng)在自己職業(yè)生涯的末期,可以算是一位久經(jīng)沙場的老將。
MaNa是一位出生于波蘭的職業(yè)星際2選手,原名Grzegorz Komincz,1993年12月14日出生,目前也效力于Liquid。
與TLO相比,MaNa是一個正值當(dāng)打之年的選手。
而且,他更擅長的是神族。盡管他打出GG的速度更快……
MaNa去年獲得WCS Austin的第二名。根據(jù)官方公布的數(shù)據(jù),他在2018 WCS Circuit排名:13。
MaNa和TLO和AlphaStar的對戰(zhàn),發(fā)生在去年12月。地點在倫敦,就是DeepMind的總部。這不禁讓人想起當(dāng)年AlphaGo的故事。
AlphaGo名不見經(jīng)傳時,也是悄悄把樊麾請到了倫敦,然后把樊麾殺得有點懷疑“棋”生。然后開始向全世界公布突破性的進展。
TLO和MaNa,應(yīng)該就是星際2界的樊麾了吧。
第三個是AlphaStar的教父:Oriol Vinyals。
他是DeepMind星際2項目的核心負責(zé)人。我們在此前的報道里介紹過他。1990年代,十幾歲的Oriol Vinyals成了西班牙《星際爭霸》全國冠軍。
他之所以玩這款科幻策略游戲,是因為比其他打打殺殺的游戲更需要動腦子。維紐斯說:“沒上大學(xué)之前,這款游戲就讓我在生活中懷有更強的戰(zhàn)略思維。”
Vinyals的戰(zhàn)略思維的確獲得了回報:在巴塞羅那學(xué)習(xí)了電信工程和數(shù)學(xué)之后,維紐斯去過微軟研究院實習(xí),獲得了加州大學(xué)伯克利的計算機博士學(xué)位,接著加入谷歌大腦團隊,開始從事人工智能開發(fā)工作,然后又轉(zhuǎn)入谷歌旗下DeepMind團隊。
他又跟“星際爭霸”打起了交道。
但這一次不是他親自玩,而是教給機器人怎么玩。在人工智能成為全球最優(yōu)秀的圍棋選手后,星際成為了下一個攻克目標(biāo)。
早在2003年人類就開始嘗試用AI解決即時戰(zhàn)略(RTS)游戲問題。那時候AI還連圍棋問題還沒有解決,而RTS比圍棋還要復(fù)雜。
直到2016年,“阿爾法狗”打敗了李世石。DeepMind在解決圍棋問題后,很快把目光轉(zhuǎn)向了《星際2》。
與國際象棋或圍棋不同,星際玩家面對的是“不完美信息博弈”。
在玩家做決策之前,圍棋棋盤上所有的信息都能直接看到。而游戲中的“戰(zhàn)爭迷霧”卻讓你無法看到對方的操作、陰影中有哪些單位。
這意味著玩家的規(guī)劃、決策、行動,要一段時間后才能看到結(jié)果。這類問題在現(xiàn)實世界中具有重要意義。
為了獲勝,玩家必須在宏觀戰(zhàn)略和微觀操作之間取得平衡。
平衡短期和長期目標(biāo)并適應(yīng)意外情況的需要,對脆弱和缺乏靈活性的系統(tǒng)構(gòu)成了巨大挑戰(zhàn)。
掌握這個問題需要在幾個AI研究挑戰(zhàn)中取得突破,包括:
為了進一步探索這些問題,DeepMind與暴雪2017年合作發(fā)布了一套名為PySC2的開源工具,在此基礎(chǔ)上,結(jié)合工程和算法突破,才有了現(xiàn)在的AlphaStar。
除了DeepMind以外,其他公司和高校去年也積極備戰(zhàn):
今天AI搞定了《星際2》,DeepMind顯然不滿足于此,他們的下一步會是什么?
哈薩比斯在賽后說,雖然星際爭霸“只是”一個非常復(fù)雜的游戲,但他對AlphaStar背后的技術(shù)更感興趣。其中包含的超長序列的預(yù)測,未來可以用在天氣預(yù)測和氣候建模中。
他還透露將在期刊上發(fā)表經(jīng)過同行評審的論文,詳細描述AlphaStar的技術(shù)細節(jié)。一起期待吧~
— 完 —
誠摯招聘
量子位正在招募編輯/記者,工作地點在北京中關(guān)村。期待有才氣、有熱情的同學(xué)加入我們!相關(guān)細節(jié),請在量子位公眾號(QbitAI)對話界面,回復(fù)“招聘”兩個字。
量子位 QbitAI · 頭條號簽約作者
?'?' ? 追蹤AI技術(shù)和產(chǎn)品新動態(tài)