【熱點資訊】人工智能再下一城!碾壓Dota2準職業(yè)玩家的OpenAI Five究竟是何方神圣?
DOTA AI在去年的TI7首度亮相賽場,就技驚四座。在TI7正賽的期間,V社舉辦了一場別開生面solo表演賽——人機SOLO大戰(zhàn)。
人類方是TI活化石,世界頂尖的中單選手dendi,而他的對手是一個U 盤,里面裝著由OpenAI 開發(fā)的Dota AI。
OpenAI 是由特斯拉CEO埃隆·馬斯克成立的一家非營利公司,旨在開發(fā)更安全的AI技術,預防人工智能帶來的危害。目前,OpenAI 的全職員工已經(jīng)超過50 人。
在賽前的宣傳片里,OpenAI 開發(fā)的Dota AI已經(jīng)打敗了現(xiàn)役的Arteezy、SumaiL等世界冠軍。
而讓人大跌眼鏡的是,比賽開始沒10分鐘,曾經(jīng)的世界最頂尖的solo選手dendi就打出了GG(goodgame,投降),敗下陣來,而且是被AI打的毫無還手之力。
最令人窒息的是AI的進攻性非常強,打法侵略性十足,一旦有了一點點優(yōu)勢就會開始壓制。
根據(jù)OpenAI官方給出的數(shù)據(jù),AI每分鐘的操作次數(shù)(APM)僅僅是人類的平均水準,換言之,AI的每次出手收益都比Dendi更高,無效操作更少。
也就是說,AI不會有任何無效操作,這樣在對陣過程中,AI英雄消耗和被消耗也會大大減少,然后AI將有更多的經(jīng)濟轉(zhuǎn)化為屬性裝,而玩家將消耗大量經(jīng)濟在補給和回復上。
這樣可怕AI,人類沒有任何機會,完全碾壓!
而讓人無法想象的是,AI不需要任何訓練數(shù)據(jù),完完全全從零開始,整個學習過程隨機開始,并且通過和自己對抗進行學習。從工作人員的口中得知,AI一開始也是出現(xiàn)許多游戲里的“愚蠢”行為,但很快就通過“自主”學習,學會了人類玩家們的操作和技巧,到現(xiàn)在擊敗世界冠軍一共也就花了僅僅兩周的時間,成長速度快的嚇人。
OpenAI的團隊在賽后表示,這一次人機solo只是一個初步的嘗試,將在DOTA2 TI8上上演5V5的人機對戰(zhàn)。
這不,就在一周前的8月6號,OpenAI Five開始了與人類正式的二番戰(zhàn),5v5人機對戰(zhàn),由前職業(yè)選手組成的戰(zhàn)隊對戰(zhàn)OpenAI Five。
北京時間8月6日早上5點58分,人類半職業(yè)Dota高手隊對戰(zhàn)OpenAI Five第二局接近尾聲,被稱為“大老師”的DotaPlus大數(shù)據(jù)對人類戰(zhàn)隊宣判了死刑。
它說,AI戰(zhàn)隊的勝率是100%。
6點整,人類第二次打出GG,AI宣告勝利。
這是OpenAI Five首次在5v5戰(zhàn)局中,對上職業(yè)選手。今天的人類代表隊由職業(yè)和半職業(yè)選手組成,在舊金山和AI展開三局兩勝的廝殺。
結(jié)果似乎并不出人預料,三局兩勝的賽制,OpenAI Five“榮耀2:1”戰(zhàn)勝了人類戰(zhàn)隊。
AI究竟是通過什么樣的方式讓人類玩家一敗涂地的呢?
目前可以得知的情況是這樣:OpenAI訓練Dota的方式,是讓AI從隨機狀態(tài)開始,依靠自我對局來優(yōu)化。
(以下信息來自OpenAI Five官網(wǎng))
通過自我對抗學習,OpenAI Five 每天相當于玩180年的游戲。訓練上,它使用256 塊GPU、12萬8000 個CPU核心使用近端策略優(yōu)化(ProximalPolicy Optimization)方法進行訓練,這是在去年建立的solo Dota2系統(tǒng)上的擴增。OpenAI為每個英雄使用單獨的一個LSTM,模型就可以在沒有人類數(shù)據(jù)的情況下學到可識別的策略。這表明強化學習即使沒有根本性的進步,也能夠產(chǎn)生大規(guī)模但也可接受的長期規(guī)劃。
Dota2是一個實時的5 v 5策略游戲,每個玩家控制一個英雄。而玩Dota 的 AI 需要掌握以下技能:
長線策略。Dota 游戲平均每秒 30 幀,一場時常 45 分鐘,大概 8 萬 tick。大部分操作(例如操縱英雄移動)都有單獨的小影響,但一些個體行為可能會影響到游戲戰(zhàn)略,例如 TP 回家。此外,還有一些策略可能會終結(jié)整場游戲。OpenAI Five 每 4 幀觀察一次,產(chǎn)生了 2 萬個決策。相比之下,國際象棋一般在 40 步之前就結(jié)束了,圍棋大概 150 步,但這些游戲每一步都很有策略性。
局部可觀測狀態(tài)。己方單位和建筑的視野都有限。地圖的其他部分是沒有視野的,可能藏有敵人和敵方策略。高玩通常需要基于不完整數(shù)據(jù)做推理,以及建模敵方意圖。而國際象棋和圍棋都是完全信息博弈。
高維、持續(xù)的行為空間。在 Dota 中,每個英雄能采取數(shù)十種行為,而且許多行為要么面向敵方單位,要么點地移動位置。我們把這個空間離散到每個英雄 17 萬種可能的操作(不是每 tick 都有效,例如在技能冷卻時放技能就是無效操作);不計算連續(xù)部分,每 tick 平均 1000 個可能有效行為。國際象棋的行為數(shù)量大概是 35,圍棋 250。
高維、連續(xù)的觀察空間。Dota 是在一張包含 10 個英雄、20 幾個塔、數(shù)十個 NPC 單位的地圖上操作的游戲,此外還有神符、樹、眼衛(wèi)等。通過 Valve(Dota 2 的運營公司)的 Bot API,我們的模型把 Dota 游戲視為 2 萬個狀態(tài),也就代表人類在游戲中可獲取到的所有信息。國際象棋代表大概 70 個枚舉值(8x8 的棋盤,6 類棋子和較小的歷史信息)。圍棋大概有 400 個枚舉值(19x19 的棋盤,黑白 2 子,加上 Ko)。
Dota規(guī)則也非常復雜,這類游戲開發(fā)了十幾年,成百上千的代碼行實現(xiàn)游戲邏輯。而且游戲每兩周更新一次,環(huán)境語義一直在變。
所以OpenAI Five有著一套自己的學習算法。
OpenAI Five的系統(tǒng)使用一個高度擴展版本的近端策略優(yōu)化(ProximalPolicy Optimization)算法進行學習。OpenAI Five 和之前的1v1機器人都是通過自我對抗進行學習的。他們從隨機參數(shù)開始,并不從人類玩家的方法中進行搜索或者自舉。
前后兩個系統(tǒng)在效率上的提升是巨大的
AI選手們在訓練中飯量驚人,承載它們需要256塊P100GPU和12.8萬個CPU核心。
DOTA職業(yè)選手每天的訓練強度是12個小時,而DOTA AI的訓練強度則是每天相當于180年,如此快速學習和龐大訓練強度,能夠擊敗半職業(yè)戰(zhàn)隊確實不難想象。
TI7上,OpenAI閃亮登場,贏下了solo賽,引起了不小的關注,不少隊伍和選手都想要和這些聰明的機器bot過招。
就在兩周前,OpenAI Five在5v5的比賽中以2-1擊敗了前職業(yè)選手組成的臨時戰(zhàn)隊。看起來這支隊伍已經(jīng)有了參加TI的能力,V社想要OpenAI來溫哥華參加本屆TI。目前他們正在調(diào)整日程表,爭取給OpenAI一個和頂尖職業(yè)選手過招的機會。
在經(jīng)過一年的開發(fā)后,相信今年的OpenAI歸來后肯定會變得更強,究竟職業(yè)戰(zhàn)隊能否打得過人工智能呢,也是讓人拭目以待。
寬泛科技專注為人工智能、影視后期、VR/AR/MR、視覺計算、虛擬化云計算、商務應用等行業(yè)客戶提供基于深度學習、人臉識別、圖像識別、視頻分析、無人駕駛、醫(yī)療影像識別等硬件解決方案。
如有需求歡迎郵件至 hezuo@cloudhin.com