Jan 16, 2020

【熱點資訊】人工智能再下一城！碾壓Dota2準職業(yè)玩家的OpenAI Five究竟是何方神圣？

如果你是一位游戲玩家那么對DOTA2這款游戲你一定不會陌生，今年的Ti8已經(jīng)在溫哥華華麗麗的開幕了，小組賽激戰(zhàn)正酣。Ti8正值2018偶數(shù)年，不知道西恩刀塔的魔咒能不能再次上演呢？

人機對抗一番戰(zhàn)

DOTA AI在去年的TI7首度亮相賽場，就技驚四座。在TI7正賽的期間，V社舉辦了一場別開生面solo表演賽——人機SOLO大戰(zhàn)。

人類方是TI活化石，世界頂尖的中單選手dendi，而他的對手是一個U 盤，里面裝著由OpenAI 開發(fā)的Dota AI。

OpenAI 是由特斯拉CEO埃隆·馬斯克成立的一家非營利公司，旨在開發(fā)更安全的AI技術，預防人工智能帶來的危害。目前，OpenAI 的全職員工已經(jīng)超過50 人。

在賽前的宣傳片里，OpenAI 開發(fā)的Dota AI已經(jīng)打敗了現(xiàn)役的Arteezy、SumaiL等世界冠軍。

而讓人大跌眼鏡的是，比賽開始沒10分鐘，曾經(jīng)的世界最頂尖的solo選手dendi就打出了GG（goodgame，投降），敗下陣來，而且是被AI打的毫無還手之力。

最令人窒息的是AI的進攻性非常強，打法侵略性十足，一旦有了一點點優(yōu)勢就會開始壓制。

根據(jù)OpenAI官方給出的數(shù)據(jù)，AI每分鐘的操作次數(shù)（APM）僅僅是人類的平均水準，換言之，AI的每次出手收益都比Dendi更高，無效操作更少。

也就是說，AI不會有任何無效操作，這樣在對陣過程中，AI英雄消耗和被消耗也會大大減少，然后AI將有更多的經(jīng)濟轉(zhuǎn)化為屬性裝，而玩家將消耗大量經(jīng)濟在補給和回復上。

這樣可怕AI，人類沒有任何機會，完全碾壓！

而讓人無法想象的是，AI不需要任何訓練數(shù)據(jù)，完完全全從零開始，整個學習過程隨機開始，并且通過和自己對抗進行學習。從工作人員的口中得知，AI一開始也是出現(xiàn)許多游戲里的“愚蠢”行為，但很快就通過“自主”學習，學會了人類玩家們的操作和技巧，到現(xiàn)在擊敗世界冠軍一共也就花了僅僅兩周的時間，成長速度快的嚇人。

OpenAI的團隊在賽后表示，這一次人機solo只是一個初步的嘗試，將在DOTA2 TI8上上演5V5的人機對戰(zhàn)。

這不，就在一周前的8月6號，OpenAI Five開始了與人類正式的二番戰(zhàn)，5v5人機對戰(zhàn)，由前職業(yè)選手組成的戰(zhàn)隊對戰(zhàn)OpenAI Five。

二番戰(zhàn)罷，人類果然一敗涂地

北京時間8月6日早上5點58分，人類半職業(yè)Dota高手隊對戰(zhàn)OpenAI Five第二局接近尾聲，被稱為“大老師”的DotaPlus大數(shù)據(jù)對人類戰(zhàn)隊宣判了死刑。

它說，AI戰(zhàn)隊的勝率是100%。

6點整，人類第二次打出GG，AI宣告勝利。

這是OpenAI Five首次在5v5戰(zhàn)局中，對上職業(yè)選手。今天的人類代表隊由職業(yè)和半職業(yè)選手組成，在舊金山和AI展開三局兩勝的廝殺。

結(jié)果似乎并不出人預料，三局兩勝的賽制，OpenAI Five“榮耀2:1”戰(zhàn)勝了人類戰(zhàn)隊。

AI究竟是通過什么樣的方式讓人類玩家一敗涂地的呢？

目前可以得知的情況是這樣：OpenAI訓練Dota的方式，是讓AI從隨機狀態(tài)開始，依靠自我對局來優(yōu)化。

（以下信息來自OpenAI Five官網(wǎng)）

通過自我對抗學習，OpenAI Five 每天相當于玩180年的游戲。訓練上，它使用256 塊GPU、12萬8000 個CPU核心使用近端策略優(yōu)化（ProximalPolicy Optimization）方法進行訓練，這是在去年建立的solo Dota2系統(tǒng)上的擴增。OpenAI為每個英雄使用單獨的一個LSTM，模型就可以在沒有人類數(shù)據(jù)的情況下學到可識別的策略。這表明強化學習即使沒有根本性的進步，也能夠產(chǎn)生大規(guī)模但也可接受的長期規(guī)劃。

Dota2是一個實時的5 v 5策略游戲，每個玩家控制一個英雄。而玩Dota 的 AI 需要掌握以下技能：

長線策略。Dota 游戲平均每秒 30 幀，一場時常 45 分鐘，大概 8 萬 tick。大部分操作（例如操縱英雄移動）都有單獨的小影響，但一些個體行為可能會影響到游戲戰(zhàn)略，例如 TP 回家。此外，還有一些策略可能會終結(jié)整場游戲。OpenAI Five 每 4 幀觀察一次，產(chǎn)生了 2 萬個決策。相比之下，國際象棋一般在 40 步之前就結(jié)束了，圍棋大概 150 步，但這些游戲每一步都很有策略性。
局部可觀測狀態(tài)。己方單位和建筑的視野都有限。地圖的其他部分是沒有視野的，可能藏有敵人和敵方策略。高玩通常需要基于不完整數(shù)據(jù)做推理，以及建模敵方意圖。而國際象棋和圍棋都是完全信息博弈。
高維、持續(xù)的行為空間。在 Dota 中，每個英雄能采取數(shù)十種行為，而且許多行為要么面向敵方單位，要么點地移動位置。我們把這個空間離散到每個英雄 17 萬種可能的操作（不是每 tick 都有效，例如在技能冷卻時放技能就是無效操作）；不計算連續(xù)部分，每 tick 平均 1000 個可能有效行為。國際象棋的行為數(shù)量大概是 35，圍棋 250。
高維、連續(xù)的觀察空間。Dota 是在一張包含 10 個英雄、20 幾個塔、數(shù)十個 NPC 單位的地圖上操作的游戲，此外還有神符、樹、眼衛(wèi)等。通過 Valve（Dota 2 的運營公司）的 Bot API，我們的模型把 Dota 游戲視為 2 萬個狀態(tài)，也就代表人類在游戲中可獲取到的所有信息。國際象棋代表大概 70 個枚舉值（8x8 的棋盤，6 類棋子和較小的歷史信息）。圍棋大概有 400 個枚舉值（19x19 的棋盤，黑白 2 子，加上 Ko）。

Dota規(guī)則也非常復雜，這類游戲開發(fā)了十幾年，成百上千的代碼行實現(xiàn)游戲邏輯。而且游戲每兩周更新一次，環(huán)境語義一直在變。

所以OpenAI Five有著一套自己的學習算法。

OpenAI Five的系統(tǒng)使用一個高度擴展版本的近端策略優(yōu)化（ProximalPolicy Optimization）算法進行學習。OpenAI Five 和之前的1v1機器人都是通過自我對抗進行學習的。他們從隨機參數(shù)開始，并不從人類玩家的方法中進行搜索或者自舉。

前后兩個系統(tǒng)在效率上的提升是巨大的

AI選手們在訓練中飯量驚人，承載它們需要256塊P100GPU和12.8萬個CPU核心。

DOTA職業(yè)選手每天的訓練強度是12個小時，而DOTA AI的訓練強度則是每天相當于180年，如此快速學習和龐大訓練強度，能夠擊敗半職業(yè)戰(zhàn)隊確實不難想象。

三番戰(zhàn)或?qū)⒃赥I8上演

TI7上，OpenAI閃亮登場，贏下了solo賽，引起了不小的關注，不少隊伍和選手都想要和這些聰明的機器bot過招。

就在兩周前，OpenAI Five在5v5的比賽中以2-1擊敗了前職業(yè)選手組成的臨時戰(zhàn)隊。看起來這支隊伍已經(jīng)有了參加TI的能力，V社想要OpenAI來溫哥華參加本屆TI。目前他們正在調(diào)整日程表，爭取給OpenAI一個和頂尖職業(yè)選手過招的機會。

在經(jīng)過一年的開發(fā)后，相信今年的OpenAI歸來后肯定會變得更強，究竟職業(yè)戰(zhàn)隊能否打得過人工智能呢，也是讓人拭目以待。

寬泛科技專注為人工智能、影視后期、VR/AR/MR、視覺計算、虛擬化云計算、商務應用等行業(yè)客戶提供基于深度學習、人臉識別、圖像識別、視頻分析、無人駕駛、醫(yī)療影像識別等硬件解決方案。

如有需求歡迎郵件至 hezuo@cloudhin.com

返回列表

.精品久久久麻豆国产精品,а√天堂网www在线中文,国产成人欧美一区二区三区,疯狂的欧美乱大交另类,99热都是精品久久久久久

【熱點資訊】人工智能再下一城！碾壓Dota2準職業(yè)玩家的OpenAI Five究竟是何方神圣？

核心業(yè)務

合作伙伴

客戶案例

新聞資訊

行研報告

關于我們

加入我們

會員中心

.精品久久久麻豆国产精品,а√天堂网www在线中文,国产成人欧美一区二区三区,疯狂的欧美乱大交另类,99热都是精品久久久久久

【熱點資訊】人工智能再下一城！碾壓Dota2準職業(yè)玩家的OpenAI Five究竟是何方神圣？

推薦新聞

標準體系覆蓋多地老舊小區(qū)改造，智慧點亮人民美好生活

智能預警、可視指揮，AI賦能工廠安防走向智慧時代

核心業(yè)務

合作伙伴

客戶案例

新聞資訊

行研報告

關于我們

加入我們

會員中心

【熱點資訊】人工智能再下一城！碾壓Dota2準職業(yè)玩家的OpenAI Five究竟是何方神圣？

標準體系覆蓋多地老舊小區(qū)改造，智慧點亮人民美好生活

智能預警、可視指揮，AI賦能工廠安防走向智慧時代