作者:
lolic (lolic)
2023-10-25 21:25:02https://game.udn.com/game/story/122089/7526108
在經歷長達 5 萬小時的訓練與學習後,
一位工程師成功讓一套 AI 模組學會如何遊玩《寶可夢:紅版》,
創造出能夠自行探索遊戲,組成寶可夢隊伍...。
...
由於機器演算法在本質上並不在乎「全破」一款遊戲,
因此 Whidden 為 AI 演算法設計一套在完成特定目標時能夠獲得獎勵的系統。
為了鼓勵 AI 在《寶可夢:紅版》中進行探索,
只要能夠在地圖上看到一些之前沒有看過的東西,就能夠獲得獎勵點數。
最終 AI 順利從真心鎮出發,穿過常盤森林,來到深灰市挑戰第一道館。
在那之前,AI 還需要更加完善的獎懲系統。
在學會看到新事物能夠獲得獎勵後,雖然 AI 會開始不斷向前邁進,
但完全不在乎收服寶可夢或進行對戰,而是在遇到野生寶可夢時立刻逃走。
因此,Whidden 為獎勵系統加入更多內容,
依照 AI 寶可夢隊伍的等級總和給予獎勵,讓它開始有動力去練等和捕捉寶可夢。
只不過在某一次的演算中,AI 走進寶可夢中心時意外開啟 PC,並在其中存放幾隻寶可夢。
由於 AI 獲得的獎勵點數是依照隊伍等級總和而定,這個行為導致 AI 獲得的分數瞬間驟降。
為了避免重蹈覆轍,AI 在那之後的所有演算中都選擇避開寶可夢中心,
完全不敢進去為寶可夢補血,這讓 Whidden 不得不再次插手調整。
這套 AI 演算法最基本的運作方式,其實就是隨機在《寶可夢:紅版》中走動與遊戲進行互動,
直到發現能夠以最有效率的方式獲得最多獎勵的路徑,並將經驗保留到下一次的演算中。
在挑戰的過程中,AI 都只會使用最基本的攻擊招式撞擊來進行對戰,
直到該招式的 PP 用完後才會使用其他選擇。
某次演算中,AI 終於發現傑泥龜的泡沫攻擊能夠對小剛的寶可夢造成大量的傷害,
最終順利擊敗這位道館館主。
即使 AI 在對於遊戲的理解與邏輯上依然比不上人類,但這場實驗發掘了一些更加深層的細節。
根據 Whidden 的發現,
AI 在經歷一段時間的演算後就開始固定以看似不尋常的路徑從真心鎮出發,直到遇到第一隻野生寶可夢。
然而,這一系列的操作其實能夠保證 AI 能夠一球抓到遇見第一隻寶可夢。
也就是說,AI 發現一個 Speedrun 玩家可能要花上好幾年的時間研究才有機會注意到的系統漏洞。
這套 AI 演算法在成功突破第一道館時基本上已經達成了 Whidden 最初設定的目標,
但 Whidden 決定要讓 AI 的《寶可夢:紅版》冒險繼續下去,
看看目前的獎勵機制到底能讓它走多遠。
可惜的是,第一和第二道館之間的月見山對於看到新事物就能加分的 AI 來說
實在是太過於容易分心,
因此一直到 Whidden 決定讓實驗告一段落前都無法順利抵達華藍市。
除此之外,AI 似乎非常喜歡從鯉魚王大叔手中購買鯉魚王,
因為這樣的行為能夠讓 AI 寶可夢隊伍的等級總和立刻多出五等,
因此到實驗結束前,AI 在其中 1 萬次的演算中都跑去買了鯉魚王。
另外值得注意的是,AI 有一次將抓來的小拉達命名為了「AI」,讓人細思極恐。
https://youtu.be/DcYLT37ImBY?si=Yc6mnic1FdBh3zw9
作者:
Satoman (沙陀曼)
2023-10-25 21:26:00耶穌鳥屌打
作者:
xsc (頹廢的敗家子)
2023-10-25 21:27:00發現一發必中BUG有點恐怖
作者:
ryoma1 (熱血小豪)
2023-10-25 21:28:00一群猴子>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>AI
作者: BattleFries 2023-10-25 21:28:00
好酷
作者:
yys310 (有水當思無水之苦)
2023-10-25 21:28:00TPP>>>>>>>AI
作者:
kinuhata (kinuhata)
2023-10-25 21:28:00鯉魚王大叔或成最大贏家
作者:
shlee (冷)
2023-10-25 21:30:00滿酷的
作者:
andy0481 (想吃比叡的咖哩)
2023-10-25 21:30:00結論 多了獎勵導向的硬A怪而已
寶可夢其實很複雜耶 別看屬性相剋那樣 其實裡面學問超多
作者: NoLimination (啊啊啊啊) 2023-10-25 21:34:00
獎勵應該是館主 四天王 冠軍吧一般小孩理解的第一遊戲目標
作者:
lolicon (三次元滾開啦)
2023-10-25 21:34:00AI取AI的名字XD
作者:
spfy (spfy)
2023-10-25 21:35:00沒問題啦 12萬支猴子都能TPP破關了 相信AI
人類:AI會毀滅世界!!金魚:Hold my beer.
要算也是先算全破SR的玩法吧 寶可夢應該沒啥AI才能做到的操作
作者:
ryoma1 (熱血小豪)
2023-10-25 21:35:00等AI可以把小拉達變成夢幻再叫我
作者: umapyoisuki 2023-10-25 21:37:00
我小時候也都會去買鯉魚王
作者:
bestteam (wombat是胖胖熊)
2023-10-25 21:45:00小時候這裡也走超久的
作者: furret (大尾立) 2023-10-25 21:45:00
金魚腦>AI
作者:
jpnldvh (兒子長得像隔壁老王)
2023-10-25 21:47:00給夠多時間猴子也能寫出莎士比亞
AI: 嗚嗚嗚,寶可夢中心把我的寶可夢吃掉了,以後不來了
作者: lucky0417 (L.W) 2023-10-25 21:51:00
AI:我在享受遊戲,為什麼要逼我走出鎮子 AI:靠背 打怪會扣血 白痴才打
作者: theone5566 (5566救世主) 2023-10-25 21:52:00
被存電腦嚇到不敢進去補血也太可愛
作者: shigurew (shigure) 2023-10-25 21:53:00
AI最大問題就是獎勵機制寫不好,只定一個最終目標沒啥用
作者:
scott032 (yoyoyo)
2023-10-25 21:56:00AI居然比猴子還弱
作者:
ikaros35 (墮落的ikaros)
2023-10-25 21:57:00這個就你獎勵式沒寫好 獎勵式矛盾下的建模問題要造出像人類一樣的AI 沒那麼簡單
作者: qwork 2023-10-25 22:05:00
這個就獎勵模式沒寫好而已 不會有人覺得“AI”只有一種吧有人智商比猴子低 不代表人類智商比猴子低
作者:
e5a1t20 (吃飯)
2023-10-25 22:09:00用地圖探索和隊伍等級當獎勵條件訓練 就不夠聰明 直接暴力寫一堆判斷條件進去一定能破關不然至少要加前幾步當條件 否則走迷宮會一直原地繞圈
作者:
scott032 (yoyoyo)
2023-10-25 22:13:00阿這個AI就比猴子弱阿五萬個小時連小學生都不知道破關幾次了
作者: sanro (Sanro) 2023-10-25 22:15:00
這什麼鯉魚王鐵粉www
現在還只是人工智障而已,還在靠人為給權重,沒辦法有自己的判斷能力
作者:
keyboking (keyboking)
2023-10-25 22:48:00厲害了,我連常盤森林都走不出去。
作者:
scotttomlee (ã»ã—ã®ã‚†ã‚ã¿ã¯ä¿ºã®å«ï¼)
2023-10-25 23:08:00感覺這AI只是單純接受指令(獎勵)去做事的社畜(X)而已
作者:
scotttomlee (ã»ã—ã®ã‚†ã‚ã¿ã¯ä¿ºã®å«ï¼)
2023-10-25 23:11:00不像是在玩PM遊戲 而是在玩指令給的獎勵要素就很濃的作業感
作者:
Kenalex (火焰召喚師)
2023-10-25 23:28:00所以這個AI能否通關 純粹看作者能否設計出完美的獎勵機制然而作者很明顯做不到 才會導致AI為了獎勵去做不該做的事
作者: as1100 2023-10-25 23:43:00
我也喜歡和大叔買鯉魚王 然後在月見山練到進化
作者: GooglePixel (谷哥批索) 2023-10-25 23:56:00
這AI說穿了就是一套演算法 是以影像辨識為基礎 發現新畫面就會獎勵與紀錄起來 人腦是好幾套不同的演算法 不懂不用瞎噴耶
作者:
bitcch (必可取)
2023-10-26 00:14:00手寫獎勵函數有太多可能性要判斷 複雜的場景不可能這樣作結合時事把手刻規則改用LLM判斷 雖然慢但說不定會好很多
作者:
pikaMH (礦工獵人)
2023-10-26 01:20:00鯉魚王笑死
作者: StSoSnE 2023-10-26 01:51:00
這影片有趣的點在觀察獎勵機制造成ai訓練的傾向性 還有嘗試修改的思路
作者想的不夠充分或故意想的不充分看會導致什麼策略行為
作者:
timaaa (tim)
2023-10-26 02:23:00有趣
作者:
baddad (dadfly)
2023-10-26 08:14:00我也會買耶xD裡面有提到,他找出不遇敵路線,這還蠻厲害的耶