近日,國外一位名叫“Peter Whidden”的玩家對AI模型進行了50000小時的訓練,試圖教AI如何玩《寶可夢 紅(Pokémon Red)》。
《寶可夢 紅》AI遊玩影片
由於AI本質上並不關心如何通關遊戲,Whidden設定了獎勵目標,每當AI發現新東西時就能獲得獎勵點。這一機制是利用螢幕中像素點變化來觸發的,但也導致了AI會長時間盯著有動畫效果的水面發呆。
為了讓AI更好地進行學習,Whidden還添加了與寶可夢等級相關的獎勵機制。然而,這一系統也導致了意外,AI在存放和替換寶可夢時會讓獎勵分數下降,因此在之後的行動中AI完全避開寶可夢中心,使得隊伍得不到治療,Whidden不得不再次調整獎勵系統。
儘管AI不擅長人類行為,但是卻能做出了一些更為深奧的行動。Whidden意識到,AI走出奇怪的路徑其實是為了保證只需扔出一個精靈球就能捕獲野生寶可夢,並非是無意義的行動。
最終,AI花費7千個小時擊敗了第一個道館,但在月見山卻迷路許久,耗時5萬小時後還是沒能找到第二個道館。不過AI也貢獻了許多神奇操作,比如最喜歡購買鯉魚王,累計購買次數超過1萬次。並在野外抓捕到小拉達時,會將其命名為“AI”。
來源:遊俠網