近日,一位國外程式員Peter Whidden耗費5萬小時精心調教了一款 AI 模型,試圖引導 AI 掌握《寶可夢:火紅》的遊戲技巧。
Whidden使 AI 通過模擬器控制輸入與遊戲進行深度互動,設定每次遊玩時長為兩個小時,並通過加速技術使 AI 在短短六分鐘內完成任務,甚至同時運行 40 個會話,以加速 AI 的學習進程。
鑒於 AI 算法本身並不關注遊戲通關方法,Whidden特意設立了獎勵目標,讓 AI 在發現新事物時可以得到相應獎勵點。該機制基於螢幕像素點變化觸發,然而這也讓 AI 長時間停留在動畫效果的水面。
針對與新事物相關的獎勵機制,AI 選擇放棄戰鬥或捕捉寶可夢,Whidden因此增設了與寶可夢等級相關的獎勵機制。然而這一系統出現了意外,AI 在寶可夢存放和替換過程中,獎勵分數降低,導致 AI 完全避開寶可夢中心,使隊伍無法得到治療。無奈之下,Whidden只能再次調整獎勵系統。
儘管 AI 在模仿人類行為方面並不擅長,但仍展現出更為複雜的行動方式。Whidden意識到 AI 選擇了奇怪且具體的路徑,實際上是為了確保僅用一個精靈球就能捕捉野生寶可夢,而非無意義的行為。
然而,在花費 7 千個小時戰勝第一個道館後,AI 在月見山迷失方向,耗時 5 萬小時仍未找到第二個道館。儘管如此,AI 還是貢獻了許多神奇操作,例如購買鯉魚王超過 1 萬次,以及在野外捕捉到小拉達時,將其命名為“AI”。
來源:遊俠網