
研究團隊指出,目前的 AI 模型存在明顯的功能鴻溝,以游戲為取向的 AI 能正常游玩但無法理解自己所做的決策,而語言模型雖然可以推理策略,但很難真正執(zhí)行操作,為此他們研發(fā)了全新 TiG 框架,讓模型在游戲中同步思考、行動。

團隊選擇以《王者榮耀》游戲作為訓(xùn)練范本,先使用匿名且標(biāo)準(zhǔn)化的賽事數(shù)據(jù)定義推上路、擊殺暴君、守家等 40 種宏觀行動,勝負(fù)回數(shù)均衡,AI 模型們必須要在每個定義好的場景下選擇最佳策略,并解釋其戰(zhàn)略緣由。

具體來說,訓(xùn)練分為兩個階段,首先是在監(jiān)督中學(xué)習(xí),弄清楚這些策略的基本機制;隨后通過獎勵機制進行強化學(xué)習(xí),如果行動正確能得 1 分,錯誤行動則得 0 分。

隨后團隊測試了多種語言模型,涵蓋 Qwen2.5(7B、14B、32B)、Qwen3-14B 模型,并使用 DeepSeek-R1 大模型作為對照組;先從 DeepSeek-R1 提煉高質(zhì)量訓(xùn)練數(shù)據(jù),然后使用群體相對策略優(yōu)化(GRPO)技術(shù),比較不同策略之間的優(yōu)劣。

最終經(jīng)過 TiG 框架訓(xùn)練的模型不僅能制定行動計劃,還能解釋原因,例如 AI 會指出某個防御塔防守薄弱,是理想的進攻目標(biāo),但需要注意埋伏的敵人。模型訓(xùn)練后仍保持原有的文本理解、數(shù)學(xué)推理與問答能力。

最終測試結(jié)果如下:
維拉后衛(wèi)孔薩曬與費德勒合照:拿下比賽,很榮幸與傳奇見面
體育播報12月12日宣 歐聯(lián)杯聯(lián)賽階段第6輪比賽,維拉客場2-1擊敗巴塞爾,各賽事取得8連勝。此役孔薩為維拉踢滿全...
2025-12-12
TA:赫伊森有望對陣阿拉維斯復(fù)出,姆巴佩和卡馬文加能否出戰(zhàn)成疑
體育播報12月12日宣 據(jù)TA報道,皇馬將在本來西甲聯(lián)賽中客場對陣阿拉維斯,西班牙中衛(wèi)赫伊森有望復(fù)出。赫伊森因...
2025-12-12
都體:尤文等豪門關(guān)注本菲卡17歲后衛(wèi)福爾莫索,穆帥稱他是新小麥
體育播報12月12日宣 據(jù)《都靈體育報》報道稱,尤文等多家豪門有意本菲卡17歲左后衛(wèi)何塞·福爾莫索。在本菲卡2...
2025-12-12
D席:曼奇尼一直想簽下我,加盟曼城是我職業(yè)生涯最好的決定之一
體育播報12月12日宣 近日,在馬里奧·蘇亞雷斯的播客《馬里奧之路》中,前西班牙國腳、曼城球員大衛(wèi)·席爾瓦回...
2025-12-12
阿斯:阿隆索帥位危險!之后每場都是大考,球隊體能未達(dá)應(yīng)有水平
體育播報12月12日宣 歐冠聯(lián)賽階段第6輪,皇馬主場1-2不敵曼城,賽后皇馬主帥阿隆索的未來得到了廣泛討論。《阿...
2025-12-12