精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

大模型開(kāi)始打王者榮耀了

人工智能
正如我們開(kāi)頭提到的,經(jīng)過(guò)SFT和GRPO訓(xùn)練(2000步)的Qwen-3-14B達(dá)到了90.91%的準(zhǔn)確率,超過(guò)了參數(shù)量大一個(gè)數(shù)量級(jí)的 Deepseek-R1(86.67%)。

大語(yǔ)言模型可以打王者榮耀了!

圖片圖片

騰訊最新提出的Think-In-Games (TiG) 框架,直接把大模型丟進(jìn)王者榮耀里訓(xùn)練。它不僅能實(shí)時(shí)理解盤面信息(英雄、發(fā)育、兵線、防御塔、資源、視野等),還能打出像人類玩家一樣的操作。

更炸裂的是,靠著這種“邊玩邊學(xué)”的訓(xùn)練方式,讓僅14B參數(shù)的Qwen-3-14B,干翻了671B的 Deepseek-R1,動(dòng)作精準(zhǔn)度高達(dá)90.91%

圖片圖片

那么問(wèn)題來(lái)了:它是怎么做到的?

TiG:邊玩邊學(xué)

總的來(lái)說(shuō),TiG將基于強(qiáng)化學(xué)習(xí)的決策重新定義為一種語(yǔ)言建模任務(wù)。大語(yǔ)言模型生成由語(yǔ)言指導(dǎo)的策略,然后根據(jù)環(huán)境反饋,通過(guò)在線強(qiáng)化學(xué)習(xí)進(jìn)行迭代優(yōu)化。

這一方法彌合了傳統(tǒng)大語(yǔ)言模型只知道為什么,但無(wú)法作出行動(dòng);強(qiáng)化學(xué)習(xí)只知道行動(dòng),卻無(wú)法解釋為什么的鴻溝。

為了實(shí)現(xiàn)這一方法,研究團(tuán)隊(duì)直接讓大語(yǔ)言模型在《王者榮耀》中行動(dòng),并解釋原因。

值得注意的是,在這一框架中,大語(yǔ)言模型主要學(xué)習(xí)了人類玩家在《王者榮耀》游戲中宏觀層面的推理能力

與微觀層面動(dòng)作(如精確技能施放)不同,宏觀層面推理優(yōu)先考慮長(zhǎng)期目標(biāo)和團(tuán)隊(duì)協(xié)同,涉及制定和執(zhí)行團(tuán)隊(duì)范圍的策略,例如控制目標(biāo)、地圖施壓和協(xié)調(diào)團(tuán)隊(duì)機(jī)動(dòng)

這也就意味著,與其說(shuō)TiG是一名職業(yè)選手,不如說(shuō)他是能精準(zhǔn)判斷場(chǎng)上局勢(shì)的金牌教練

具體來(lái)說(shuō),Tig將決策轉(zhuǎn)化為文本,模型通過(guò)讀取JSON獲取游戲狀態(tài),然后再?gòu)墓潭ú藛危ɡ缤七M(jìn)或防御)中選擇宏操作(如推上路”、“奪龍”、“防守基地”),并解釋為何如此。

圖片圖片

舉例來(lái)說(shuō),在上圖的游戲場(chǎng)景中,阿古朵,與隊(duì)友姜子牙在中路推進(jìn),目標(biāo)是敵方一座血量較低的一塔 。

基于此,模型先對(duì)游戲狀態(tài)進(jìn)行全面評(píng)估 。例如,“防御塔和野區(qū)保護(hù)機(jī)制均已失效”(對(duì)局已進(jìn)入中期)。然后分析優(yōu)先目標(biāo)(摧毀中路一塔),制定策略(聯(lián)合姜子牙前往敵方中路一塔,集中火力推塔)并提示風(fēng)險(xiǎn),

最后,模型將結(jié)合英雄的的理解,建議作為射手的阿古朵“保持安全距離輸出”,并與姜子牙的控制效果協(xié)同配合,并將這一指令輸出給玩家“聯(lián)合姜子牙推掉敵方中路一塔,注意敵方可能埋伏”。

為了實(shí)現(xiàn)上面在游戲中邊玩邊學(xué)的效果,研究團(tuán)隊(duì)先從真實(shí)游戲?qū)种胁蓸樱瑯?gòu)建數(shù)據(jù)集,為了確保每個(gè)游戲狀態(tài)都帶有一個(gè)宏觀級(jí)別的動(dòng)作標(biāo)簽,研究提出了“重新標(biāo)注算法”

該方法先在幀窗口內(nèi)進(jìn)行向后填充,再通過(guò)優(yōu)先級(jí)覆蓋機(jī)制確保每個(gè)狀態(tài)都標(biāo)注為最關(guān)鍵的宏觀動(dòng)作。這樣得到的密集且一致的序列,為后續(xù)的 GRPO 訓(xùn)練與基于規(guī)則的獎(jiǎng)勵(lì)函數(shù)提供了穩(wěn)健信號(hào)。

之后,為了在游戲環(huán)境中實(shí)現(xiàn)有效的戰(zhàn)略推理學(xué)習(xí),研究團(tuán)隊(duì)采用了Group Relative Policy Optimization (GRPO) 算法,以最大化生成內(nèi)容的優(yōu)勢(shì),并限制策略與參考模型之間的分歧。

圖片圖片

在獎(jiǎng)勵(lì)設(shè)置方面,TiG使用基于二元規(guī)則的獎(jiǎng)勵(lì),當(dāng)預(yù)測(cè)操作與人類游戲玩法匹配時(shí)為1,否則為0,從而保持更新的穩(wěn)定性和成本。

獎(jiǎng)勵(lì)是基于實(shí)戰(zhàn)積累的過(guò)程性知識(shí)、人類可讀的戰(zhàn)略規(guī)劃,以及依然保持完好的通用語(yǔ)言能力。

訓(xùn)練過(guò)程與實(shí)驗(yàn)結(jié)果

TiG采用多階段訓(xùn)練方法,結(jié)合了監(jiān)督微調(diào)(SFT)和強(qiáng)化學(xué)習(xí)(RL)來(lái)增強(qiáng)模型能力。

  • SFT階段:從Deepseek-R1中提取訓(xùn)練數(shù)據(jù)進(jìn)行SFT。這些數(shù)據(jù)展示了強(qiáng)大的推理能力,可以幫助較小的模型獲取深度推理能力。
  • 在線RL階段:使用真實(shí)游戲數(shù)據(jù),并利用GRPO算法訓(xùn)練模型。

在具體的實(shí)驗(yàn)中,研究探索了多種訓(xùn)練方法的組合方式。

  • GRPO:僅使用GRPO算法訓(xùn)練基礎(chǔ)模型,不進(jìn)行SFT訓(xùn)練。
  • SFT:僅使用SFT訓(xùn)練數(shù)據(jù)集訓(xùn)練基礎(chǔ)模型 。
  • SFT + GRPO :首先使用SFT訓(xùn)練基礎(chǔ)模型,然后應(yīng)用GRPO 算法進(jìn)一步訓(xùn)練,以提高模型的推理能力。

(注:為了評(píng)估模型的質(zhì)量,研究設(shè)置了以下不同規(guī)模的基線模型,包括Qwen-2.5-7B-Instruct、Qwen-2.5-14B-Instruct、Qwen-2.5-32B-Instruct、Qwen-3-14B-Instruct和Deepseek-R1)

實(shí)驗(yàn)結(jié)果表明:SFT和GRPO的組合能顯著提高不同模型規(guī)模的性能,Qwen-2.5-32B在應(yīng)用GRPO后,準(zhǔn)確率從 66.67% 提高到86.84%。而Qwen2.5-14B在依次應(yīng)用SFT和GRPO后,準(zhǔn)確率從53.25%提高到83.12%。

圖片圖片

此外,正如我們開(kāi)頭提到的,經(jīng)過(guò)SFT和GRPO訓(xùn)練(2000步)的Qwen-3-14B達(dá)到了90.91%的準(zhǔn)確率,超過(guò)了參數(shù)量大一個(gè)數(shù)量級(jí)的 Deepseek-R1(86.67%)。

綜上,TiG不僅彌合了“知其然”與“知其所以然”之間的鴻溝,還在數(shù)據(jù)量和計(jì)算需求顯著降低的情況下,取得了與傳統(tǒng)RL方法具有競(jìng)爭(zhēng)力的性能。

參考鏈接

[1]https://arxiv.org/abs/2508.21365

[2]https://x.com/rohanpaul_ai/status/1962499431137493195

責(zé)任編輯:武曉燕 來(lái)源: 量子位
相關(guān)推薦

2017-08-30 12:17:02

Python王者榮耀套路

2023-05-16 13:32:23

模型排行

2023-05-04 14:55:02

模型AI

2023-08-24 14:27:00

AI模型

2017-10-30 08:20:16

王者榮耀騰訊云游戲

2017-11-27 11:02:46

高并發(fā)突發(fā)池系統(tǒng)架構(gòu)王者榮耀

2017-11-21 09:25:23

2021-04-21 07:53:13

Android屏幕刷新

2024-06-28 11:04:32

2023-11-03 07:47:12

機(jī)器資源大模型:

2017-12-25 16:20:40

Python自動(dòng)化王者榮耀

2017-07-10 14:20:45

2017-06-09 18:31:00

電競(jìng)手游王者榮耀

2020-09-01 10:46:55

微服務(wù)架構(gòu)服務(wù)器

2020-07-10 08:27:55

王者榮耀微服務(wù)架構(gòu)

2021-08-06 06:49:19

王者榮耀項(xiàng)目IDEA

2024-07-31 08:14:17

2024-11-26 09:33:44

2024-12-26 00:46:25

機(jī)器學(xué)習(xí)LoRA訓(xùn)練
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

av黄色免费网站| 国产精品秘入口18禁麻豆免会员| 99精品人妻无码专区在线视频区| 亚洲视频中文| 亚洲天堂网在线观看| 成人性生交免费看| 草莓视频丝瓜在线观看丝瓜18| 99国产一区二区三精品乱码| 国产精品成熟老女人| 久久久久香蕉视频| 精品一区二区三区的国产在线观看| 日韩一二三区不卡| www.涩涩涩| av福利在线导航| 中文字幕一区在线| 欧美13一14另类| 在线观看免费高清视频| 一本久道综合久久精品| 久久精品中文字幕一区| 精品人妻无码一区二区三区 | 亚洲福利视频一区| 日日骚一区二区网站| 日韩在线观看视频一区| 久久99精品国产麻豆不卡| 欧美亚洲国产视频| 久草网在线观看| 99久久这里只有精品| 亚洲欧美国产日韩天堂区| 性折磨bdsm欧美激情另类| 精品久久福利| 一本到不卡免费一区二区| 分分操这里只有精品| www国产在线观看| 中文子幕无线码一区tr| 老司机精品福利在线观看| 欧美一级视频免费| 国产91精品一区二区麻豆网站| 国产精品永久免费观看| 国产无遮挡又黄又爽又色视频| 亚洲精品少妇| 久久久日本电影| 免费看一级一片| 中文字幕一区二区三区久久网站| 久久精品99久久香蕉国产色戒| 精品无码在线观看| 精品久久久久久久久久久下田| 国产视频自拍一区| 巨胸大乳www视频免费观看| 久久综合社区| 亚洲国产精品国自产拍av秋霞| 欧美图片自拍偷拍| 盗摄系列偷拍视频精品tp| 日韩欧美国产不卡| 国产精九九网站漫画| 亚洲精品18| 精品国产一区二区三区久久影院| 又大又长粗又爽又黄少妇视频| 日本免费精品| 精品三级av在线| 日本性生活一级片| 牛牛精品成人免费视频| 亚洲女人天堂成人av在线| 国产交换配乱淫视频免费| 国产精品亚洲二区| 国产午夜精品一区理论片飘花| 超薄肉色丝袜一二三| 日韩免费看片| 九九九热精品免费视频观看网站| 麻豆视频在线观看| 一区二区三区四区五区在线| 国产成人精品免费视频| 中文字幕乱码在线观看| 国产一区二区三区四| 动漫3d精品一区二区三区| 人妻少妇精品无码专区| 99精品桃花视频在线观看| 欧洲精品码一区二区三区免费看| 国产一二在线观看| 综合亚洲深深色噜噜狠狠网站| 丰满人妻一区二区三区53号| 99re6在线精品视频免费播放| 日韩欧美中文免费| 色婷婷一区二区三区av免费看| 精品久久免费| 亚洲精品中文字幕有码专区| av免费播放网站| 欧美在线免费| 国产成人aa精品一区在线播放| 一本一道人人妻人人妻αv| 国产精品一品视频| 欧美日韩在线精品| 亚洲精品一线| 日韩欧美在线视频免费观看| 亚洲热在线视频| 妖精一区二区三区精品视频| 久久精品视频一| 国产成人综合欧美精品久久| 加勒比av一区二区| 免费看成人av| 羞羞网站在线看| 在线欧美日韩精品| 亚洲av无码一区东京热久久| 成人综合久久| 国产91ⅴ在线精品免费观看| 国产精品国产一区二区三区四区| 97精品国产露脸对白| 中文字幕一区二区三区5566| 亚洲精品成人图区| 精品少妇一区二区三区免费观看| 欧美另类z0zx974| 最新成人av网站| 成人亚洲欧美一区二区三区| 免费毛片在线| 亚洲午夜免费电影| 国产永久免费网站| 激情综合网站| 欧美亚洲免费电影| 亚洲国产成人在线观看| 亚洲欧美自拍偷拍色图| www.日本xxxx| 日韩影视在线观看| 久久久久久久电影一区| 97人妻精品一区二区三区软件| 久久麻豆一区二区| 人妻久久久一区二区三区| 日韩视频一二区| 视频一区视频二区国产精品| 黄色污污网站在线观看| 91在线你懂得| 97超碰人人澡| 国产伦精品一区二区三区在线播放 | 亚洲黄色成人| 国产91视觉| 四虎亚洲成人| 日韩视频免费观看高清在线视频| 天堂网中文在线观看| 日本在线播放一区二区三区| 日本不卡一区二区三区在线观看 | 亚洲成人一二三| 精人妻一区二区三区| 欧美永久精品| 超碰97国产在线| 在线不卡日本v二区707| 欧美一级欧美一级在线播放| 国产一区二区三区在线视频观看| 久久超级碰视频| 一区二区不卡在线观看| 亚洲欧洲日韩精品在线| 日韩一区二区欧美| 99国产揄拍国产精品| 亚洲男同性视频| 中文字幕avav| 亚洲麻豆一区| 裸体丰满少妇做受久久99精品| 久草在线资源福利站| 亚洲精品国偷自产在线99热| 久久久国产高清| 久久久久久久国产精品影院| 无码人妻h动漫| 免费一区二区| 国产男女猛烈无遮挡91| 免费在线观看黄| 欧美一区二区在线免费观看| 性色av无码久久一区二区三区| 懂色一区二区三区免费观看| 波多野结衣综合网| 在线日韩一区| 国产美女精品视频| 波多野结衣在线高清| 日韩精品在线私人| 亚洲综合免费视频| 亚洲精品日韩一| 毛茸茸free性熟hd| 美女视频一区免费观看| 亚洲激情图片| 视频一区中文字幕精品| 国内揄拍国内精品少妇国语| 免费av在线电影| 91麻豆精品国产91久久久使用方法 | 色综合色狠狠综合色| 岛国片在线免费观看| 国产在线精品一区二区夜色 | 成人三级高清视频在线看| 亚洲激情在线视频| 中文字幕 视频一区| 亚洲综合一区在线| 制服 丝袜 综合 日韩 欧美| 国产一区二区在线电影| 91视频 -- 69xx| 国产精品91一区二区三区| 国产一区二区精品在线| 国产亚洲欧美日韩精品一区二区三区| 欧美情侣性视频| 国产高清一区在线观看| 日韩女同互慰一区二区| www.久久久久久久| 亚洲综合色噜噜狠狠| 337人体粉嫩噜噜噜| 成人午夜激情视频| 日本黄色的视频| 免费在线欧美黄色| 日本福利视频网站| 色综合久久一区二区三区| 狠狠久久综合婷婷不卡| 国产午夜精品一区在线观看 | 欧美视频二区欧美影视| 国产不卡av在线| 超黄网站在线观看| 欧美精品在线第一页| 国产三级视频在线| 亚洲精品理论电影| av中文字幕在线免费观看| 色8久久人人97超碰香蕉987| 国产黄色片视频| 亚洲天堂免费在线观看视频| av黄色在线免费观看| av不卡一区二区三区| 秋霞午夜鲁丝一区二区 | 日韩av无码一区二区三区不卡| 蜜乳av一区二区| 亚洲爆乳无码专区| 亚洲国产一区二区精品专区| 国产一级不卡视频| 91精品国产91久久久久久密臀| 日韩欧美电影一区二区| 一区二区三区四区在线看| 国产在线一区二| 一区二区三区四区精品视频| 91亚洲精品久久久| 亚洲国产伊人| 成人激情视频在线观看| 美女视频一区| 国产精品爽黄69| 99久久伊人| 国产精品高潮呻吟视频| 精品视频在线一区二区在线| 日本精品久久中文字幕佐佐木| 国产拍在线视频| 45www国产精品网站| bbw在线视频| 4p变态网欧美系列| 高清不卡av| 国产精品大陆在线观看| 91精品xxx在线观看| 国产成人免费av电影| 欧美精选视频一区二区| 国产精品久久久久久久9999| yiren22亚洲综合| 国产日韩在线视频| 亚洲一区导航| 亚洲在线视频福利| 亚洲一区二区三区中文字幕在线观看 | 99re只有精品| 欧美一级淫片007| 亚洲av无码一区二区乱子伦| 亚洲成人激情在线| 手机在线精品视频| 亚洲欧美精品在线| 97视频精彩视频在线观看| 色av中文字幕一区| 日本无删减在线| 91国产视频在线| 欧美特黄aaaaaaaa大片| 国产精品直播网红| 懂色av色香蕉一区二区蜜桃| 国产精品久久国产三级国电话系列| 国产 日韩 欧美 综合 一区| 欧美一区二区三区四区夜夜大片 | 亚洲精品久久久蜜桃动漫| 亚洲第一中文字幕| 国产一区精品| 欧美成人免费全部| 多野结衣av一区| 国产精品入口尤物| 欧美午夜在线播放| 蜜桃免费一区二区三区| 久久一区二区中文字幕| 国产黄色激情视频| 日韩中文字幕91| 亚洲成人手机在线观看| 99re亚洲国产精品| 国产三级aaa| 欧美日韩一区二区三区| 91国产精品一区| 日韩成人xxxx| 麻豆系列在线观看| 欧美亚洲另类制服自拍| 成人自拍视频| 热re99久久精品国99热蜜月| 欧美成人一品| 亚洲一二三区av| 国产91精品一区二区| 美国一级黄色录像| 午夜不卡在线视频| 国产美女明星三级做爰| 精品亚洲夜色av98在线观看 | 日韩成人影院| 日韩小视频网站| 韩国av一区二区| 大又大又粗又硬又爽少妇毛片 | 久久艹在线视频| 欧美电影免费观看高清完整| 999视频在线观看| 热久久天天拍国产| 国产精品丝袜久久久久久消防器材| 极品少妇xxxx精品少妇| 国产免费一区二区三区网站免费| 亚洲影视在线播放| 91麻豆成人精品国产免费网站| 亚洲欧美一区二区三区情侣bbw| 免费在线看污片| 亚洲综合大片69999| 成人影院在线| 日韩中文字幕二区| 99久久久久免费精品国产| av成人免费网站| 欧美人成免费网站| 国产美女视频一区二区三区 | 无码视频一区二区三区| 亚洲精品动漫100p| 最新国产露脸在线观看| 国产精品专区第二| 精品少妇av| 国产成人无码一二三区视频| 成人ar影院免费观看视频| 亚洲天堂黄色片| 91精品国产综合久久福利| 日p在线观看| 国产精品一区二区3区| 精品freesex老太交| 妺妺窝人体色www在线小说| 99久久精品费精品国产一区二区| 国产午夜精品无码一区二区| 精品欧美久久久| 韩国日本一区| 国产区二精品视| 99精品福利视频| 日本护士做爰视频| 精品久久在线播放| 色吊丝在线永久观看最新版本| 2021国产精品视频| 亚洲免费观看高清完整版在线观| 国产主播在线看| 国产日韩欧美制服另类| 久久久久久av无码免费看大片| 永久555www成人免费| 岛国精品在线| 美女在线免费视频| 成人激情小说乱人伦| 黄色激情视频在线观看| 精品伊人久久97| 日韩高清在线| 综合久久国产| 国产风韵犹存在线视精品| 国产精品9191| 亚洲美女av在线播放| 香蕉成人影院| 蜜桃视频成人在线观看| 成人在线一区二区三区| 超碰中文字幕在线| 伊人精品在线观看| 国产精品一区二区精品| 亚洲理论电影在线观看| 97国产一区二区| 亚洲精品一区二区二区| 久久久精品国产网站| 久久夜色精品国产噜噜av小说| 欧美黄色一级片视频| 亚洲精品一二三| 天堂在线视频网站| 国产精品爽爽爽爽爽爽在线观看| 亚洲一区色图| 中文字幕一区二区久久人妻网站 | 亚洲乱码精品一二三四区日韩在线| 亚洲国产精品无码久久| 26uuu久久噜噜噜噜| 日韩大片在线播放| 日韩av无码一区二区三区不卡 | 亚洲免费视频网| 国产精品99久久久久久人| 图片区亚洲欧美小说区| yy1111111| 欧美二区在线观看| 国产极品在线观看| 亚洲一卡二卡| 99精品视频在线播放观看| 一区不卡在线观看| 97国产在线观看| 香蕉久久网站| 伊人网在线视频观看| 日韩一级高清毛片| 日韩高清在线| 免费在线观看亚洲视频| 国产精品传媒视频| 欧美套图亚洲一区| 99在线影院| 麻豆精品国产传媒mv男同| 日韩精品一区二区不卡| 久久精品电影网| 精品久久久久久久久久久下田 |