精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

多模態(tài)模型學(xué)會打撲克:表現(xiàn)超越GPT-4v,全新強化學(xué)習(xí)框架是關(guān)鍵

人工智能
智能體在執(zhí)行玩21點的任務(wù)時,系統(tǒng)直接要求多模態(tài)模型根據(jù)目前的狀態(tài),在輸出思維鏈之后選擇“停牌” (stand)或者“拿牌”(hit),然后直接將對應(yīng)的動作輸入到環(huán)境中,得到獎勵函數(shù)值以及下一個狀態(tài)。

只用強化學(xué)習(xí)來微調(diào),無需人類反饋,就能讓多模態(tài)大模型學(xué)會做決策!

這種方法得到的模型,已經(jīng)學(xué)會了看圖玩撲克、算“12點”等任務(wù),表現(xiàn)甚至超越了GPT-4v。

圖片圖片

這是來自UC伯克利等高校最新提出的微調(diào)方法,研究陣容也是相當豪華:

  • 圖靈獎三巨頭之一、Meta首席AI科學(xué)家、紐約大學(xué)教授LeCun
  • UC伯克利大牛、ALOHA團隊成員Sergry Levine
  • ResNeXt一作、Sora基礎(chǔ)技術(shù)DiT作者謝賽寧
  • 香港大學(xué)數(shù)據(jù)科學(xué)學(xué)院院長、UC伯克利教授馬毅

圖片圖片

該方法名為RL4VLM,論文預(yù)印本已經(jīng)上線,相關(guān)代碼也已在GitHub中開源。

RL4VLM提出了一種新的算法框架,直接使用強化學(xué)習(xí)方法對多模態(tài)大模型進行微調(diào)。

其中獎勵信息直接來源于環(huán)境當中,擺脫了RLHF中對于人類反饋的需要,從而直接賦予了多模態(tài)模型決策能力。

圖片圖片

對于RL4VLM的意義,參與了這項工作的馬毅教授這樣說:

一方面希望大家對模型真實性能有更客觀清醒的認識;
另一方面,也希望能建立一個平臺,支持探索如何進一步提升模型性能。

圖片圖片

那么,用這種方法微調(diào)出來的多模態(tài)大模型,都能讓智能體學(xué)會哪些能力呢?

多模態(tài)決策能力超GPT-4v

為了評估訓(xùn)練出的多模態(tài)大模型給智能體帶來的能力,作者一共使用了兩類物種評測任務(wù):

  • 第一類任務(wù)(a-d) 主要考驗?zāi)P屠脠D像中的細粒度視覺信息做決策的能力,包括對于數(shù)字的識別能力和利用識別的數(shù)字進行邏輯推理的能力
  • 第二類任務(wù)(e)主要考察多模態(tài)大模型在具身智能環(huán)境中的視覺語義推理能力。

具體來說,這五個任務(wù)分別是:

  • a.數(shù)軸(Numberline):模型需要通過輸出“+” 或者 “-”,將當前數(shù)字移動到目標數(shù)字
  • b.簡易12點(EZPoint):模型需要識別兩張牌,并用加號和乘號運算“12點”

c.24點(Point24): 模型需要識別四張牌,并用加減乘除和括號運算“24點”

  • d.21點(Blackjack):模型需要通過牌面上的信息來決定“要牌”或者“停牌”
  • e.ALFWorld:一個標準具身智能環(huán)境

圖片圖片

其中任務(wù)a-d為作者的原創(chuàng)任務(wù),任務(wù)e的ALFWorld是微軟等于2020年提出的開源具身智能任務(wù)集。

實驗結(jié)果表明,直接使用強化學(xué)習(xí)微調(diào)7B的多模態(tài)模型之后,能使其在兩類決策問題上的表現(xiàn)超過商用模型GPT-4v Gemini,同時也能超過傳統(tǒng)的監(jiān)督微調(diào)(SFT)方法。

而在ALFWorld的具身智能任務(wù)中,作者的模型也取得了最高的平均分,特別是在單物體拾取任務(wù)上表現(xiàn)尤為突出。

圖片圖片

先生成思維鏈,再做決策

這套VLM智能體主要解決的是需要視覺識別和語言理解的任務(wù),它的工作流程是這樣的:

首先,對于每一個任務(wù),系統(tǒng)會直接將該任務(wù)的當前狀態(tài),以圖片和文字描述的形式輸入多模態(tài)大模型,并要求模型輸出一段思維鏈之后,再以文字形式輸出要執(zhí)行的動作。

最后將,動作信息會被輸入進對應(yīng)的環(huán)境并獲得獎勵值,該獎勵值會被用來進行強化學(xué)習(xí)訓(xùn)練。

例如下圖中,智能體在執(zhí)行玩21點的任務(wù)時,系統(tǒng)直接要求多模態(tài)模型根據(jù)目前的狀態(tài),在輸出思維鏈之后選擇“停牌” (stand)或者“拿牌”(hit),然后直接將對應(yīng)的動作輸入到環(huán)境中,得到獎勵函數(shù)值以及下一個狀態(tài)。

圖片圖片

為了能用直接將強化學(xué)習(xí)運用到多模態(tài)模型的訓(xùn)練中,需要對模型的輸入和輸出做一些調(diào)整,以適應(yīng)RL訓(xùn)練框架中。

具體來說,作者將任務(wù)圖像o和任務(wù)描述的文本v-in合并后,直接作為當前任務(wù)的狀態(tài)s,即:s = [o, v-in]

在獲得了多模態(tài)模型的文字輸出v-out以后,該框架直接將其中文字形式的動作(“action: {act}”) 轉(zhuǎn)化為可與環(huán)境交互的動作指令a。

接下來把a輸入到環(huán)境當中,就能獲得獎勵函數(shù)r,以及操作后的下一個狀態(tài)。

在獲得了來自環(huán)境的獎勵函數(shù)r之后,文章利用PPO直接對整個多模態(tài)模型進行微調(diào)。

而從提示詞上看,這項研究采取了如下的提示過程作為多模態(tài)模型的輸入,并且給出了期望的輸出形式:

(其中藍色的部分是讓模型生成思維鏈提示過程, 紅色的部分是告訴模型以文字形式輸出動作a)。

圖片圖片

消融實驗結(jié)果表明,如果這一過程中不采用思維鏈,則任務(wù)成功率會出現(xiàn)大幅下降。

圖片圖片

論文地址:https://arxiv.org/abs/2405.10292GitHub:https://github.com/RL4VLM/RL4VLM

責(zé)任編輯:武曉燕 來源: 量子位
相關(guān)推薦

2024-04-14 19:53:44

2023-10-17 12:34:04

2024-06-27 13:10:21

2025-05-06 08:40:00

2023-10-12 09:28:17

2024-06-11 08:16:00

2023-08-28 06:52:29

2023-10-10 13:42:56

訓(xùn)練數(shù)據(jù)

2023-10-12 13:05:00

谷歌AI

2023-12-22 12:41:01

模型訓(xùn)練

2023-11-04 12:23:39

GPT-4AI

2023-10-19 09:32:45

自動駕駛技術(shù)

2024-02-06 09:00:00

GPT-4VLLaVA大型語言

2024-02-02 21:53:58

AI訓(xùn)練

2025-09-28 15:35:32

AI模型強化學(xué)習(xí)

2025-02-06 09:11:54

2023-11-13 07:48:08

AI檢測

2025-06-11 08:54:52

2023-10-17 13:36:00

人工智能數(shù)據(jù)

2025-02-05 12:53:21

點贊
收藏

51CTO技術(shù)棧公眾號

午夜精品久久久久久久久久蜜桃| 91激情在线观看| 欧美激情久久久久久久久久久| 精品福利在线视频| 五月天国产一区| 国产女人高潮的av毛片| 黄色亚洲在线| 在线电影中文日韩| 波多野结衣电影免费观看| 日韩在线伦理| 1024精品合集| 欧美精品一区二区三区在线四季| 国产一区二区网站| 国产精品美女| 久久国产精品影片| 三级网站在线免费观看| 韩国三级成人在线| 在线观看国产日韩| 国产高清www| 尤物网址在线观看| 99国产精品久| 亚洲xxxx3d| 亚洲第一网站在线观看| 午夜日韩在线| 日韩一区在线视频| 性欧美13一14内谢| 日韩在线网址| 日本韩国欧美三级| 隔壁人妻偷人bd中字| 日本在线免费中文字幕| 久久久电影一区二区三区| 国产经典一区二区三区| 中文字幕免费高清在线观看| 99精品免费网| 欧美激情一级欧美精品| 一起操在线播放| 天天躁日日躁狠狠躁欧美巨大小说| 91精品在线观看入口| 人妻熟女一二三区夜夜爱| 免费在线看污片| 国产精品久久99| 日韩精彩视频| 你懂的免费在线观看视频网站| 成人国产在线观看| 91久久精品www人人做人人爽| 亚洲视频在线免费播放| 免费一级片91| 国产精品丝袜久久久久久高清| 国产精品99精品| 欧美精品97| 欧美精品免费在线观看| 四虎影院中文字幕| 亚洲欧美色图| 久久久精品久久久久| 国产小视频你懂的| 99视频精品全国免费| 色黄久久久久久| 欧美a在线播放| 超碰成人久久| 色老头一区二区三区在线观看| 日本高清黄色片| 日韩免费看片| 久久成人av网站| 国产女片a归国片aa| 亚洲情侣在线| 欧美丰满片xxx777| 国产无套内射又大又猛又粗又爽| 影音国产精品| 欧美亚洲视频一区二区| 国产精品久久久久久久久久精爆| 久久精品在线| 国产精品久久久久免费a∨大胸| 日本成人一级片| 久久国产免费看| 亚洲综合精品伊人久久| 后入内射欧美99二区视频| 99久久精品情趣| 日韩欧美视频一区二区| 久久77777| 亚洲一区二区成人在线观看| 五十路熟女丰满大屁股| 亚洲国产福利| 欧美男男青年gay1069videost| 天堂av手机在线| 盗摄牛牛av影视一区二区| 亚洲欧美综合区自拍另类| 日韩人妻无码精品综合区| 欧美gvvideo网站| 久久久久日韩精品久久久男男| 日韩毛片一区二区三区| 捆绑调教一区二区三区| av日韩免费电影| 蝌蚪视频在线播放| 亚洲天堂精品视频| 熟女少妇在线视频播放| 精品三级在线| 亚洲国产精品人人爽夜夜爽| 亚洲a v网站| 欧美 日韩 国产精品免费观看| 97av在线视频| 国产一区二区三区三州| av在线播放不卡| 亚洲高清视频在线观看| 国产天堂在线播放视频| 欧美日韩午夜在线| 欧美久久久久久久久久久| 日韩欧美国产精品综合嫩v| 欧美黑人狂野猛交老妇| 亚洲午夜无码久久久久| 成人精品国产福利| 杨幂一区欧美专区| 日韩脚交footjobhd| 欧美一区二区视频观看视频| 精品人妻无码一区二区三区 | 国产99在线观看| 欧美日韩美女一区二区| 玖玖爱在线观看| 一本到12不卡视频在线dvd| 国产成人精品综合久久久| 亚洲成人中文字幕在线| 国产精品嫩草久久久久| 男人的天堂99| 免费看成人人体视频| 欧美www在线| 中文字幕+乱码+中文乱码91| av网站一区二区三区| 肉大捧一出免费观看网站在线播放| 欧美片第一页| 亚洲黄色在线观看| 免费在线一区二区三区| 久久精品国产77777蜜臀| 免费成人看片网址| 韩国成人二区| 亚洲精品电影在线观看| 久久精品第一页| 国产呦萝稀缺另类资源| 亚洲一区二区三区欧美| 成人在线免费av| 揄拍成人国产精品视频| 男人天堂av在线播放| 91丨九色丨国产丨porny| 国产www免费| 成人黄色av网址| 欧美精品激情视频| 亚洲毛片在线播放| 一区二区成人在线| 日韩av成人网| 雨宫琴音一区二区在线| 国产精品国产三级国产专区53| 污片在线免费观看| 日韩欧美成人午夜| 久久久精品99| 成人在线一区二区三区| 真人抽搐一进一出视频| 麻豆成人入口| 5566日本婷婷色中文字幕97| 日产精品久久久久久久性色| 狠狠久久亚洲欧美专区| 一级黄色片大全| 日本欧美一区二区三区| 在线无限看免费粉色视频| 成人噜噜噜噜| 欧美激情视频免费观看| 日韩一级片免费在线观看| 亚洲成人手机在线| 99久久久久久久久久| 久久久久久网| 亚洲国产精品日韩| 国产精品日本一区二区不卡视频 | 成人精品视频一区二区三区尤物| 中文字幕无码精品亚洲资源网久久| 欧美人妖视频| 国产精品嫩草视频| 超碰在线观看免费| 亚洲大胆人体视频| 国产成人无码av| 亚洲欧洲一区二区在线播放| 农村末发育av片一区二区| 99亚洲伊人久久精品影院红桃| 乱色588欧美| 亚洲欧美一级| 国模精品系列视频| 国产视频三级在线观看播放| 91精品国产91久久久久久一区二区| 久草国产在线观看| 国产亚洲欧美一区在线观看| 九九九九九伊人| 一区二区久久| 中文字幕制服丝袜在线| 国产主播性色av福利精品一区| 国产成人综合精品在线| 成人看av片| 亚洲男人第一网站| 国产精品无码天天爽视频| 午夜一区二区三区视频| 午夜黄色福利视频| av不卡一区二区三区| 亚洲成人福利在线| 一区二区国产精品| 麻豆中文字幕在线观看| 精品一区欧美| 成人区精品一区二区| 欧美性片在线观看| 久久免费精品视频| 毛片av在线| 精品一区二区三区四区| 国产夫妻自拍av| 欧美性高清videossexo| 日韩久久久久久久久| 日韩毛片高清在线播放| 日本高清www| 成人精品视频一区二区三区尤物| 亚洲娇小娇小娇小| 久久精品毛片| 日韩精品视频在线观看视频 | 日韩中文视频免费在线观看| 婷婷色在线观看| 日韩一区和二区| 中文字幕免费播放| 日本精品一级二级| 成人精品免费在线观看| 最新国产成人在线观看| 亚洲人成人无码网www国产| 成人av免费观看| 久久久久久无码精品人妻一区二区| 日本欧美一区二区在线观看| 久久久久久久久久久久久国产精品 | 日韩精品免费视频| 蜜臀久久久久久999| 欧美一区二区三区啪啪| 91影院在线播放| 欧美日韩一区二区三区在线看| 伊人久久久久久久久久久久| 欧美性高潮床叫视频| 国产成人亚洲欧洲在线| 亚洲综合激情网| 免费一级肉体全黄毛片| 亚洲精品欧美二区三区中文字幕| 成人片黄网站色大片免费毛片| 99re66热这里只有精品3直播| 久久久久久久久久影视| 国产成人免费av在线| 女教师高潮黄又色视频| 国产久卡久卡久卡久卡视频精品| 欧美丝袜在线观看| 激情都市一区二区| 在线a免费观看| 国产宾馆实践打屁股91| 国模大尺度视频| 岛国精品在线观看| 成年女人免费视频| 成人黄色国产精品网站大全在线免费观看 | 日本老太婆做爰视频| 久久精品亚洲欧美日韩精品中文字幕| 亚洲精品久久区二区三区蜜桃臀 | 中文字幕日韩专区| 日本网站在线免费观看视频| 久久视频这里只有精品| 日本孕妇大胆孕交无码| 久久久噜久噜久久综合| ****av在线网毛片| 欧美一级在线播放| 成人精品国产亚洲| 91免费观看网站| 88久久精品| 精品国产乱码久久久久久蜜柚| 亚洲激情播播| 一本一本a久久| 欧美大片一区| 亚洲美免无码中文字幕在线 | 深夜做爰性大片蜜桃| 国产suv精品一区二区三区| 国产黑丝在线观看| 国产日韩三级在线| 日本午夜在线观看| 婷婷综合在线观看| 中文字幕日韩第一页| 欧美一区二区免费视频| 日韩专区第一页| 中文字幕欧美精品日韩中文字幕| 超碰在线网址| 日本一本a高清免费不卡| 91精品福利观看| 国内精品久久久久久久果冻传媒| 极品美女一区二区三区| 青青在线免费视频| 翔田千里一区二区| 波多野结衣网页| 91麻豆高清视频| 亚洲天堂网av在线| 欧美视频不卡中文| 国产精品一区二区人人爽| 亚洲精品成人免费| 毛片网站在线免费观看| 欧洲美女7788成人免费视频| 亚洲我射av| 欧美裸体网站| 国产主播精品| 中文av一区二区三区| 99久久综合国产精品| 免费中文字幕日韩| 色狠狠综合天天综合综合| 国产福利第一视频| 日韩在线视频二区| 超级碰碰久久| 国产精品二区三区四区| 日韩在线观看电影完整版高清免费悬疑悬疑| 日韩精品在线观看av| 美女视频黄久久| 9.1成人看片| 亚洲激情五月婷婷| 亚洲影视一区二区| 亚洲人成伊人成综合网久久久| 色女人在线视频| 国产又爽又黄的激情精品视频| 影视先锋久久| 国产妇女馒头高清泬20p多| 黄一区二区三区| 少妇的滋味中文字幕bd| 日韩欧美亚洲综合| 特黄视频在线观看| 欧美极品xxxx| 日韩精品成人在线观看| 亚洲欧洲久久| 麻豆精品一区二区综合av| 亚洲激情视频小说| 色综合久久中文字幕| 天堂av在线免费| 国内精品在线一区| 玖玖玖视频精品| 男同互操gay射视频在线看| 久久电影国产免费久久电影| 中文字幕免费视频| 色噜噜狠狠成人中文综合| 亚洲人成色777777老人头| 91国产精品电影| 99久久香蕉| 欧美一级欧美一级| 成人精品小蝌蚪| 国产成人亚洲欧洲在线| 日韩av在线网站| 午夜激情电影在线播放| 精品综合久久| 麻豆久久婷婷| 337人体粉嫩噜噜噜| 欧洲在线/亚洲| 色视频在线免费观看| 国产精品综合不卡av| 色小子综合网| 三日本三级少妇三级99| 亚洲精品久久7777| 亚洲成人第一区| 羞羞色国产精品| 亚洲三级精品| 亚洲欧美在线精品| 中文字幕一区视频| 精品国产av鲁一鲁一区| 欧美极品第一页| 伊人久久大香线蕉综合网蜜芽| 黄色片在线免费| 日韩美女久久久| 国模私拍视频在线| 2019日本中文字幕| 欧美亚洲国产激情| 亚洲av无日韩毛片久久| 一区二区三区四区不卡在线| 香蕉视频黄在线观看| 国产999视频| 国产精品久久久久一区二区三区厕所| 视频区 图片区 小说区| 亚洲电影第三页| 国产香蕉在线| 亚洲综合社区网| 国产亚洲精品v| 少妇的滋味中文字幕bd| 欧美大肚乱孕交hd孕妇| 欧亚在线中文字幕免费| 亚洲国产精品久久久久婷婷老年| 国产乱码精品一区二区三| 91久久国产视频| 在线中文字幕日韩| 国产一区二区av在线| jizzjizz国产精品喷水| 国产精品美女久久久久久久久| 亚洲第一成人av| 国产成人亚洲综合| 午夜日韩在线| 国产真人做爰视频免费| 日韩欧美一二区| 三级成人黄色影院| 日韩精品久久一区二区| 国产色产综合产在线视频| www.看毛片| 国产精品青草久久久久福利99| 欧美日韩专区| jizz日本在线播放| 亚洲精品电影在线| 日本一区二区三区播放| 午夜欧美福利视频| 亚洲国产va精品久久久不卡综合|