精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

ACL 2024論文蓋棺定論:大語言模型≠世界模擬器,Yann LeCun:太對了

人工智能 新聞
如果 GPT-4 在模擬基于常識任務的狀態變化時準確率都只有約 60%,那么我們還要考慮將大語言模型作為世界模擬器來使用嗎?

最近兩天,一篇入選 ACL 2024 的論文《Can Language Models Serve as Text-Based World Simulators?》在社交媒體 X 上引發了熱議,就連圖靈獎得主 Yann LeCun 也參與了進來。

這篇論文探討的問題是:當前語言模型本身是否可以充當世界模擬器,并正確預測動作如何改變不同的世界狀態,從而避免大量手動編碼的需要呢

針對這一問題,來自亞利桑那大學、紐約大學、約翰斯?霍普金斯大學、微軟研究院、 艾倫人工智能研究所等機構的研究者在「基于文本的模擬器」上下文中給出了他們的答案。

他們認為:語言模型并不能作為世界模擬器使用。比如,GPT-4 在模擬基于常識任務(如燒開水)的狀態變化時,準確率僅為約 60%。

圖片x 地址:https://x.com/peterjansen_ai/status/1801687501557665841

Yann LeCun 對這篇論文的發現表示了認同,并認為「沒有世界模型,也就沒有規劃。」

圖片X 地址:https://x.com/ylecun/status/1801978192950927511

不過也有人表達了不同的觀點:當前 LLM(沒有進行針對性任務訓練)的準確率可以達到 60%,這不就說明了它們至少是「一定程度上的世界模型」嗎?并且會隨著 LLM 的迭代而持續改進。LeCun 又表示,世界模型不會是 LLM。

圖片

回到論文中,研究者構建并使用了一個全新的基準,他們稱為「ByteSized32-State-Prediction」,包含了一個文本游戲狀態轉換和隨附游戲任務組成的數據集。他們首次使用該基準來直接量化大語言模型(LLM)作為基于文本的世界模擬器的性能。

通過在這個數據集上測試 GPT-4,研究者發現:盡管它的性能令人印象深刻,但如果沒有進一步的創新,它仍然是一個不可靠的世界模擬器。

因此,研究者認為,他們的工作既為當前 LLM 的能力和弱點提供了新的見解,也為跟蹤新模型出現時的未來進展提供了一個新的基準。

圖片

論文地址:https://arxiv.org/pdf/2406.06485

方法概覽

研究者探究了 LLM 在基于文本的虛擬環境中充當世界模擬器的能力,在這種環境中,智能體接收觀察結果并以自然語言提出操作以完成某些目標。

每個文本環境都可以正式表示為具有 7 元組 (S,A,T,O,R,C,D) 的目標條件部分可觀察馬爾可夫決策過程 (POMDP),S 表示狀態空間,A 表示動作空間,T : S×A→S 表示轉換函數,O 表示觀察函數,R : S×A→R 表示獎勵函數,C 表示描述目標和動作語義的自然語言「上下文消息」,D : S×A→{0,1} 表示二元完成指示函數。

大模型模擬器(LLM-Sim)任務

研究者提出了一個預測任務,稱它為 LLM as-a-Simulator (LLM-Sim),用來定量評估語言模型作為可靠模擬器的能力

LLM-Sim 任務是將一個函數 F : C×S×A→S×R×{0,1} 作為世界模擬器來實現。在實踐中,完整狀態轉換模擬器 F 應該考慮兩種類型的狀態轉換:動作驅動轉換和環境驅動轉換

圖 1 為使用 LLM 作為文本游戲模擬器的示例:打開水槽后,水槽中的杯子被水填滿的過程。動作驅動轉換是采取打開水槽的動作后,水槽被打開(isOn=true);而環境驅動轉換是在水槽打開時,水填滿水槽中的杯子。

圖片

為了更好地理解 LLM 對每個轉換進行建模的能力,研究者進一步將模擬器函數 F 分解為三個步驟:

圖片

  • 動作驅動轉換模擬器:給定 c、s_t 和 a_t, F_act:C×S×A→S 預測 s^act_t+1,其中 s^act_t+1 表示動作引起的直接狀態變化。
  • 環境驅動轉換模擬器:給定 c 和 s^act_t+1,F_env:C×S→S 預測 s_t+1,其中 s_t+1 是任何環境驅動轉換后產生的狀態。
  • 游戲進度模擬器:給定 c、s_t+1 和 a_t, F_R:C×S×A→R×{0,1} 預測獎勵 r_t+1 和游戲完成狀態 d_t+1。

此外,研究者考慮了 LLM-Sim 任務的兩種變體

  • 完整狀態預測:LLM 輸出完整狀態。
  • 狀態差異預測:LLM 僅輸出輸入和輸出狀態之間的差異。

數據和評估

為了完成這一任務,研究者引入了一個新的文本游戲狀態轉換數據集。該數據集為 「BYTESIZED32-State-Prediction (BYTESIZED32-SP) 」,它包含 76,369 個轉換,表示為 (c,s_t,rt,d_t,a_t,s^act_t+1,s_t+1,r_t+1,d_t+1) 元組。這些轉換是從 31 個不同的文本游戲中收集的。

下表 1 總結了額外語料庫統計數據。

圖片

LLM-Sim 上的性能由模型相對于測試樣本數據集上的真實標簽的預測準確性來決定。根據實驗條件,LLM 必須模擬對象屬性(模擬 F_act、F_env 或 F)和 / 或游戲進度(模擬 F_R 或 F),定義如下:

  • 對象屬性:游戲中所有對象、每個對象的屬性(如溫度、大小),以及與其他對象的關系(如在另一個對象內或之上)。
  • 游戲進度:智能體相對于總體目標的狀態,包括當前累積的獎勵、游戲是否已終止以及總體目標是否已實現。

研究者注意到,在每種情況下,LLM 都提供了 ground truth 先前狀態(當函數為 F_env 時,先前狀態為 s^act_t+1 )以及整體任務上下文。也就是說,LLM 始終執行單步預測。

實驗結果

上圖 1 演示了研究者使用上下文學習評估 LLM-Sim 任務中模型的性能。他們評估了 GPT-4 在完整狀態和狀態差異預測機制中的準確性。該模型接收先前狀態(編碼為 JSON 對象)、先前操作和上下文消息,并生成后續狀態(作為完整的 JSON 對象或差異)。

下表 2 展示了 GPT-4 模擬完整狀態轉換的準確性,以及單獨模擬動作驅動轉換和環境驅動轉換的準確性。

圖片

研究者得出了以下幾項重要發現:

預測動作驅動轉換比預測環境驅動轉換更容易。在最好的情況下,GPT-4 能夠正確模擬 77.1% 的動態動作驅動轉換。相比之下,GPT-4 最多只能正確模擬 49.7% 的動態環境驅動轉換。

預測靜態轉換比動態轉換更容易。不出所料,在大多數情況下,對靜態轉換進行建模比對動態轉換進行建模要容易得多。

對于動態狀態,預測完整游戲狀態更容易;而對于靜態狀態,預測狀態差異更容易。預測動態狀態的狀態差異可以顯著提高模擬靜態轉換的性能(>10%),而模擬動態轉換時的性能會降低。

游戲規則很重要,LLM 能夠生成足夠好的游戲規則。當上下文消息中未提供游戲規則時,GPT-4 在所有三個模擬任務上的性能在大多數情況下都會下降。

GPT-4 在大多數情況下都能預測游戲進度。下表 3 展示了 GPT-4 預測游戲進度的結果。在上下文中加入了游戲規則信息后,GPT-4 可以在 92.1% 的測試用例中正確預測游戲進度。這些規則的存在在上下文中至關重要:如果沒有它們,GPT-4 的預測準確率會下降到 61.5%。

圖片

人類在 LLM-Sim 任務中的表現優于 GPT-4。研究者對 LLM-Sim 任務進行了初步的人類研究。結果見下表 4。

結果發現,人類的整體準確率為 80%,而采樣的 LLM 的準確率為 50%,并且不同注釋者之間的差異很小。這表明,雖然任務對于人類來說總體上是直觀且相對容易的,但對于 LLM 來說仍有很大的改進空間。 

圖片

GPT-4 在需要算術、常識或科學知識時更容易出錯。下圖 2 展示了在整體狀態轉換、動作驅動轉換和環境驅動轉換中,預測結果的正確比例、將屬性設置為不正確值的比例或未能更改屬性值的比例。

我們可以觀察到,GPT-4 能夠很好地處理大多數簡單的布爾值屬性。錯誤集中出現在需要算術(如溫度、timeAboveMaxTemp)、常識(如 current_aperture、current_focus)或科學知識(如 on)的非平凡屬性上。

圖片

更多技術細節和實驗結果請參閱原論文。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-03-18 07:12:05

2025-10-23 16:38:30

2023-10-12 16:37:36

模型學習

2022-08-25 10:31:57

模型人工智能

2024-02-27 09:43:48

視頻模型

2025-11-12 09:00:00

2013-01-06 10:44:43

微軟Windows 8云計算

2023-03-16 18:10:00

模型AI

2024-05-13 12:53:06

AI模型

2019-02-01 11:14:34

AI 行業 人工智能

2022-09-21 11:29:05

數據分析業務復盤

2024-03-05 11:18:14

模型訓練

2024-12-09 07:15:00

世界模型AILLM

2025-11-17 08:46:00

AI模型技術

2023-01-02 13:33:25

2011-03-02 09:21:14

iPad蘋果喬布斯

2023-12-27 13:46:00

2024-09-04 13:40:00

2009-09-14 09:59:19

CCNA模擬器介紹CCNA

2022-02-28 11:10:05

AI機器學習模型
點贊
收藏

51CTO技術棧公眾號

免费无码国产精品| 欧美做受喷浆在线观看| 日本无删减在线| 成人av免费观看| 日韩女在线观看| 日本少妇aaa| 成人知道污网站| 欧美午夜视频网站| 国产一线二线三线女| 国产精品视频二区三区| 国产成人免费在线视频| 日韩av电影免费观看高清| 亚洲欧美小视频| 亚洲香蕉视频| 精品久久国产字幕高潮| 久久久精品麻豆| 538视频在线| 18涩涩午夜精品.www| 狠狠色综合欧美激情| 一区二区三区日| 久久久久久网| 欧美精品久久久久久久久| 貂蝉被到爽流白浆在线观看| 久久夜色电影| 日韩视频一区二区三区在线播放| 欧美黄色一级片视频| 日本高清在线观看| 国产精品激情偷乱一区二区∴| 国产亚洲欧美一区二区三区| 99riav国产| 蜜桃久久av一区| 国产不卡视频在线| 国产无码精品视频| 亚洲乱码免费伦视频| 国产一区av在线| 成人精品999| 美女视频亚洲色图| 精品福利在线导航| 中文 日韩 欧美| 国产毛片精品久久| 日本韩国欧美一区| 91av资源网| 高清电影在线观看免费| 亚洲欧洲国产日本综合| 视频二区一区| 成人精品一区二区三区免费| 久久蜜臀中文字幕| 美国av一区二区三区| 丰满肉嫩西川结衣av| 国产中文字幕精品| 91热福利电影| 国产日韩欧美视频在线观看| 久久99精品国产麻豆婷婷| 国产精品欧美风情| 中文天堂在线视频| 日本成人在线视频网站| 国产精品91免费在线| 亚洲婷婷综合网| 亚欧美中日韩视频| 国产精品xxx视频| 波多野结衣激情视频| 日韩精品电影在线观看| 国产精品第一区| 国产又粗又黄又爽的视频| 捆绑变态av一区二区三区| 国产色婷婷国产综合在线理论片a| 中文字幕丰满人伦在线| 久久精品国产成人一区二区三区| 国产主播欧美精品| 国产特级黄色片| 丁香婷婷综合激情五月色| 国产超碰91| 天堂91在线| 国产三级欧美三级| 亚洲v欧美v另类v综合v日韩v| www在线免费观看| 亚洲欧洲综合另类| 欧美日韩不卡一区| 国产女教师bbwbbwbbw| 久久免费电影| 日韩人体视频一二区| 久草福利视频在线| 日本99精品| 亚洲黄色片网站| 日韩精品电影一区二区三区| 最新国产精品| 欧美在线亚洲在线| 一卡二卡在线视频| 丁香网亚洲国际| 日韩.欧美.亚洲| 伊人影院在线视频| 黑人巨大精品欧美一区二区一视频 | 一二美女精品欧洲| 日韩欧美综合视频| 亚洲在线一区| 成人亚洲欧美一区二区三区| 亚洲欧美日韩精品永久在线| 国产精品免费av| 日韩xxxx视频| jizz久久久久久| 精品国产乱码久久久久久浪潮| 日韩一区二区a片免费观看| 99热国内精品| 奇门遁甲1982国语版免费观看高清| 中文字幕久久久久| www..com久久爱| 亚洲自拍三区| 韩日精品一区二区| 精品欧美一区二区久久| 国产精品久久久久久成人| 狠狠噜噜久久| 成人福利视频网| 每日更新在线观看av| 亚洲国产精品久久久久婷婷884| 午夜精品在线免费观看| 老司机精品在线| 免费不卡在线观看av| 国产午夜麻豆影院在线观看| 成人午夜电影小说| 欧美性受xxxx黑人猛交88| 欧洲av不卡| 精品国产乱码久久| 欧美日韩中文字幕在线观看| 美女精品一区二区| 日韩国产在线一区| 亚洲精品日产| 亚洲成人久久久| 欧美成人精品欧美一级私黄| 美国av一区二区| 日本一区二区三区免费看| av资源在线| 精品国精品自拍自在线| 成熟的女同志hd| 久草在线在线精品观看| 欧美性xxxx69| xx欧美xxx| 亚洲美女激情视频| 福利一区二区三区四区| 成人中文字幕在线| r级无码视频在线观看| 日韩精品成人| 欧美日韩成人精品| www.日韩高清| 一区二区三区精品视频| 色偷偷中文字幕| 久久精品久久久| 成人h视频在线观看播放| √新版天堂资源在线资源| 日本高清无吗v一区| 自拍偷拍中文字幕| 裸体一区二区| 日本一区二区三区四区在线观看| 成人美女黄网站| 国产亚洲欧美另类中文| 69亚洲精品久久久蜜桃小说| 久久久久久久久久看片| 丁香啪啪综合成人亚洲| 成人动漫免费在线观看| 国产欧美va欧美va香蕉在| 色视频在线免费观看| 欧美人动与zoxxxx乱| www.av视频| 成人国产精品免费观看| 国产乱子伦农村叉叉叉| 国产精品亚洲二区| 国产精品一区二区三区在线播放 | 中文字幕人妻色偷偷久久| 国产精品色哟哟| 成人亚洲免费视频| 黄色成人av网站| 美脚丝袜一区二区三区在线观看| 日韩和的一区二在线| 深夜福利亚洲导航| 国内精品久久久久久久久久久| 亚洲一区二区高清| 色天使在线视频| 奇米888四色在线精品| 一区中文字幕在线观看| eeuss鲁片一区二区三区| 欧美性一区二区三区| 91大神在线网站| 精品av久久707| 精品一区二区无码| 亚洲欧美视频在线观看视频| 成人在线视频免费播放| 日韩电影在线看| 黄色一级片国产| 亚洲人成网www| 成人国产在线视频| 欧美调教sm| xvideos亚洲| 香蕉久久一区二区三区| 欧美亚洲日本国产| 日韩av在线电影| 自拍偷拍国产亚洲| 无套内谢大学处破女www小说| 另类小说欧美激情| 欧美深夜福利视频| 国产精品88久久久久久| 久久精品aaaaaa毛片| 欧美高清影院| 青青久久av北条麻妃海外网| av大片在线| 亚洲欧洲视频在线| 二区三区在线视频| 欧美日韩精品欧美日韩精品一| 欧美一二三区视频| 亚洲女同女同女同女同女同69| 亚洲av无码一区二区三区网址| 精品中文字幕一区二区| 国产一区二区三区精彩视频| 中文字幕免费一区二区| 日本不卡二区高清三区| 久久99精品国产自在现线| 成人久久久久久久| 国产人妖一区| 青青草一区二区| 大桥未久在线视频| 美女久久久久久久久久久| www.黄在线观看| 亚洲摸下面视频| 天天操天天干天天舔| 日韩你懂的在线观看| 亚洲无码精品在线播放| 色菇凉天天综合网| 欧美精品一二三四区| 亚洲成av人片一区二区三区| 欧美激情图片小说| 亚洲欧洲美洲综合色网| 日本在线观看网址| 欧美国产精品久久| 国产精品毛片一区二区| 337p粉嫩大胆色噜噜噜噜亚洲| 日本人妻一区二区三区| 国产精品性做久久久久久| 国产性生活一级片| 久久91精品国产91久久小草| 亚洲人视频在线| 麻豆成人久久精品二区三区红 | 成人黄色毛片| 日韩女优人人人人射在线视频| 中文字幕资源网在线观看免费| 性欧美在线看片a免费观看| 久久不射影院| 九色成人免费视频| 国产在线xxx| 午夜精品久久久久久久男人的天堂 | 中文字幕无线码一区| 欧美性极品少妇| 中文字幕乱码视频| 欧美精品在线一区二区三区| 国产一区二区自拍视频| 日韩一区二区在线看| 亚洲精品一级片| 亚洲电影免费观看高清| 深夜福利在线观看直播| 亚洲欧美一区二区三区情侣bbw| 黄色在线观看网| 中国china体内裑精亚洲片| 日本在线人成| 欧美成人精品一区二区| 久久av色综合| 欧美一区二区三区免费视| 美女日韩欧美| 国产精品一区二区三区成人| 懂色av色香蕉一区二区蜜桃| 99re在线| 免费精品国产的网站免费观看| 日韩欧美一区二区三区久久婷婷| 日韩精品看片| 国产一线二线三线女| 免播放器亚洲| 91丨九色丨蝌蚪| 国产成人精品亚洲日本在线桃色 | 国产偷国产偷精品高清尤物 | 在线a免费观看| 成人一区在线看| 九色porny自拍视频| 中文字幕欧美一| 国产性一乱一性一伧一色| 欧美性色视频在线| 中文字幕永久在线观看| 欧美mv和日韩mv的网站| 欧美美女色图| 久久综合久中文字幕青草| 国产精品原创| 国产视频999| 欧美日韩导航| 在线免费观看一区二区三区| 在线看片一区| 蜜臀一区二区三区精品免费视频| 国产传媒日韩欧美成人| 极品白嫩丰满美女无套| 亚洲女与黑人做爰| 人妻 日韩精品 中文字幕| 欧美一区二区高清| 国产在线小视频| 欧美极品第一页| 免费在线观看一区| 精品国产一区二区三区麻豆免费观看完整版 | 久久久综合网| 久久无码人妻一区二区三区| 91免费视频网| 欧美日韩亚洲国产另类| 欧美中文一区二区三区| 无码国产精品一区二区免费16 | 鲁丝一区鲁丝二区鲁丝三区| 小小影院久久| 亚洲 中文字幕 日韩 无码| 丁香亚洲综合激情啪啪综合| 国产在线免费看| 色婷婷国产精品| 免费国产羞羞网站视频| 日韩视频免费观看| 日韩美女在线看免费观看| 国产精品日韩一区二区三区| 久久久久久久久久久9不雅视频| 国产在线观看福利| 成人自拍视频在线| 国产波霸爆乳一区二区| 欧美日韩一区久久| 韩国三级在线观看久| 97精品国产aⅴ7777| 久久久国产精品入口麻豆| 一本一道久久a久久综合精品| 亚洲一区日韩| 黄色录像a级片| 亚洲香肠在线观看| www.精品视频| 久久6精品影院| 国产一区 二区| 在线视频不卡一区二区三区| 轻轻草成人在线| 国产123在线| 色综合久久中文字幕综合网| 手机看片福利在线| 97精品国产91久久久久久| 日韩精品三级| 永久免费网站视频在线观看| 国产中文字幕精品| 亚洲综合网在线| 日韩午夜小视频| 亚洲无线看天堂av| 粉嫩av一区二区三区免费观看| 欧美伊人影院| 无码人妻久久一区二区三区蜜桃| 亚洲黄色免费电影| 亚洲欧美激情在线观看| 久久久中精品2020中文| 九九热hot精品视频在线播放| 成人午夜视频在线观看免费| 成人av午夜电影| 中文字幕激情小说| 国产亚洲欧洲黄色| 成人国产激情| 久久免费看毛片| 国产一区二区三区免费看| 福利所第一导航| 亚洲国产精品久久91精品| 国产在线美女| 日本一区视频在线播放| 美女国产一区二区三区| 老湿机69福利| 精品福利一区二区三区免费视频| 多野结衣av一区| 日本一区不卡| 国产一区二区福利| 日韩激情一区二区三区| 亚洲美女精品成人在线视频| 国产成人精品一区二区三区免费| 欧美日韩一区二区三区电影| 成人免费视频国产在线观看| 国产一级片毛片| 色系列之999| 国产精品亚洲欧美一级在线 | 美国欧美日韩国产在线播放| 日韩一区二区不卡视频| 精品少妇一区二区三区在线视频| 国产精品电影| 亚洲一区二区精品在线| 国产iv一区二区三区| 中文在线第一页| 久久精品国产成人| 日韩av影院| 一本一道久久a久久综合蜜桃| 亚洲一区二区三区三| 男女av在线| 成人免费视频网站| 男男视频亚洲欧美| 日本a在线观看| 日韩视频免费在线| 欧亚精品一区| 亚洲第一成肉网| 欧美性猛xxx| 天堂va在线| 日韩中文字幕一区| 不卡一区在线观看| 91久久精品无码一区二区| 97精品一区二区视频在线观看| 日韩欧美网址|