精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

打臉!GPT-4o輸出長度8k都勉強,陳丹琦團隊新基準測試:所有模型輸出都低于標稱長度

人工智能 新聞
最近,陳丹琦團隊提出了一個全新的基準測試工具LONGPROC,專門用于檢測長上下文模型處理復雜信息并生成回復的能力。

很多大模型的官方參數都聲稱自己可以輸出長達32K tokens的內容,但這數字實際上是存在水分的??

最近,陳丹琦團隊提出了一個全新的基準測試工具LONGPROC,專門用于檢測長上下文模型處理復雜信息并生成回復的能力。

圖片

實驗結果有點令人意外,團隊發現,包括GPT-4o等最先進的模型在內,盡管模型在常用長上下文回憶基準上表現出色,但在處理復雜的長文生成任務時仍有很大的改進空間。

具體來說,測試的所有模型都聲稱自己上下文窗口大小超過32K tokens,但開源模型一般在2K tokens任務中就表現不佳,而GPT-4o等閉源模型在8K tokens任務中性能也明顯下降。

舉例來說,讓GPT-4o模型生成一個詳細的旅行規劃時,即使提供了相關的時間節點和直飛航班線路,在模型的生成結果中仍然出現了不存在的航班信息,也就是出現了幻覺。

圖片

這到底是怎么回事呢?

全新LONGPROC基準

目前現有的長上下文語言模型(long-context language models)的評估基準主要集中在長上下文回憶任務上,這些任務要求模型在處理大量無關信息的同時生成簡短的響應,沒有充分評估模型在整合分散信息和生成長輸出方面的能力。

為了進一步精確檢測模型處理長上下文并生成回復的能力,陳丹琦團隊提出了全新的LONGPROC基準測試。

從表1中各測試基準的對比可以看出,只有LONGPROC基準同時滿足6個要求,包括復雜的流程、要求模型輸出大于1K tokens、且提供確定性的解決方案等。

圖片

新基準包含的任務

具體來說,LONGPROC包含6個不同的生成任務:

1.HTML到TSV:要求模型從HTML頁面中提取指定信息并格式化為表格。需要從復雜的HTML結構中穩健地提取所有相關信息,并將其正確格式化。

比如從下面的網頁中提取出所有影片的信息:

圖片

2.偽代碼生成代碼:要求模型將偽代碼翻譯成C++代碼。需要保持源代碼和目標代碼之間的一一對應關系,并確保翻譯的正確性。

3.路徑遍歷:要求模型在假設的公共交通網絡中找到從一個城市到另一個城市的路徑。需要確保路徑的唯一性和正確性。

4.Theory-of-Mind跟蹤:要求模型跟蹤故事中對象位置的思想變化。需要進行長距離的推理,以準確反映對象在不同時間點的位置和狀態。

比如根據下面的文字敘述推斷出“Alice認為筆記本在哪里”:

圖片

5.Countdown游戲:要求模型使用四個數字和基本算術操作找到達到目標數字的方法。需要進行深度優先搜索,并確保搜索過程的完整性和正確性。

比如在下面的示例中,要求模型用四則運算操作輸入的數字,最終得出29的結果:

圖片

6.旅行規劃:要求模型生成滿足多種約束的多城市旅行計劃。需要探索多種可能的行程安排,并確保所有約束條件得到滿足。

如下圖所示,圖中要求模型根據任務提供的歐洲行程計劃和直飛航班規劃最佳的旅行時間安排:

圖片

在輸出結果的同時,LONGPROC還會要求模型在執行詳細程序指令的同時生成結構化的長形式輸出 。

從表2中可以看出,除了對比左邊的實例數量(N)、輸入和輸出tokens的平均數量(#In/#Out),團隊還會從表格最右3列的獲取信息的方式、是否存在演繹推理和執行搜索這三個方面對任務進行比較。

圖片

實驗任務設置

實驗中,上面的6個任務都有不同的數據集。例如,HTML到TSV任務使用了Arborist數據集中的56個網站;偽代碼生成代碼任務使用了SPOC數據集;路徑遍歷任務構建了一個假設的公共交通網絡等等。

實驗都會要求模型執行一個詳細的程序來生成輸出

此外,根據任務的輸出長度,數據集會被分為500 tokens、2K tokens和8K tokens三個難度級別。比如對于HTML到TSV任務來說,每個網站都會被分割成非重疊子樣本,這樣就可以獲得更多數據點。

參與實驗的模型包括17個模型,包括流行的閉源模型(如GPT-4o、Claude 3.5、Gemini 1.5)和開源模型(如ProLong、Llama-3、Mistral-v0.3、Phi-3、Qwen-2.5、Jamba)。

實驗結果及分析

首先來看看實驗中模型的整體表現

結果有點令人意外,所有模型在長程序生成任務中都表現出顯著的性能下降!具體的數值可以查看下面的表3。

即使是GPT-4o這種前沿模型,在8K tokens的輸出任務上也難以保持穩健的表現。

圖片

我們再來詳細分析一下不同模型之間的差異

根據下面的圖3可以看出,像GPT-4o這樣的頂尖閉源模型在0.5K任務上表現最佳,但在8K任務上性能顯著下降。

小規模的開源模型基本都表現不佳,而中等規模的開源模型(Llama-3.1-70B-Instruct)在低難度任務上表現與GPT-4o相差不大。

不過,在某些8K任務上,中等規模的模型表現很不錯,比如Gemini-1.5-pro在HTML to TSV任務中就超過了GPT-4o,Llama-3.1-70B-Instruct、Qwen2.5-72B-Instruct在8K的Countdown游戲中也與GPT-4o相差不大。

但整體來看,開源模型的性能還是不及閉源模型。

圖片

此外,模型表現跟任務類型也有關系。在需要更長推理的任務中,模型的性能普遍出現了更顯著的下降。

如圖4所示,在Theory-of-Mind跟蹤、Countdown游戲和旅行規劃任務這些需要處理更復雜的信息、進行更長鏈的推理的任務中,模型性能的下降幅度都更大,GPT-4o、Qwen等模型的精確度甚至直線下降。

圖片

除了對比17個模型之間的能力,團隊成員還將表現較好的模型輸出內容與人類輸出進行了對比。

從表6的結果中可以看出,與人類能力相比,當前模型還存在顯著差距。

人類在Countdown游戲和旅行規劃任務中分別解決了10個和9個問題,而最好的模型GPT-4o分別只解決了7個和3個問題。

圖片

總體來說,本論文提出的LONGPROC測試基準有效地評估了模型在長程序生成任務方面的表現,是對現有基準的一個補充。

實驗發現,即使是最先進的模型,在生成連貫的長段內容方面仍然有很大的改進空間。

尤其是在要求輸出8k tokens的任務中,參數較大的先進模型也表現不佳,這可能是未來LLM研究的一個非常有意義的方向。

一作是清華校友

這篇論文的一作是本科畢業于清華軟件學院的Xi Ye(葉曦),之后從UT Austin計算機科學系獲得了博士學位。

清華特獎得主Tianyu Gao(高天宇)也有參與這篇論文:

圖片

據一作Xi Ye的個人主頁顯示,他的研究主要集中在自然語言處理領域,重點是提高LLM的可解釋性并增強其推理能力,此外他還從事語義解析和程序綜合的相關工作。

圖片

目前他是普林斯頓大學語言與智能實驗室(PLI)的博士后研究員,還將從 2025 年 7 月開始加入阿爾伯塔大學(University of Alberta)擔任助理教授。

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-09-28 15:35:32

AI模型強化學習

2024-06-27 12:45:30

2024-06-28 18:13:05

2024-06-12 11:50:23

2025-06-04 09:05:18

2023-10-25 09:19:00

AI訓練

2025-06-04 13:53:22

代碼模型AI

2023-07-05 09:57:11

2025-06-26 09:09:31

2025-05-26 08:33:00

2022-07-26 09:56:48

模型AI

2024-05-14 11:29:15

2024-05-15 17:34:15

2024-05-20 08:20:00

OpenAI模型

2025-02-18 12:30:00

2023-10-12 12:13:16

AI訓練

2025-04-01 09:25:00

2024-05-27 08:40:00

2024-09-06 13:00:29

2024-07-04 15:26:56

點贊
收藏

51CTO技術棧公眾號

欧美mv日韩mv国产网站| 中文字幕在线不卡| 国产精品久久久久久搜索| 国产精品国产三级国产传播| 亚洲精品v亚洲精品v日韩精品| 性做久久久久久免费观看| 日韩精品久久一区二区三区| 国产男男gay网站| 亚洲尤物在线| 欧美www在线| 精品欧美一区二区久久久| 999久久久国产999久久久| 精品久久久久久久久中文字幕 | 国产大片一区二区三区| а√天堂中文资源在线bt| 国产精品福利电影一区二区三区四区| av资源一区二区| 国产第一页在线观看| 亚洲欧美一级二级三级| 伊人久久久久久久久久| 久久久久久婷婷| 欧美一级网址| 欧美在线视频你懂得| 日韩一级性生活片| 黄色网页在线免费看| 国产亚洲精品7777| 国产一区二区三区四区五区在线 | 国内精品写真在线观看| 日本久久中文字幕| 久久精品免费在线| 亚洲天堂一区二区三区四区| 在线播放日韩欧美| 强伦人妻一区二区三区| 高清精品视频| 欧美成人三级在线| 人妻换人妻仑乱| 9999在线精品视频| 欧美精品高清视频| 一级做a免费视频| 欧美高清影院| 在线视频国内一区二区| 97公开免费视频| 韩国成人动漫| 在线亚洲一区观看| 黄色国产小视频| 精品国产欧美日韩一区二区三区| 色婷婷一区二区| 国产综合免费视频| av综合电影网站| 一本色道久久综合亚洲aⅴ蜜桃| 国产自产在线视频| 91吃瓜在线观看| 午夜不卡在线视频| 波多野结衣之无限发射| free性m.freesex欧美| 亚洲国产精品久久人人爱| a级片一区二区| 韩国成人免费视频| 精品国产老师黑色丝袜高跟鞋| www.成年人视频| aa国产成人| 丰满岳妇乱一区二区三区| 日韩少妇内射免费播放| 美女18一级毛片一品久道久久综合| 疯狂做受xxxx高潮欧美日本| 成人一级片网站| 亚洲伦乱视频| 欧美久久免费观看| 亚洲成人激情小说| 成人春色在线观看免费网站| 亚洲精品av在线播放| 黄色正能量网站| 国产一区二区亚洲| 久久天堂电影网| 久久久精品人妻一区二区三区四| 在线日韩中文| 国产va免费精品高清在线| 波多野结衣人妻| 激情综合色综合久久| 成人蜜桃视频| 伦理片一区二区三区| 国产精品美女久久久久久| 日本a级片在线观看| 蜜桃麻豆av在线| 欧美日韩综合一区| 国产亚洲精品成人a| 日韩精选在线| 日韩在线免费视频| 欧美一二三区视频| 麻豆精品久久精品色综合| 99视频在线| 国产黄色在线| 亚洲成人一区二区| 污片在线免费看| 国产精品中文字幕制服诱惑| 国产一区二区三区久久精品| 久久r这里只有精品| 久久精品盗摄| 91福利视频导航| 欧美高清电影在线| 一区二区三区欧美在线观看| aaa毛片在线观看| 久久av网站| 国产一区二区三区视频| 久久久久久天堂| 蜜臂av日日欢夜夜爽一区| 亚洲xxxx视频| 午夜小视频在线| 欧美日韩另类字幕中文| 交换做爰国语对白| 国产一区二区三区天码| 97免费在线视频| 国产视频在线观看免费 | 日韩欧美在线观看一区二区三区| 添女人荫蒂视频| 激情欧美一区| 亚洲一区二区自拍| 在线国产91| 在线视频你懂得一区| 亚洲图片综合网| 午夜日本精品| 91久久久精品| 18免费在线视频| 91成人国产精品| 李宗瑞91在线正在播放| 亚洲每日在线| 国产一区二区三区无遮挡 | 色综合天天爱| 日本人成精品视频在线| 欧美 日韩 国产 在线| 亚洲日本va在线观看| 久久人人爽av| 成人aaaa| 国产精品女人网站| 国产日韩精品在线看| 色综合久久综合| jizz日本免费| 亚洲一区一卡| 久久国产精品高清| 久久影院午夜精品| 日韩精品中文字幕在线观看| 国产精品免费av一区二区| 高清av一区二区| www.成年人视频| 激情小说亚洲色图| **欧美日韩vr在线| 亚洲欧美日韩成人在线| 欧美日韩亚洲国产一区| 中文字幕在线观看的网站| 国产精品免费看| 日本免费一区二区三区| 色成人免费网站| 在线精品播放av| 一区二区三区在线免费观看视频 | 91porn在线视频| 丁香另类激情小说| 国产日韩欧美精品在线观看| 牛牛影视久久网| 日韩av大片在线| 国产1区2区3区在线| 欧美三级乱人伦电影| 国产18无套直看片| 国产一区二区三区四区五区美女| 91麻豆天美传媒在线| 97久久综合区小说区图片区| 国语自产精品视频在线看一大j8 | 国产三级精品三级| 欧美成年人视频在线观看| 亚洲成人最新网站| 精品国产一区二区三区四区精华| 日韩大片免费观看| 国产一区二区三区在线观看网站 | 在线观看亚洲欧美| 欧美激情综合在线| 好吊操视频这里只有精品| 国产精品入口| 亚洲国产精品一区二区第一页| 懂色av色香蕉一区二区蜜桃| 久久久久五月天| 都市激情一区| 精品久久久久久久久久久久久久久久久 | 成人区精品一区二区不卡| 精品88久久久久88久久久| 中文字幕国产在线观看| 一区二区中文字幕在线| 亚洲欧美高清在线| 麻豆精品精品国产自在97香蕉| 欧美激情亚洲天堂| 欧美一区二区三| www.久久久| 日韩国产网站| 欧美激情一区二区三区成人| jizz在线免费观看| 欧美精品一区二区三区很污很色的 | 美女尤物国产一区| 日韩av综合在线观看| 99久精品视频在线观看视频| 精品欧美一区二区在线观看视频 | 国产人与禽zoz0性伦| av在线不卡观看免费观看| 色一情一区二区| 翔田千里一区二区| 国产成人免费高清视频| 国产欧美日韩| 国产一区二区不卡视频| 国产亚洲字幕| 国产精品久久久久7777婷婷| 黄色成人在线网| 久久亚洲一区二区三区四区五区高| 性插视频在线观看| 精品人在线二区三区| 国产成人精品一区二区色戒| 午夜精品久久久久影视| 日韩成人毛片视频| 国产精品麻豆视频| 性欧美一区二区| 99久久综合狠狠综合久久| 国产美女视频免费看| 老司机免费视频久久| 欧美日韩一道本| 欧美日韩岛国| 永久免费看av| 欧美成人日韩| 超级碰在线观看| 欧美成免费一区二区视频| 欧美日韩综合久久| 伊甸园亚洲一区| 国产综合动作在线观看| 国产成人av毛片| 粉嫩高清一区二区三区精品视频 | 天天综合网天天| 欧美壮男野外gaytube| 精品捆绑调教一区二区三区| 欧美精品激情blacked18| 欧美24videosex性欧美| 九九久久国产精品| 先锋影音在线资源站91| 欧美成人免费网| 成人免费观看视频大全| 久久综合久久88| 国产成人在线视频免费观看| 日韩最新中文字幕电影免费看| av女优在线| www.亚洲男人天堂| 国产秀色在线www免费观看| 久久最新资源网| 超碰在线网址| 欧美激情videoshd| 18aaaa精品欧美大片h| 91精品国产电影| 成人性生活视频| 国产精品av网站| 色综合久久久| 亚洲综合国产精品| 亚洲精品一二三**| 久久久久网址| 国产日韩视频在线| 一级日韩一区在线观看| 欧美永久精品| 日本www在线视频| 久久精品官网| 亚洲一区二区福利视频| 国产精品456露脸| 人妖粗暴刺激videos呻吟| 久久先锋影音av鲁色资源网| av永久免费观看| 亚洲精品国产一区二区三区四区在线| 久久久久免费看| 欧美午夜精品在线| 91精品国产色综合久久不8| 欧美一卡2卡3卡4卡| 特黄视频在线观看| 伊人久久久久久久久久久久久| 黄色精品在线观看| 91爱视频在线| 日韩色性视频| 国产精品亚洲综合| 日韩精品免费一区二区三区| 日韩精品手机在线观看| 亚洲自啪免费| 免费网站在线观看黄| 99re6这里只有精品视频在线观看| 国产女主播喷水高潮网红在线| 国产精品剧情在线亚洲| 精品无码久久久久久久| 在线影院国内精品| 亚洲国产一二三区| 国产亚洲精品久久久久久牛牛| a天堂中文在线官网在线| 欧美在线亚洲在线| 精品午夜视频| 性欧美.com| 国产视频一区在线观看一区免费| 午夜一区二区视频| 久久综合九色综合97_久久久| 性生交大片免费全黄| 欧美日韩在线视频首页| 国产伦理吴梦梦伦理| 亚洲欧美日韩区| 黄色在线观看视频网站| 国产欧美va欧美va香蕉在| 久久动漫网址| 日韩人妻一区二区三区蜜桃视频| 久久精品系列| 无码国产精品一区二区免费式直播| 国产欧美一区二区三区沐欲| 日韩av电影网| 日韩免费性生活视频播放| 成年人视频免费在线观看| 国内精品小视频| 日韩精品一级| 一区二区精品免费视频| 丝袜美腿亚洲一区二区图片| 性欧美18—19sex性高清| 综合中文字幕亚洲| 中文字幕一区二区三区四区视频| 日韩电影在线观看中文字幕 | 五月激情六月综合| 国产高潮在线观看| 中文字幕欧美亚洲| 欧美成人h版| 久久久7777| 亚洲美女色禁图| 欧美成人精品一区二区综合免费| 亚洲欧美日韩中文播放| 亚洲一卡二卡在线观看| 国产午夜精品免费一区二区三区 | 国产一区二区三区黄| 国产精品地址| 中文写幕一区二区三区免费观成熟| 国产精品美女久久久久av爽李琼 | 成人亚洲一区二区一| 青青草激情视频| 欧美一区二区三区视频| 黄色网址在线免费| 91精品视频大全| 亚洲国产一区二区三区在线播放| 一道本在线免费视频| 国产精品久久久久久久久久久免费看| 中文资源在线播放| 亚洲香蕉伊综合在人在线视看| se01亚洲视频| 亚洲 日韩 国产第一区| 久久精品国产一区二区三 | 午夜久久久久久电影| 天堂成人在线视频| 欧美一区二区三区……| 最新国产精品视频| 亚洲一区二区蜜桃| 国产精品福利影院| 99久久免费国产精精品| 欧美激情a∨在线视频播放| 99re91这里只有精品| a级黄色一级片| 久久久精品天堂| 中文字幕日本人妻久久久免费 | 欧洲精品一区色| 美国毛片一区二区三区| 免费国产羞羞网站美图| 日韩精品一区在线| 女人高潮被爽到呻吟在线观看| 欧美日韩一区在线播放| 麻豆成人久久精品二区三区小说| 暗呦丨小u女国产精品| 精品区一区二区| 91av亚洲| 五月天男人天堂| 成人av资源网站| 国产一卡二卡三卡| 欧美精品少妇videofree| 奇米影视777在线欧美电影观看 | 中文字幕av一区二区| 经典三级久久| 波多野结衣家庭教师在线| 日本一区二区三区国色天香| 国产理论片在线观看| 97色在线播放视频| 色婷婷亚洲mv天堂mv在影片| 永久看看免费大片| 色婷婷亚洲精品| 人妖欧美1区| 日本在线观看一区二区三区| 国产做a爰片久久毛片| 国产成人无码一区二区三区在线 | 鲁丝一区鲁丝二区鲁丝三区| 蜜臀久久99精品久久久久宅男| 破处女黄色一级片| 日韩精品免费电影| 亚洲欧洲二区| 精品人妻一区二区三区四区在线| 国产精品久久久久四虎| 亚洲三级中文字幕| 亚洲一区二区三区sesese| 久久精品九九| 国产精品成人免费一区二区视频| 中文字幕日韩免费视频| 日韩影视高清在线观看| www,av在线| 在线观看亚洲专区| 91在线三级|