精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

長文本有了專屬困惑度!北大、MIT、阿里推出LongPPL新指標

人工智能 新聞
近期研究發現,困惑度在長文本任務中的適用性存在顯著局限性:某些在困惑度指標上表現優異的模型,在實際長文本應用中卻未能達到預期效果。

隨著大模型在長文本處理任務中的應用日益廣泛,如何客觀且精準地評估其長文本能力已成為一個亟待解決的問題。

傳統上,困惑度(Perplexity, PPL)被視為衡量模型語言理解與生成質量的標準指標——困惑度越低,通常意味著模型對下一個詞的預測能力越強。由于長文本可被視為一般文本的擴展,許多研究自然地通過展示模型在長文本上的低困惑度來證明其長文本泛化能力的有效性。但你知道,這個評估方式可能完全錯了嗎

近期研究發現,困惑度在長文本任務中的適用性存在顯著局限性:某些在困惑度指標上表現優異的模型,在實際長文本應用中卻未能達到預期效果。如圖 1(上)所示,在 9 種主流長文本大模型上,困惑度(y 軸)與模型在長文本任務中的真實表現(x 軸)之間的相關性極低。這一反常現象引出了一個關鍵問題:為何困惑度(PPL)在長文本場景下失效

圖片圖 1 大模型的困惑度 (PPL) 和長文本困惑度 (LongPPL) 與長文本任務集 LongBench 分數的相關性。

針對這一問題,北京大學王奕森團隊與 MIT、阿里一道開展了深入研究,探討困惑度在長文本任務中失效的原因,并提出全新指標 LongPPL,更精準反映長文本能力。

通過實驗,他們發現長文本中不同 token 對長距離上下文信息的依賴程度存在顯著差異。其中,對長上下文信息依賴較強的 token 在評估模型的長文本處理性能時起到關鍵作用,但這類 token 在自然文本中只占少數。這表明,困惑度失效的原因在于其對所有 token 進行平均計算,無法充分關注這些與長文本能力關系密切的關鍵 token

為此,他們將困惑度的計算限制在長文本的關鍵 token 上,從而定義出能夠反映模型長文本處理能力的長文本困惑度(LongPPL),該指標表現出與長文本任務性能極高的相關性 (如圖 1(下))。此外,他們還基于這一設計思想提出長文本交叉熵損失(LongCE),顯著提升了模型通過微調增強長文本處理能力的效果。

圖片

  • 論文題目: What is Wrong with Perplexity for Long-context Language Modeling?
  • 論文地址: https://arxiv.org/abs/2410.23771
  • 代碼地址: https://github.com/PKU-ML/LongPPL

并非所有 token 都反映模型長文本能力

為探討困惑度在長文本任務中失效的原因,作者首先分析了長文本與短文本在本質上的差異。直觀來看,一段文本中不同詞語對長距離上下文的依賴程度存在顯著差異。例如,在小說中,某個情節的發展可能需要與數章之前埋下的伏筆相呼應,而某些語法上的固定搭配則通常無需依賴較遠的上下文。在長文本場景下,這種依賴程度的差異較短文本更為顯著。

為了量化并驗證這一直觀認識,本文首先考慮了一個簡單的任務場景——LongEval 長文本鍵值對檢索任務(圖 2(a))。在此任務中,模型根據問題在長上下文中檢索出與給定鍵相匹配的值。本文將問題的標準回答劃分為非答案部分(藍色)和答案部分(橙色)。顯然,非答案部分的生成僅依賴短上下文,即最后的問句內容;而答案部分則需要模型聚焦于完整的長上下文信息。

圖 2 (b)(c) 表明,答案部分的困惑度與模型在此任務中的實際表現高度相關,而非答案部分的困惑度幾乎與任務表現無關。由此可見,依賴長上下文信息的關鍵 token 在評估模型的長文本能力時更加重要。

圖片圖 2(a)LongEval 任務示意圖 (b)(c) LongEval 的答案 / 非答案部分的困惑度與任務表現的相關性。

通過長-短上下文對比在自然文本中定位關鍵 token

在上述結果的啟發下,一個自然而然的想法是:若將困惑度指標限定于依賴長上下文信息的關鍵 token 上,便可更有效地評估模型處理長文本的能力。

然而,實際應用中存在一個挑戰:在自然文本中,無法像 LongEval 基準中那樣明確標注哪些 token 依賴于長距離上下文,因此迫切需要一種指標來自動識別這些關鍵 token。

為了解決這一問題,本文提出了一種長-短上下文對比的方法。具體而言,本文將每個 token x_i 的長上下文 l_i=(x_1,…,x_(i-1)) 截斷成短上下文 s_i=(x_(i-K),…,x_(i-1)),然后計算模型 θ 在長 / 短上下文下生成同一 token 的(對數)概率差距 (Long-short difference, LSD):

圖片

這一指標用于量化長上下文對模型預測準確度的提升。圖 3 表明,在 LongEval 任務中,LSD 幾乎能夠完美區分答案部分和非答案部分。與長上下文信息相關的答案部分 LSD 值普遍大于 2,而與長上下文信息幾乎無關的非答案部分 LSD 值普遍在 - 0.5 到 0.5 之間。這一結果初步驗證了該指標在定位關鍵 token 方面的有效性。

圖片圖 3 LongEval 標準回答中不同類型的 token 按 LSD 分類的分布。

此外,本文發現模型基于長文本的(對數)生成概率 (Long-context likelihood, LCL) 也有助于定位關鍵 token(在此不做展開):

圖片

困惑度無法反映模型長文本能力的原因

進一步,本文在 GovReport 政府報告數據集上計算了按 LSD 分類的 token 分布。如圖 4 所示,大部分 token 的 LSD 集中在 [-0.5, 0.5) 范圍內,而 LSD 大于 2 的 token 占比不到 10%。這意味著在自然文本中,只有非常少數的 token 與長上下文中的信息有強相關性,而絕大部分的 token 只需要依賴短上下文的信息即可生成。

這一結果表明,困惑度在長文本上失效的原因在于其對所有 token 進行平均計算,未能充分關注長文本中這些少數的關鍵token

圖片圖 4 GovReport 數據集中 token 按 LSD 分類的分布。

長文本困惑度——長文本能力評估指標的改進

基于上述分析,為了克服傳統困惑度指標在長文本場景下的局限性,本文提出了一個新的評估指標——長文本困惑度(LongPPL)。具體設計為:

圖片

其核心思想在于通過 LSD 和 LCL 指標,將困惑度的計算限制在長文本的關鍵 token 上,從而聚焦于關鍵 token 的預測質量,以更準確地反映模型的長文本能力。

實驗結果表明,模型在自然文本上的 LongPPL 和長文本任務的實際表現高度相關。如圖 1(下)所示,在 GovReport 數據集上,9 個主流長文本大模型的 LongPPL 與在 LongBench 任務集上表現的皮爾遜相關系數達到了 - 0.96。

長文本交叉熵——長文本訓練方法的優化

除了用于評估長文本能力外,本文還基于 LongPPL 的思想提出了一種改進的訓練損失 —— 長文本交叉熵(LongCE):

圖片

在提升模型長文本能力的微調過程中,LongCE 會賦予關鍵 token 更高的權重,使得模型在訓練中更加聚焦提升這些關鍵 token 的預測準確性,從而增強模型在長文本任務中的表現。

為了驗證 LongCE 的有效性,研究團隊在 Llama-2-7b 模型的基礎上進行了多組對比實驗。

實驗設計涵蓋了不同的訓練數據集(包括 PG-19 書籍數據集和 Pile-arxiv 論文數據集)以及不同的訓練方法(包括熵感知基調整 EABF 和位置插值 PI,其中 EABF 與 Deepseek-v3 采用的 YaRN 插值方法相似)。實驗評估采用了 LongBench、LongEval 和 RULER 這三個廣泛使用的長文本測試任務集。

實驗結果表明,在各種實驗設定下,采用 LongCE 進行微調的大模型在長文本處理能力上均顯著優于使用傳統交叉熵損失函數進行微調的模型。這表明,不僅是評估,長文本的訓練也應根據其特點來設計損失函數,而非簡單地沿用短文本場景的損失函數

值得注意的是,由于當前主流的長文本泛化方法主要集中于模型架構和參數的優化,而未涉及訓練損失函數的改進,因此 LongCE 可以與這些方法實現無縫結合,展現出廣闊的應用前景和強大的性能提升潛力。

圖片表 2 使用不同的損失函數在長文本數據上微調的大模型的長文本性能。

更多文章細節,請參考原文。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2020-10-27 14:34:42

算法MIT機器翻譯

2025-05-28 09:09:00

2013-04-10 16:04:22

SDNOpenFlowOpenDayligh

2020-01-08 15:19:58

代碼開發工具

2020-11-09 11:29:20

區塊鏈

2012-03-09 13:56:27

MITAndroid開發工具

2023-11-16 12:38:14

2025-06-30 13:10:37

AISEALMIT

2012-03-08 21:38:26

Android

2018-06-13 15:47:10

阿里文學

2018-06-15 14:43:46

2025-10-30 08:53:34

2021-01-15 09:30:36

算法技術數據

2025-05-27 15:28:47

模型推理AI

2011-06-17 09:20:35

MariaDB

2022-07-07 11:25:50

JavaScriptLicenseMozilla

2019-03-21 19:19:35

新零售阿里云零售云

2024-08-07 14:40:00

AI數據

2023-10-14 15:22:22

2023-10-09 14:17:00

AI模型
點贊
收藏

51CTO技術棧公眾號

97香蕉碰碰人妻国产欧美| 免费看欧美黑人毛片| 日韩xxx视频| 亚洲精品一区二区在线看| 亚洲成人久久久| 久久久999视频| 天天综合视频在线观看| 成人小视频在线观看| 国产精品海角社区在线观看| 在线免费观看亚洲视频| 天堂av一区二区三区在线播放| 欧美日韩亚洲高清一区二区| 天天做天天躁天天躁| www黄在线观看| 国产91富婆露脸刺激对白| 日本91av在线播放| 久久久香蕉视频| 欧美色婷婷久久99精品红桃| 精品捆绑美女sm三区| 亚洲色图 在线视频| av女在线播放| 亚洲另类中文字| 丝袜美腿玉足3d专区一区| 天堂中文在线资源| 国产一区二区三区四区五区入口| 欧美一级淫片丝袜脚交| 国产精品日日夜夜| 91久久国产| 国产亚洲视频中文字幕视频| 黄色免费看视频| 另类视频一区二区三区| 欧美性三三影院| 成年人观看网站| 福利在线导航136| 一区二区三区加勒比av| 一区二区三区我不卡| 精品成人一区二区三区免费视频| 成a人片亚洲日本久久| 亚洲在线观看视频| 国产精品国产av| 欧美a级理论片| 国产精品video| 国产精品美女久久久久av爽| 激情欧美一区二区三区| 久久国产精彩视频| 色老板免费视频| 午夜影院欧美| 少妇av一区二区三区| 美国一级黄色录像| 日韩免费av| 中文字幕日韩精品有码视频| 非洲一级黄色片| 精品国产一区二区三区| 亚洲欧美中文日韩在线v日本| 无码一区二区精品| 美女视频亚洲色图| 日韩经典一区二区三区| 欧美做受喷浆在线观看| 亚洲免费观看高清完整版在线观| 亚洲精品一区二区三区不| 给我看免费高清在线观看| 蜜桃成人av| 国产亚洲精品一区二555| av网在线播放| 水蜜桃精品av一区二区| 久久久精品在线观看| 99久久婷婷国产综合| 欧美激情91| 久久噜噜噜精品国产亚洲综合| 精品一区免费观看| 欧美专区18| 国产精品亚洲视频在线观看| 亚洲资源在线播放| 国产精品99久久久久久宅男| 国产精成人品localhost| 完全免费av在线播放| av资源新版天堂在线| 精品av在线播放| 成人免费毛片播放| 四虎国产精品免费久久5151| 日韩欧美一级二级三级| 亚洲一区二区三区无码久久| 国产亚洲欧美日韩在线观看一区二区| 日韩在线视频网站| 国产精品第72页| 三级影片在线观看欧美日韩一区二区 | 精品欧美一区二区久久久久| 亚洲国产高清视频| 国产精品pans私拍| 国产高清不卡视频| 久久夜色精品国产噜噜av| 亚洲高清不卡一区| 高清电影在线观看免费| 欧美在线999| 一级黄色电影片| 国内成人精品| 久久久久久97| 亚洲在线视频播放| 91亚洲男人天堂| 中文字幕一区二区三区四区五区六区 | 国产精品国产自产拍在线| 日本久久久网站| 中韩乱幕日产无线码一区| 精品国产免费一区二区三区香蕉 | 亚洲欧美激情国产综合久久久| 2022国产精品视频| 老司机午夜网站| 亚洲mmav| 亚洲精品国产精品国自产在线 | 久久久久久久久久久国产精品| 亚洲综合婷婷| 国产精品户外野外| 亚洲av成人无码久久精品老人| 中文字幕亚洲在| 在线精品国精品国产尤物884a | 九九在线高清精品视频| 久久久久999| 亚洲精品无码久久久久| 成人国产精品免费观看| 亚洲区成人777777精品| 欧美暴力调教| 亚洲美女性生活视频| 国产性生活网站| 国产一区视频网站| 亚州欧美一区三区三区在线| 牛牛精品一区二区| 日韩欧美国产一区二区在线播放| 亚洲精品天堂网| 日韩精品国产精品| 老牛影视免费一区二区| 国产网站在线| 精品国产乱码久久久久久老虎| 国产一区二区视频在线观看免费| 蜜臀va亚洲va欧美va天堂| 牛人盗摄一区二区三区视频| 国产中文在线播放| 亚洲成人久久久久| 精品一区在线视频| 国产高清在线精品| 粉嫩av一区二区三区天美传媒| 亚洲欧美综合久久久久久v动漫| 亚洲最新av在线| 天堂免费在线视频| 欧美激情综合网| 亚洲 中文字幕 日韩 无码| 亚洲丁香日韩| 欧美在线性爱视频 | 91麻豆一区二区| 国产精品久久网站| 国产一区二区在线观看免费视频| 手机亚洲手机国产手机日韩| 国产欧美在线视频| 麻豆系列在线观看| 6080国产精品一区二区| www.色小姐com| 国v精品久久久网| 国产美女在线一区| 欧美美女在线直播| 欧美中文字幕第一页| 九九热视频在线观看| 欧美在线你懂得| 成年人网站在线观看视频| 精品一区二区三区蜜桃| 国产日产欧美一区二区| 综合激情久久| 欧美在线视频一二三| 成人在线高清视频| 欧美精品自拍偷拍动漫精品| 91视频免费在线看| 99精品一区二区| 欧美精品第三页| 三上亚洲一区二区| 99re在线视频观看| 在线天堂新版最新版在线8| 亚洲一区二区黄| 国产精品久久777777换脸| 亚洲精品水蜜桃| 亚洲人人夜夜澡人人爽| 国产精品麻豆| 亚洲另类av| 久久精品在线播放| 亚洲第一黄色片| 色综合网色综合| 顶级黑人搡bbw搡bbbb搡| 国产成人在线色| 男女午夜激情视频| 一二三区不卡| 精品综合在线| 亚洲精品66| 午夜剧场成人观在线视频免费观看 | 欧美一级久久| 亚洲成人动漫在线| 亚洲综合图色| 亚洲综合中文字幕在线| 伊人久久视频| 色在人av网站天堂精品| 国产理论电影在线观看| 日韩亚洲欧美在线观看| 人妻丰满熟妇av无码区| 亚洲免费大片在线观看| 亚洲天堂视频一区| 国产91富婆露脸刺激对白| 久草在在线视频| 亚洲午夜激情在线| 亚洲国产另类久久久精品极度| 伦理一区二区| 99久久久精品免费观看国产| jizz亚洲女人高潮大叫| 久久久久久久久电影| 一级毛片视频在线观看| 日韩精品亚洲精品| 亚洲国产av一区二区| 欧美日韩免费观看一区二区三区| 国偷自拍第113页| 亚洲欧美激情小说另类| 正在播放国产对白害羞| 91啪亚洲精品| 欧类av怡春院| 国产一区二区免费视频| 国产喷水theporn| 香蕉久久a毛片| 国产妇女馒头高清泬20p多| 亚洲自拍偷拍网| 在线播放 亚洲| 成人a'v在线播放| 欧美成人第一区| 老牛精品亚洲成av人片| 成人av中文| 亚洲天堂av资源在线观看| 91精品久久久久久| 欧美aaaaaa| 国产精品色婷婷视频| 欧美天堂视频| 51久久精品夜色国产麻豆| 不卡av免费观看| 久久久久久国产精品美女| 2020国产在线视频| 久久视频免费在线播放| 老司机在线视频二区| 最好看的2019年中文视频| 黄色毛片在线观看| 国产一区二区三区视频在线观看| 久久精品色图| 亚洲美女又黄又爽在线观看| 亚洲色欧美另类| 亚洲精品日韩久久久| 日本成人一区二区三区| 亚洲欧美日韩在线一区| 国产一区电影| 伊人成人开心激情综合网| 97视频精彩视频在线观看| 中文字幕久久亚洲| 3p在线观看| 久久久精品国产一区二区| 精品国产99久久久久久| 欧美大成色www永久网站婷| 欧美6一10sex性hd| 国内成人精品视频| 在线观看福利电影| 国产精品扒开腿做爽爽爽的视频| 久久亚洲国产精品尤物| 成人激情综合网| aaa国产精品| 精品午夜一区二区三区| 精品一区亚洲| 亚洲精品自在在线观看| 91精品一区二区三区综合| 美女黄色免费看| 国产精品日韩精品欧美精品| www.四虎成人| 精品中文字幕一区二区| 国产精品成人免费一区久久羞羞| 成人午夜av影视| 成人片黄网站色大片免费毛片| 中文字幕第一区| 久久久91视频| 色综合久久66| 国产精品无码免费播放| 精品国产凹凸成av人导航| 色视频免费在线观看| 色青青草原桃花久久综合 | 亚洲一区国产视频| 国产午夜麻豆影院在线观看| 欧美精品久久99久久在免费线| www.久久久久久| 亚洲色图偷窥自拍| gogo在线观看| 日本欧美国产在线| 日韩精品成人| 免费影院在线观看一区| 欧美区国产区| 成人在线观看a| 国产精品影视在线观看| 亚洲av无码国产精品麻豆天美| 亚洲精品中文在线| 久久久久久亚洲av无码专区| 欧美一区二区福利在线| 黄色视屏网站在线免费观看| 欧美日韩国产成人| 久久精品资源| 久久99精品久久久久久青青日本| 天天超碰亚洲| 日本三级免费观看| 丰满白嫩尤物一区二区| 一级肉体全黄裸片| 午夜精品福利一区二区三区av | 国产在线拍揄自揄拍| 欧美性生交片4| 午夜视频免费看| 九色精品美女在线| 午夜不卡一区| 日韩精品资源| 亚洲一区一卡| 亚洲成年人av| 亚洲精品视频在线观看免费| 一区二区三区在线免费观看视频| 亚洲精品videossex少妇| www.欧美日本韩国| 国产欧美日韩视频| 欧美人与物videos另类xxxxx| 天天想你在线观看完整版电影免费| 美女脱光内衣内裤视频久久网站 | 狠狠综合久久av一区二区小说 | 日韩黄色三级| 亚洲v欧美v另类v综合v日韩v| 国产精品永久| 国产女人18毛片水真多18| 亚洲免费观看高清完整版在线观看熊| 成人黄色三级视频| 亚洲精品日韩欧美| 中文字幕影音在线| 久久大片网站| 亚洲国产一区二区三区a毛片| 精品人妻一区二区三| 日韩美女久久久| 国产欧美久久久精品免费| 色播久久人人爽人人爽人人片视av| 国产伦精品一区二区三区视频金莲| 国产伦精品一区二区三区照片91| 欧美日韩免费观看一区=区三区| 欧美日韩一区二区区| 亚洲黄网站在线观看| 性生交生活影碟片| 欧美激情一级欧美精品| 成人直播在线观看| 国产精品12345| 久久亚洲欧美国产精品乐播| 欧美h在线观看| 亚洲欧美日本精品| 福利一区视频| 久久av秘一区二区三区| 国产激情视频一区二区在线观看 | 韩国中文字幕在线| 91中文字幕在线| 欧美日韩三级| 在线视频 日韩| 色哟哟国产精品免费观看| 国产露出视频在线观看| 成人黄在线观看| 欧美日韩国产精品一区二区亚洲| 亚洲在线观看网站| 亚洲国产综合91精品麻豆| 亚洲欧美自偷自拍| 国产精品激情自拍| 亚洲激情五月| 黄色激情在线观看| 欧美性生交xxxxxdddd| jizz亚洲| 国产91aaa| 久久久久欧美精品| 国产三级aaa| 精品少妇一区二区三区在线视频| 涩涩在线视频| 亚洲成色www久久网站| 国产原创一区二区| 欧美 丝袜 自拍 制服 另类| 亚洲午夜天堂| 欧美婷婷久久| 久久99国产精品久久99| 久久国产在线观看| 亚洲天堂av女优| 亚洲性视频在线| 国产av无码专区亚洲精品| 中文字幕一区二| 深夜福利视频在线免费观看| 国产精品视频网站| 在线播放亚洲| 欧美另类69xxxx| 亚洲精品456在线播放狼人| 亚洲电影有码| 日韩成人三级视频| 国产女人18毛片水真多成人如厕| 亚洲高清在线观看视频| 国产精品视频网址| 99亚洲伊人久久精品影院红桃| sm捆绑调教视频| 日韩精品视频免费在线观看| 国产精品一区二区精品| 日韩精品一区二区三区不卡 | 亚洲人成在线一二|