精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

米開朗基羅怎么說?谷歌DeepMind推出長上下文評估新框架

人工智能 新聞
近日,來自谷歌DeepMind的研究人員提出了Michelangelo,「用米開朗基羅的觀點」來測量任意上下文長度的基礎模型性能。

米開朗基羅,文藝復興時期著名的雕塑家。

曾有人問他是如何創作出如此偉大的作品,他回答說:

「The sculpture is already complete within the marble block, before I start my work. It is already there, I just have to chisel away the superfluous material.」


「在我開始工作之前,雕塑已經在大理石塊中完成了。它已經在那里了,我只需要鑿掉多余的材料。」

(小編PS:在我寫稿之前,稿子已經在字典里完成了......)

這種寫意的表述可以類比到許多工作,比如大語言模型從上下文中理解信息。

LLM可能面對著很長的語境(大理石),需要「鑿掉」其中不相關的信息,才能理解有效的內部結構(雕塑)

所以,對于LLM來說,米開朗基羅的能力就可以是長上下文的能力。

然而,無論是用戶還是研究者都不免會有疑問:你這瓜保熟嗎?號稱百萬token的長上下文真的能理解嗎?

近日,來自谷歌DeepMind的研究人員提出了Michelangelo,「用米開朗基羅的觀點」來測量任意上下文長度的基礎模型性能。

圖片

論文地址:https://arxiv.org/abs/2409.12640

作者設計了用于長上下文推理評估的潛在結構查詢框架LSQ,框架包含了長上下文評估的現有工作。

Michelangelo由三個簡單的潛在結構查詢實例組成,每個實例負責測量的能力和實例化的數據分布有所不同。

圖片

研究人員在目前性能最好的幾個模型上進行了高達1M上下文的評估。

實驗證明,GPT和Claude模型在128K的上下文范圍中表現都不錯,而Gemini也確實做到了在高達1M的上下文中具有泛化能力。

然而,如果是比較困難的推理任務,大家就基本全軍覆沒了。

圖片

上圖展示了幾個前沿模型在框架的其中一項任務MRCR(Multi-Round Co-reference Resolution)上的性能。

MRCR是一項合成的長推理任務,使用簡單的度量進行評估,并在許多模型族中使用固定提示,實驗中所有型號的LLM在32K之前的區間中,性能都隨上下文長度而顯著下降。

這一方面可以看出大家的能力都有點水分,另一方面也表明在比較短的長度(32K)上就已經可以摸清底細了。

圖片

對比不同模型系類的MRCR實驗,可以發現有趣的聯系——近似平行的曲線,這可能暗示這些模型在訓練過程中存在獨特的相似之處(即使性能可能存在絕對差異)。

米開朗基羅

通過要求模型從結構中提取信息,而不是從鍵中提取值,我們可以更深入地測試語言模型上下文理解能力,而不僅僅是檢索。

圖片

盡管隨著超長上下文的刷榜,基準測試也在不斷跟進,比如在大海中多撈幾根針,又或者是更現實的長語境問答評估。

但歸根結底,這些都只是不同環境中的檢索任務,而模型檢索一個或多個事實的能力并不一定意味著模型能夠從完整的上下文中綜合信息。

另外,目前的長上下文基準還存在以下一些問題:

相對較小的上下文長度;

高度人工性,沒有自然語言或代碼設置;

需要大量的人力才能延伸到更長的上下文長度;

有時,回答問題所需的信息可能存在于預訓練數據中,或者可以短路上下文長度并使用更多本地信息回答問題。

如何解決?

Michelangelo由三個直觀且簡單的長上下文綜合任務基元組成,它們要求模型綜合散布在整個上下文中的多條信息以產生答案,并測量模型綜合能力的不同方面,以提供對長上下文模型行為的更全面理解。

Michelangelo的每項評估都定位在自然語言或基于代碼的環境中,與現有基準相比,合成程度較低。

任務在上下文長度上可以任意擴展,同時保持固定的復雜性,并且不會導致邏輯矛盾或短路。

另外,實例的生成基于自然語言的方法,不依賴于現有的評估集或互聯網數據,因此避免了泄露。

評估任務

Latent List

考慮一個簡短的Python列表,并提出一系列修改該列表的操作,比如append、insert、pop、remove、sort、reverse。

給定操作序列,模型需要輸出結果潛在列表的視圖:能夠打印列表的完整切片、列表切片的總和、最小值或最大值,列表的長度(列表長度不取決于實例的總上下文長度,而是取決于相關操作的數量)。

為了填充上下文,這里統一采用三種不影響列表潛在狀態的策略:

1)插入print語句(Do nothing);

2)插入偶數個反向操作;

3)插入所有在本地自我抵消的操作塊。

圖片

作者考慮了三個復雜度級別,分別包含1個、5個和20個相關操作。

使用近似度量來對Latent List任務進行評分,以下代碼描述了計算此分數的確切方法:

圖片

MRCR

在MRCR任務中,模型根據與用戶之間的長時間對話,來進行不同主題的寫作(例如詩歌、謎語、論文)。

這里使用PaLM 2模型提供與每個請求和主題相對應的多個輸出。

在每個對話中,包含不同于其余對話的主題和寫作格式的用戶請求將隨機放置在上下文中。

圖片

將對話作為上下文,要求模型重現其中一個請求產生的對話的輸出。

MRCR任務還通過格式和主題重疊,來創建與查詢相似的對抗性樣本。

比如,請求「Reproduce the poem about penguins.」要求模型區分關于企鵝的詩和關于火烈鳥的詩,而「Reproduce the first poem about penguins.」要求模型對順序進行推理。

作者通過模型輸出和正確響應之間的字符串相似性對MRCR進行評分。

IDK

IDK任務向模型展示大量文本并提出一個問題,鑒于預訓練語料庫龐大,該問題沒有客觀答案。

例如,可能有一個關于一個女人和她的狗的虛構故事,其中詳細說明了狗的名字和年齡,但沒有詳細說明它的顏色。然后向模型提問:女人的狗是什么顏色的?

此任務的每個實例,都會提供四個選項作為答案,其中一個始終是「I don't know」,而其他選項都是相對合理的回答。

圖片

評估中設置70%的任務實例對應于真實答案是「I don't know」,30%的實例對應于在上下文中可找到答案(即簡單檢索任務),最后根據模型輸出是否具有正確答案進行評分。

全新評估框架

長上下文評估通常應遵循以下原則:

通常可擴展至任意上下文長度;

由相關信息的數量編制索引的復雜度;

上下文長度難度應與任務對應的復雜度解耦,沒有不相關的信息;

覆蓋自然語言文本和代碼(兩個基本領域);

避免數據泄露;

測試模型對上下文中傳達的隱含信息的理解;

用盡可能少的評估次數,測試長上下文綜合能力的正交維度。

本文的評估框架將呈現給模型的上下文視為一個信息流,它構成了對潛在結構的更新:完整的上下文長度就像一塊大理石,里面有許多不相關的信息,LLM需要鑿掉不相關的信息,才會露出里面的雕像(潛在結構)。

舉個例子,你可以想象讀一本描寫家庭的書——父母可能會離婚,孩子長大后會結婚,長輩會去世。在這個過程中,與家譜對應的潛在結構發生了變化和更新(書中的大部分信息則根本不影響家譜)。

實驗結果

考慮每個評估中的128K上下文:

圖片

如圖所示,在短上下文中,這些模型的性能最初會出現一次急劇的超線性下降。

圖片

請注意,任務復雜度在整個上下文中保持固定,因此這種下降完全是由于模型的長上下文處理能力。

圖片

之后,性能通常會趨于平緩或繼續以大致線性的速度下降,并通常會持續到非常大的上下文長度。

我們可以將這種行為解釋為模型具有足夠好的子功能,足以在給定任務上實現一定水平的性能,并且這些子功能的長度泛化到了非常大的上下文長度。

責任編輯:張燕妮 來源: 新智元
相關推薦

2024-04-03 10:05:00

LLM性能基準測試

2024-09-30 14:10:00

2024-04-07 08:50:00

谷歌框架

2025-10-31 01:00:00

2025-09-10 09:38:56

2025-10-20 09:06:00

2024-09-05 08:24:09

2023-06-20 16:26:21

2025-10-14 10:03:11

CompLLMLLMRAG

2025-05-28 11:46:52

強化學習模型AI

2017-05-11 14:00:02

Flask請求上下文應用上下文

2025-10-11 04:22:00

人工海馬體網絡LV-Eval

2025-02-26 00:16:56

RAGAI服務

2025-08-08 01:45:00

上下文工程優化框架

2012-12-31 10:01:34

SELinuxSELinux安全

2022-09-14 13:13:51

JavaScript上下文

2025-02-06 10:21:51

2022-09-15 08:01:14

繼承基礎設施基礎服務

2025-10-27 09:38:26

2022-10-28 16:24:33

Context上下文鴻蒙
點贊
收藏

51CTO技術棧公眾號

蜜桃传媒在线观看免费进入| 黄色激情视频在线观看| 亚洲欧美在线综合| 一区二区三区视频在线观看| 国产无套精品一区二区| av毛片在线免费观看| 日本一区二区高清不卡| 日韩一区二区三区精品视频| 久久久久久久久久久99| 国产在线资源| 国产成人综合网站| 国产www精品| 欧美三级在线免费观看| 香蕉视频一区| 日韩欧美一级在线播放| 成人精品视频一区二区| 久草在线视频资源| 国产精品国产三级国产aⅴ中文| 国产精品乱码视频| 国产精品国产一区二区三区四区 | 成年人免费看毛片| 99久久.com| 亚洲欧美日韩成人| 国产精品一区二区在线免费观看| 成人国产激情在线| 欧美日韩美女视频| 日产精品久久久久久久蜜臀| av大片在线看| 久久蜜臀中文字幕| 国产免费一区二区三区| 国产免费久久久| 日本视频一区二区| 欧美与欧洲交xxxx免费观看| 久久精品国产av一区二区三区| 色777狠狠狠综合伊人| 精品亚洲一区二区三区四区五区| xxxxwww一片| 亚洲福利影视| 欧美色网一区二区| 国内自拍视频一区| caoporn视频在线| 艳妇臀荡乳欲伦亚洲一区| 伊甸园精品99久久久久久| 精品av中文字幕在线毛片| 91在线一区二区三区| 国产精品国产精品| 亚洲国产综合一区| 国产激情一区二区三区桃花岛亚洲| 国产精品女人网站| 最新中文字幕免费| 日韩电影免费一区| 国产精品高清在线观看| 最近中文字幕免费观看| 免费在线成人网| 国产精品久久在线观看| 国产女主播喷水视频在线观看| 亚洲欧美日本日韩| 777777777亚洲妇女| 日韩三级视频在线| 亚洲影视在线| 国产精品美女www爽爽爽视频| 日韩免费av网站| 美美哒免费高清在线观看视频一区二区| 国产成人精品电影| 中文字幕在线播出| 国产一区二区三区免费播放| 91超碰在线电影| 午夜精品久久久久久久爽| 国产成人综合精品三级| eeuss一区二区三区| 天天爱天天干天天操| 91视视频在线直接观看在线看网页在线看| 久久精品第九区免费观看| 日韩午夜影院| 日本一区二区免费在线| 一区二区三区四区欧美日韩| 成人区精品一区二区不卡| 亚洲国产裸拍裸体视频在线观看乱了 | 在线观看高清免费视频| 性欧美video另类hd尤物| 欧美电影免费提供在线观看| 国产精品无码网站| 日本不卡免费一区| 欧美成人第一页| 日韩av在线天堂| 日韩 欧美一区二区三区| 91精品视频网站| 蜜桃av噜噜一区二区三区麻豆| 91丨九色丨黑人外教| 视频在线99re| www欧美xxxx| 在线亚洲欧美专区二区| 青娱乐精品在线| 网友自拍区视频精品| 日韩在线免费视频观看| 国产精品30p| 免费美女久久99| 国产91视觉| 999国产在线视频| 激情成人在线视频| 女性女同性aⅴ免费观女性恋| 中老年在线免费视频| 欧美日韩国产色站一区二区三区| 亚洲精品成人无码毛片| 猛男gaygay欧美视频| 精品国产一区二区三区久久狼5月| 久草视频免费在线播放| 日韩国产在线观看一区| 成人在线视频电影| 日本三级在线视频| 欧美日韩精品在线观看| 欧洲美女亚洲激情| 精品中文一区| 欧美国产日韩中文字幕在线| 国产精品成人久久久| 成人av电影在线播放| 中文字幕日韩一区二区三区| 欧美少妇精品| 日韩欧美一级二级| 中文字幕91视频| 久热精品在线| 国产一区二区三区四区五区在线 | 在线播放国产精品| 国产精品99无码一区二区| 精品一区二区三区久久| 日韩精品一区二区三区丰满| av影院在线| 日韩一区二区视频在线观看| 五月天婷婷丁香网| 久久久久久一区二区| 国产精品xxxx| 色帝国亚洲欧美在线| 欧美日韩国产片| 日韩女同一区二区三区| 性欧美精品高清| 国产自产在线视频一区| 不卡av免费观看| 欧美大片国产精品| 九九热视频精品| 国内一区二区在线| 亚洲人成影视在线观看| 成人软件在线观看| 亚洲美女黄色片| 国产综合精品视频| 久久久一区二区三区捆绑**| 成熟了的熟妇毛茸茸| 国内毛片久久| 97在线看福利| 日本一二三区在线视频| 欧美日韩亚洲视频一区| 在线观看国产网站| 香蕉国产精品偷在线观看不卡| 国内视频一区| 日本午夜大片a在线观看| 亚洲精品一区二区三区不| 欧美一区二区激情视频| 26uuu久久天堂性欧美| 黑鬼大战白妞高潮喷白浆| 成人欧美一区二区三区视频 | 午夜欧美视频| 亚洲一区二区免费| 中文字幕中文字幕在线中高清免费版| 欧美日韩国产不卡| 91香蕉一区二区三区在线观看| 久久99精品久久久久久国产越南 | 中日韩高清电影网| 欧美大片在线观看一区| 永久免费看片在线播放| www国产精品av| 亚洲成人av免费看| 五月开心六月丁香综合色啪| 91偷拍精品一区二区三区| 国模雨婷捆绑高清在线| 日韩av在线免费观看| 国产91精品看黄网站在线观看| 中文字幕成人av| 伦伦影院午夜理论片| 亚洲乱码久久| 色一情一乱一伦一区二区三欧美| 国产69精品久久久久按摩| 久久香蕉国产线看观看av| 亚洲卡一卡二卡三| 一本久久精品一区二区| 小嫩苞一区二区三区| 成人午夜又粗又硬又大| av视屏在线播放| 亚洲影视一区| 欧美精品成人一区二区在线观看| 欧美性www| 97在线日本国产| 中文日本在线观看| 亚洲第一天堂无码专区| 中文字幕永久在线观看| 午夜精品一区二区三区三上悠亚| 欧美福利第一页| 成人性生交大片免费看中文| 日本激情综合网| 亚洲久久一区| 在线观看三级网站| 国产探花一区在线观看| 91精品国产综合久久久久久丝袜 | 污片在线免费观看| 亚洲免费视频一区二区| 亚洲美女性生活| 欧美日韩一区二区欧美激情| 国产无遮挡又黄又爽又色| 国产精品久久久久久妇女6080 | 成年人视频在线免费| 欧美69wwwcom| 亚洲第一综合| 亚洲动漫精品| 国产精品播放| 国产乱码精品一区二区三区亚洲人| 2018国产精品视频| 色操视频在线| 久久在线免费视频| www.在线视频.com| 亚洲老板91色精品久久| 亚洲乱码精品久久久久..| 欧美日韩小视频| 青青国产在线视频| 黑人巨大精品欧美一区二区| 校园春色 亚洲| 中文字幕欧美一| 人妻一区二区视频| 99久久精品国产精品久久| 天天爽夜夜爽视频| 黄网站免费久久| www.夜夜爽| 免费精品视频在线| 天天干在线影院| 久久中文精品| 久久久久久久久久久免费视频| 亚洲高清自拍| 国产va亚洲va在线va| 欧美视频福利| 免费极品av一视觉盛宴| 一区二区影院| 400部精品国偷自产在线观看| 国产高清一区| 制服国产精品| 久久久久蜜桃| 午夜探花在线观看| 中文字幕日韩一区二区不卡| 在线免费一区| 亚洲精品一二三区区别| 中文一区一区三区免费| 91精品婷婷色在线观看| 天堂av免费看| 欧美日韩爆操| 97成人在线免费视频| 国产欧美成人| avav在线看| 男人的天堂久久精品| 国产成人在线综合| 国产成人在线网站| 国产乱国产乱老熟300部视频| 成人综合在线网站| 中文字幕一区二区久久人妻网站| 91美女片黄在线观看91美女| v8888av| 欧美激情资源网| 天堂网av2018| 亚洲精品一卡二卡| 日韩精品人妻中文字幕| 福利视频导航一区| 中文字幕人妻互换av久久| 538prom精品视频线放| 超碰免费在线97| 日韩精品在线私人| 9i精品一二三区| 欧美黑人狂野猛交老妇| 另类专区亚洲| 成人黄色免费片| 动漫3d精品一区二区三区乱码| 欧美极品视频一区二区三区| 91影院成人| 国产视频九色蝌蚪| 美国欧美日韩国产在线播放| 老女人性生活视频| 91视频免费观看| 北条麻妃在线观看视频| 亚洲第一福利视频在线| 在线视频精品免费| 日韩欧美电影一二三| 欧美zozo| 欧美日韩成人免费| 欧美www.| 国产欧美欧洲| 91影院成人| 免费高清在线观看免费| 精品亚洲国产成人av制服丝袜| 欧美丰满熟妇bbb久久久| 国产日韩精品一区| 久久亚洲精品大全| 欧美偷拍一区二区| 欧美一区二不卡视频| 少妇高潮久久77777| 成人在线黄色电影| 91在线观看免费网站| 尤物tv在线精品| 隔壁人妻偷人bd中字| 美女视频黄免费的久久 | 妖精视频一区二区三区免费观看| 一区二区精品在线| 亚洲男女自偷自拍| 无套内谢丰满少妇中文字幕| 国产亚洲欧洲997久久综合| 国产性生活网站| 欧美精品乱码久久久久久按摩| 你懂的在线观看| 欧美精品九九久久| 日韩在线电影| 色狠狠久久av五月综合| 性8sex亚洲区入口| 中国免费黄色片| 一区二区三区中文免费| 亚洲系列在线观看| 亚洲天堂精品在线| 亚洲精品福利电影| 国内成+人亚洲| 亚洲经典视频在线观看| 亚洲综合123| 中文字幕一区二区三区乱码在线 | 91香蕉一区二区三区在线观看| 日本福利一区二区| 色综合888| 欧美精品xxx| 亚洲国产高清在线观看| 一区二区视频国产| 久久精品99久久久| 国产日韩精品中文字无码| 在线观看国产91| jizz在线观看视频| 国产精品久久久91| 精品欧美久久| 久久久久久三级| 国产日韩精品一区二区浪潮av| 久久久黄色大片| 亚洲视频欧洲视频| 在线看欧美视频| 亚洲欧美久久久久一区二区三区| 青青青爽久久午夜综合久久午夜| 新91视频在线观看| 色综合久久久网| 国产在线观看免费| 国产欧美 在线欧美| 亚州av乱码久久精品蜜桃| 午夜久久福利视频| 亚洲天堂免费在线观看视频| 91成年人视频| 久久国产精品视频| 一区二区三区视频播放| 又大又硬又爽免费视频| av在线播放不卡| 无码人妻久久一区二区三区不卡| 亚洲精品一区二区三区婷婷月| 久九九久频精品短视频| 日韩欧美精品在线不卡 | 国产熟女高潮一区二区三区| 婷婷久久综合九色国产成人| 免费黄色在线视频网站| 国产精品6699| 香蕉国产精品| 少妇欧美激情一区二区三区| 亚洲高清免费在线| 欧美美女色图| 国产原创欧美精品| 国产综合网站| 日本黄色网址大全| 91.麻豆视频| 美女高潮在线观看| 天天久久人人| 国产不卡一区视频| 精产国品一区二区| 欧美成人全部免费| 色婷婷精品视频| 中文字幕第17页| 午夜精品在线视频一区| 婷婷激情在线| 国产精品久久久久久久久婷婷 | 91精品免费视频| 亚洲三级影院| 国产免费嫩草影院| 精品国产一区二区三区久久久蜜月| 9i看片成人免费高清| 青青草原国产免费| 99视频在线观看一区三区| 中文字幕在线观看欧美| 欧美精品久久久久| 日韩国产在线| 亚洲精品中文字幕在线播放| 欧美日韩一区二区三区在线看| 免费影视亚洲| 亚洲精品视频一二三| 成人免费精品视频| 中文字幕自拍偷拍| 午夜精品一区二区三区av| 日韩欧美高清| 九色porny自拍视频|