精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

看AI如何大海撈針,探索LLM能力邊界實戰?

發布于 2024-6-20 09:58
瀏覽
0收藏

關鍵鏈接

  • 視頻介紹
  • 相關代碼

看AI如何大海撈針,探索LLM能力邊界實戰?-AI.x社區

概覽

隨著人工智能模型處理能力的增強,能夠處理的上下文信息越來越多,達到百萬級別的詞匯量,對于這類長上下文的大型語言模型(LLMs)的研究興趣也隨之增長。在這些模型中,一個流行的測試方法是將一個事實(稱為“針”)嵌入到大量的上下文信息(稱為“干草堆”)中,然后測試模型是否能在這個上下文中找到并回答與這個事實相關的問題。通過這個方法我們能夠評估并理解模型在處理長文本和檢索信息方面的能力邊界。

然而,這種方法并不完全適用于所有情況,尤其是對于那些需要檢索多個事實并在此基礎上進行推理的應用。為了解決這個問題,我們提出了一個新的測試基準,即多針檢索加推理測試。在這個測試中,我們發現了兩個主要結果:

  1. 當要求模型檢索更多的事實時,其性能會下降。
  2. 當模型需要對檢索到的事實進行推理時,性能也會下降。

下圖展示了測試結果的概覽:隨著“針”的數量增加,檢索的準確性降低;而且,對這些“針”進行推理的難度比單純檢索更大。

看AI如何大海撈針,探索LLM能力邊界實戰?-AI.x社區

我們還發現,隨著提供給模型的上下文信息量的增加,性能也會下降。此外,我們還深入研究了性能下降的原因,特別是當檢索多個“針”時。通過分析結果的熱圖,我們發現當檢索多個“針”時,GPT-4模型傾向于檢索位于上下文末尾的“針”,而忽略了開頭的“針”,這與之前的單“針”研究結果相似。

看AI如何大海撈針,探索LLM能力邊界實戰?-AI.x社區

接下來,我們將詳細介紹如何使用這個基準測試,并討論在 GPT-4 模型上的測試結果。

如何使用

要進行“多針檢索加推理”的評估,用戶需要準備三個要素:

  • 一個需要多個“針”來回答的“問題”
  • 一個基于這些“針”得出的“答案”
  • 一個將要插入上下文的“針”的列表

我們擴展了 Greg Kamradt 的“LLMTest_NeedleInAHaystack”項目,以支持多針評估,并且使用了 LangSmith 作為評估工具。通過 LangSmith,我們創建了一個評估集,其中包含了上述的“問題”和“答案”。

看AI如何大海撈針,探索LLM能力邊界實戰?-AI.x社區

以一個實際案例為例,我們創建了一個新的 LangSmith 評估集,名為“multi-needle-eval-pizza-3”,其中包含了關于披薩秘密配料的問題和答案:

看AI如何大海撈針,探索LLM能力邊界實戰?-AI.x社區

問題:
制作完美披薩需要哪些秘密配料?

答案:
制作完美披薩的秘密配料包括無花果、帕爾馬火腿和山羊奶酪。

在創建了數據集之后,我們可以通過設置一些參數來運行評估,例如:

  • document_depth_percent_min - 第一個“針”插入的位置。其余的“針”將在第一個之后均勻插入
  • multi_needle - 執行多針評估的標記
  • needles - 要插入上下文的“針”的完整列表
  • evaluator - 選擇評估工具 LangSmith
  • eval_set - 選擇我們創建的評估集“multi-needle-eval-pizza-3”
  • context_lengths_num_intervals - 測試的上下文長度數量
  • context_lengths_min(和最大值)- 測試的上下文長度范圍

我們可以使用以下命令來執行評估:

python main.py --evaluator langsmith --context_lengths_num_intervals 6 --document_depth_percent_min 5 --document_depth_percent_intervals 1 --provider openai --model_name "gpt-4-0125-preview" --multi_needle True --eval_set multi-needle-eval-pizza-3 --needles '[ "無花果是制作完美披薩的秘密配料之一。", "帕爾馬火腿是制作完美披薩的秘密配料之一。", "山羊奶酪是制作完美披薩的秘密配料之一。"]'  --context_lengths_min 1000 --context_lengths_max 120000

這個命令將啟動一個工作流程,其中包括將“針”插入到上下文中,使用帶有這些“針”的上下文提示模型生成回答,并評估模型的生成是否正確地檢索了“針”。

看AI如何大海撈針,探索LLM能力邊界實戰?-AI.x社區

“多針檢索加推理”評估工作流程圖

GPT-4 的檢索結果

為了測試 GPT-4 的多針檢索能力,我們創建了三個 LangSmith 評估集:

  • “multi-needle-eval-pizza-1” - 插入一個“針”。
  • “multi-needle-eval-pizza-3” - 插入三個“針”。
  • “multi-needle-eval-pizza-10” - 插入十個“針”。

我們評估了 GPT-4(能夠處理 128k 標記長度的上下文)在單個回合中檢索 1、3 或 10 個“針”的能力,上下文長度分別為?。?000 標記)和大(120,000 標記)。所有運行的命令和生成結果的鏈接都已提供。

https://github.com/gkamradt/LLMTest_NeedleInAHaystack/blob/main/viz/multi-needle-datasets/

這里是我們的結果摘要圖:

看AI如何大海撈針,探索LLM能力邊界實戰?-AI.x社區

我們可以看到:

  • 當“針”的數量從 1 增加到 10 時,模型的性能有所下降。
  • 當上下文長度從 1000 增加到 120,000 標記時,性能也會下降。

為了進一步探索和驗證這些結果,我們可以查看 LangSmith 跟蹤的一個例子,其中我們插入了 10 個“針”。GPT-4 的生成結果如下:

制作完美披薩所需的秘密配料包括浸泡在濃縮咖啡中的棗、甜藍紋奶酪、糖核桃和梨片。

在這次生成中,只有 四個 “秘密配料” 被正確提及。根據跟蹤結果,我們確認所有 10 個“針”都存在于上下文中,并記錄了它們被插入的順序:

* 無花果
* 帕爾馬火腿
* 煙熏蘋果木培根
* 檸檬
* 山羊奶酪
* 松露蜂蜜
* 梨片
* 浸泡在濃縮咖啡中的棗
* 甜藍紋奶酪
* 糖核桃

我們發現,GPT-4 在生成中只提及了我們上下文中最后四個“針”。這揭示了檢索失敗的一個有趣現象:當上下文變長時,模型更容易忽略位于文檔開頭的“針”。

因為我們記錄了每個“針”的插入位置,我們還可以探究這一點:下面的熱圖顯示了隨著上下文長度的增加,10 個“針”檢索的情況。每一列代表一個實驗,我們要求 GPT-4 在上下文中檢索 10 個“針”。

隨著上下文長度的增加,我們觀察到模型在文檔開頭的檢索失敗。這種趨勢在多“針”情況下(大約 25k 標記)比單“針”情況(對于 GPT-4 是從 73k 標記開始)更早出現。

看AI如何大海撈針,探索LLM能力邊界實戰?-AI.x社區

GPT-4 的檢索與推理

檢索增強生成(RAG)通常涉及從索引的文檔庫中檢索多個事實,然后在這些事實的基礎上進行推理。為了測試這一點,我們構建了三個數據集,通過詢問所有秘密配料的首字母來測試模型的檢索和推理能力。

  • “multi-needle-eval-pizza-reasoning-1” - 只檢索一個“針”。
  • “multi-needle-eval-pizza-reasoning-3” - 檢索三個“針”。
  • “multi-needle-eval-pizza-reasoning-10” - 檢索十個“針”。

需要注意的是,這里的推理是非?;A的形式。在未來的基準測試中,我們計劃包含不同復雜度的推理任務。

我們比較了僅檢索和檢索加推理兩種情況下的正確答案比例。所有數據和跟蹤結果都已提供。我們發現,無論是檢索還是推理,隨著上下文長度的增加,性能都會下降,而且推理的性能似乎總是落后于單純的檢索。這表明檢索能力可能限制了模型在推理任務上的表現,這是符合我們預期的。

看AI如何大海撈針,探索LLM能力邊界實戰?-AI.x社區

總結

長上下文語言模型的發展為我們帶來了巨大的潛力。為了有效地利用這些模型,無論是獨立使用還是作為外部檢索系統的替代,了解它們的能力和局限性至關重要。"多針檢索加推理"基準測試為我們提供了一個評估長上下文檢索性能的有用工具,特別是在與傳統的檢索增強生成(RAG)方法相比較時。

通過這些測試,我們可以得到一些初步的見解,但還需要進一步的驗證:

  • 檢索并非萬無一失- 并不能保證所有事實都能被檢索到,尤其是當涉及的事實數量和上下文規模增加時。
  • 檢索失敗的模式各異- 隨著上下文長度的增加,GPT-4 在檢索位于文檔開頭的事實時表現不佳。
  • 提問方式至關重要- 根據之前的研究發現,為了提高模型的檢索能力,可能需要精心設計提問方式。
  • 檢索與推理的關系- 當模型需要對檢索到的信息進行推理時,其性能會受到影響。

通過這些發現,我們可以更好地理解并優化長上下文模型在信息檢索和推理任務中的應用。

本文轉載自??AI小智??,作者: AI小智 ????

收藏
回復
舉報
回復
相關推薦
成人自拍视频在线| 婷婷综合网站| 欧美性生活久久| 亚洲一区二区高清视频| 国产成人精品无码高潮| 在线观看不卡| 一区二区三欧美| 被黑人猛躁10次高潮视频| а√天堂中文资源在线bt| 不卡的av中国片| 国产欧美韩国高清| 在线观看免费国产视频| 手机在线电影一区| 亚洲精品国产免费| aaa一级黄色片| 最近在线中文字幕| 亚洲美女视频在线观看| 日韩高清av电影| 亚洲精品国产av| 欧美aaa在线| 午夜免费在线观看精品视频| 99自拍偷拍视频| 精品亚洲自拍| 欧美一区二区精美| 精品国产成人av在线免| 手机在线免费看av| 国产精品久久毛片a| 久久久久久国产精品免费免费| 国产精品久久久久久久一区二区| 中文精品在线| 欧美黄色小视频| 韩国一级黄色录像| 禁果av一区二区三区| 亚洲电影天堂av| 成人av毛片在线观看| 欧美性理论片在线观看片免费| 亚洲国产精品久久人人爱蜜臀| 亚洲欧洲另类精品久久综合| 青青免费在线视频| gogogo免费视频观看亚洲一| 成人激情视频在线| 在线视频欧美亚洲| 日本中文字幕一区二区视频| 欧美在线不卡区| 国产无码精品视频| 精品二区视频| 欧美肥婆姓交大片| 五月天丁香激情| 亚洲激情久久| 最新69国产成人精品视频免费| 美国黄色一级毛片| 麻豆成人入口| 日韩成人av在线| 日本护士做爰视频| 日韩极品在线| 亚洲欧美综合区自拍另类| 国产在线观看无码免费视频| 人人精品亚洲| 亚洲电影免费观看| 自拍视频一区二区| 国产香蕉精品| 日韩精品免费综合视频在线播放| 国产精品久久不卡| 伊人久久大香线蕉| 一区二区三欧美| 免费看91的网站| 国产大片一区| 久久综合久久八八| 国产在线视频在线观看| 一区在线免费| 日本高清不卡的在线| 日韩电影在线观看一区二区| 视频一区视频二区在线观看| 国产精品视频成人| 国产美女精品视频国产| 国产白丝精品91爽爽久久 | 久久精品超碰| 91.com在线观看| 潘金莲一级淫片aaaaaaa| av一级亚洲| 日韩精品在线影院| 欧美88888| 国产精品xvideos88| 91国产精品视频在线| 无码一区二区三区在线观看| 免费观看在线色综合| 91丨九色丨国产| 天天躁日日躁狠狠躁喷水| 久久久亚洲欧洲日产国码αv| 亚洲国产欧美日韩| 污污的网站在线免费观看| 精品女厕一区二区三区| 亚洲36d大奶网| 97人人澡人人爽91综合色| 亚洲欧美精品一区二区| 国产三级国产精品国产国在线观看| 亚洲一级高清| 国产精品一区=区| 亚洲国产欧美另类| 国产丝袜欧美中文另类| 国内少妇毛片视频| 久久天堂影院| 国产丝袜精品视频| 印度午夜性春猛xxx交| 久久婷婷激情| 91免费看网站| av在线电影网| 亚洲v精品v日韩v欧美v专区| 超碰在线人人爱| 999久久精品| 日韩最新在线视频| 免费看毛片网站| 粉嫩嫩av羞羞动漫久久久| 亚洲国产一区二区精品视频| 2020国产在线| 欧美一区二区三区白人| 这里只有久久精品| 影音国产精品| 亚洲一区二区久久久久久| 黄上黄在线观看| 亚洲一二三四久久| 亚洲一区二区三区四区精品| 国产精品探花在线观看| 国语对白做受69| 国产理论视频在线观看| 久久精品视频一区二区| av7777777| silk一区二区三区精品视频| 久久久国产视频91| 国产美女www爽爽爽| 91亚洲国产成人精品一区二三 | 欧美专区日韩专区| aa片在线观看视频在线播放| 亚洲国内精品| 成人做爰66片免费看网站| а√天堂资源地址在线下载| 欧美日韩免费不卡视频一区二区三区 | av成人资源网| 欧美激情啊啊啊| 国产女人高潮的av毛片| 国产精品麻豆网站| 邪恶网站在线观看| 国产永久精品大片wwwapp| 欧美一区在线直播| 免费在线黄色影片| 色噜噜久久综合| 国产真实乱人偷精品人妻| 亚洲一区自拍| 久久精品成人一区二区三区蜜臀| 欧美激情成人动漫| 91网上在线视频| 中文字幕免费国产精品| 欧日韩免费视频| 2020国产精品极品色在线观看| 久久成人精品视频| 精品久久久久成人码免费动漫| 亚洲同性同志一二三专区| 亚洲美女性囗交| 99久久婷婷| 亚洲a在线播放| 日本动漫同人动漫在线观看| 日韩欧美一级特黄在线播放| 久久久国产精品黄毛片| 国产 日韩 欧美大片| 水蜜桃色314在线观看| 激情亚洲另类图片区小说区| 91a在线视频| 欧美日本网站| 欧美少妇一区二区| 男女性高潮免费网站| 成人国产精品免费观看| 能在线观看的av| 日本久久一二三四| 51蜜桃传媒精品一区二区| av资源一区| 亚洲人成在线一二| 国产免费叼嘿网站免费| 亚洲电影一区二区| 免费看污片的网站| 国内欧美视频一区二区| 91精品国产91久久久久麻豆 主演| 第一区第二区在线| 国产91露脸中文字幕在线| 久久久久久国产精品免费无遮挡| 日韩视频免费直播| 亚洲另类欧美日韩| 国产精品免费视频观看| 欧美成人精品一区二区综合免费| 美女黄网久久| www.99riav| 欧美三级情趣内衣| a级国产乱理论片在线观看99| 天堂√8在线中文| 久久精品视频亚洲| 你懂的视频在线免费| 欧美一区二区成人6969| 国产寡妇亲子伦一区二区三区四区| 国产精品福利在线播放| 黄色网址在线视频| 国产制服丝袜一区| 蜜臀久久99精品久久久酒店新书| 一级欧洲+日本+国产| 欧美日韩亚洲一区二区三区四区| 国产成人视屏| 日本视频久久久| 欧美黄色视屏| 日韩在线精品一区| 男女视频在线观看| 亚洲大胆人体av| 国产精品一级视频| 91黄色免费版| 国产情侣在线视频| 一区二区三区在线观看欧美 | 精品国精品国产自在久不卡| 91福利视频网站| 久久久久久久久久一区二区三区| 中文字幕欧美国产| 黄色片视频免费观看| 国产经典欧美精品| 亚洲精品综合在线观看| 人妖欧美一区二区| 青青草原av在线播放| 一区二区自拍| 污污污污污污www网站免费| 国产精品久久久久久影院8一贰佰 国产精品久久久久久麻豆一区软件 | 亚洲激情第一页| 亚洲AV无码一区二区三区少妇 | 999久久久亚洲| 欧美日韩精品不卡| 色婷婷av一区二区三区丝袜美腿| 爱情岛论坛亚洲入口| 欧美在线se| 国产精品视频不卡| 欧美天堂一区二区| 国产精品视频大全| 成人四虎影院| 国产精品高潮粉嫩av| 黑人巨大精品欧美一区二区桃花岛| 色综合久久悠悠| 国产网站在线免费观看| 日韩中文字幕视频| 在线观看黄av| xxav国产精品美女主播| 日本高清视频在线观看| 日韩在线精品视频| 国产在线1区| 毛片精品免费在线观看| 日本中文字幕中出在线| 久久久久国色av免费观看性色| 天天色天天射天天综合网| 欧美日韩成人在线观看| av3级在线| 97超级碰碰人国产在线观看| 妞干网免费在线视频| 欧亚精品中文字幕| 偷拍精品精品一区二区三区| 国产成人av在线播放| 免费高清视频在线一区| 国产精品香蕉国产| 精品国产欧美| 国产精品久久亚洲7777| 天堂一区二区三区四区| 欧美激情www| 日韩精品一区二区三区免费观看| 伊人色综合影院| 欧美一区精品| 每日在线更新av| 美日韩一区二区三区| 天天爽夜夜爽视频| 99在线热播精品免费| 亚洲综合色一区| 国产精品国产三级国产普通话蜜臀| 成人高潮免费视频| 亚洲成a人v欧美综合天堂| 欧美一区二区三区网站| 欧美精品v日韩精品v韩国精品v| 99久久国产免费| 亚洲精品乱码久久久久久金桔影视 | 久久久久亚洲蜜桃| 91制片厂在线| 亚洲午夜免费电影| 最近中文字幕在线观看视频| 日韩一区二区三区免费观看| 无码精品黑人一区二区三区 | 日韩中文字幕区一区有砖一区| 在线观看国产中文字幕| 成人性生交大片免费看视频在线 | 亚洲国产精品二区| 亚洲人成77777在线观看网| 超碰porn在线| 欧美资源在线观看| 国产高清日韩| 美女被啪啪一区二区| 香蕉综合视频| 欧美激情成人网| 国产福利一区在线| 亚洲AV无码成人精品区明星换面| 亚洲免费观看高清完整版在线| 国产www在线| 日韩欧美在线网站| 国产高清自拍视频在线观看| 欧美日韩国产二区| 成人在线观看免费视频| 久久精品日韩精品| 午夜日本精品| 国产91色在线观看| 91毛片在线观看| 久久精品一级片| 欧美精品日韩一本| 美州a亚洲一视本频v色道| 欧美黑人性视频| 中文字幕成人| 日韩中文字幕一区二区| 亚洲毛片网站| 久久综合桃花网| 国产精品无圣光一区二区| 国产超碰人人爽人人做人人爱| 日韩一区二区三| 快射视频在线观看| 国产精品成人一区二区| 免费福利视频一区| 福利在线一区二区| 国产乱码精品一区二区三区五月婷| 无码少妇精品一区二区免费动态| 红桃av永久久久| 丰满人妻一区二区三区无码av | 欧洲第一无人区观看| 欧美性xxxxxxxx| 久久免费看视频| 青青草成人在线| 麻豆视频一区| 久久精品视频16| av一二三不卡影片| 国产一国产二国产三| 精品日韩一区二区三区免费视频| www在线视频| 亚洲自拍另类欧美丝袜| 91成人影院| 欧美性猛交xxxx乱大交91| 一区免费观看视频| 国产熟女一区二区丰满| 久久久久www| 久久中文字幕一区二区| 欧美做受777cos| 国产精品99久久久久久有的能看| 2025国产精品自拍| 日韩午夜在线影院| a毛片不卡免费看片| 精品国产乱码久久久久久108| 99精品国产一区二区青青牛奶| 亚洲午夜久久久久久久久| 精品成人久久av| 色在线免费视频| 国产精品r级在线| 色综合久久网| 无套白嫩进入乌克兰美女| 亚洲永久精品大片| 无码精品黑人一区二区三区| 欧美专区福利在线| 日韩国产一区二区三区| 三区视频在线观看| 亚洲在线免费播放| 亚洲 精品 综合 精品 自拍| 欧美中文字幕在线视频| 日韩理论电影大全| 69久久精品无码一区二区| 亚洲成人1区2区| 免费a级毛片在线观看| 国产精品久久久久久中文字| 91精品国产视频| 中国免费黄色片| 在线免费观看视频一区| 国产在线高潮| 国产亚洲欧美另类一区二区三区| 亚洲一区区二区| 国精产品视频一二二区| 日韩精品中文字幕在线一区| 日韩av影片| 在线观看精品视频| 成人黄色网址在线观看| 国产精华7777777| 欧美成人亚洲成人日韩成人| 亚洲毛片免费看| 婷婷激情5月天| 高潮白浆女日韩av免费看| 香蕉视频网站在线观看| 亚洲一区二区自拍| 美女国产一区| a级片在线观看免费| 亚洲欧美日韩天堂| 亚洲国产中文在线| 天天影视综合色| 亚洲资源中文字幕| 国产高清免费av在线| 官网99热精品| 美女视频黄频大全不卡视频在线播放| 久草视频在线资源| 中文字幕无线精品亚洲乱码一区| 国语一区二区三区| 中文字幕中文在线|