精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

LLM上下文窗口突破200萬!無需架構(gòu)變化+復(fù)雜微調(diào),輕松擴(kuò)展8倍

開發(fā) 前端
LongRoPE方法首次將LLM的窗口擴(kuò)展到了2048k個(gè)token,只是簡(jiǎn)單微調(diào)的情況下,就能實(shí)現(xiàn)與短上下文窗口相近的性能!

大型語言模型(LLM)往往會(huì)追求更長(zhǎng)的「上下文窗口」,但由于微調(diào)成本高、長(zhǎng)文本稀缺以及新token位置引入的災(zāi)難值(catastrophic values)等問題,目前模型的上下文窗口大多不超過128k個(gè)token。

最近,Microsoft Research的研究人員提出了一個(gè)新模型LongRoPE,首次將預(yù)訓(xùn)練 LLM 的上下文窗口擴(kuò)展到了2048k個(gè)token,在256k的訓(xùn)練長(zhǎng)度下只需要1000個(gè)微調(diào)步驟即可,同時(shí)還能保持原始短上下文窗口的性能。

圖片圖片

論文鏈接:https://arxiv.org/abs/2402.13753

代碼鏈接:https: //github.com/microsoft/LongRoPE

LongRoPE主要包含了三個(gè)關(guān)鍵創(chuàng)新點(diǎn):

1. 通過高效搜索識(shí)別并利用了位置插值中的兩種非均勻性,為微調(diào)提供了更好的初始化,并在非微調(diào)情況下實(shí)現(xiàn)了 8 倍擴(kuò)展;

2. 引入了漸進(jìn)擴(kuò)展策略,首先微調(diào) 256k 長(zhǎng)度的 LLM,然后在微調(diào)擴(kuò)展的LLM上進(jìn)行第二次位置插值,以實(shí)現(xiàn) 2048k 上下文窗口;

3. 在8k長(zhǎng)度上重新調(diào)整 LongRoPE以恢復(fù)短上下文窗口性能。

在 LLaMA2 和 Mistral 上對(duì)各種任務(wù)進(jìn)行的大量實(shí)驗(yàn)證明了該方法的有效性。

通過 LongRoPE 擴(kuò)展的模型保留了原始架構(gòu),只對(duì)位置嵌入稍作修改,并且可以重復(fù)使用大部分已有的優(yōu)化。

位置插值的不均勻性

Transformer模型需要明確的位置信息,通常以位置嵌入(position embedding)的形式來表示輸入token的順序。

本文中的位置嵌入表示方法主要來自于RoPE, 對(duì)于位置索引為 n 的標(biāo)記,其相應(yīng)的 RoPE 編碼可簡(jiǎn)化如下:

圖片圖片

其中,d 是嵌入維度,nθi 是標(biāo)記在位置 n 上的旋轉(zhuǎn)角度,θi = θ -2i/d 表示旋轉(zhuǎn)頻率。在 RoPE 中,θ 的默認(rèn)基準(zhǔn)值為 10000。

受 NTK 和 YaRN 的啟發(fā),研究人員注意到這兩個(gè)模型可以從非線性嵌入中獲得性能提升,特別是在考慮 RoPE 各維度的不同頻率以進(jìn)行專門的內(nèi)插法和外推法時(shí)。

然而,當(dāng)前的非線性在很大程度上依賴于人為設(shè)計(jì)的規(guī)則。

這也自然引出了兩個(gè)問題:

1. 當(dāng)前的位置插值是否是最佳的?

2. 是否存在尚未探索的非線性?

圖片圖片

為了回答這些問題,研究人員使用進(jìn)化搜索(evolution search)為L(zhǎng)LaMA2-7B發(fā)現(xiàn)更好的非均勻位置插值。搜索以易錯(cuò)性為指導(dǎo),使用來自PG19驗(yàn)證集的5個(gè)隨機(jī)樣本。

通過實(shí)證分析,研究人員總結(jié)了幾個(gè)主要發(fā)現(xiàn)。

發(fā)現(xiàn)1:RoPE維度表現(xiàn)出很大的不均勻性,目前的位置插值方法無法有效處理這些不均勻性;

在公式 2 中為每個(gè) RoPE 維度搜索最佳 λ。

圖片圖片

研究人員對(duì)比了PG19和Proof-pile測(cè)試集上使用不同方法的 LLaMA2-7B 在不進(jìn)行微調(diào)的情況下的復(fù)雜度。

圖片圖片

從結(jié)果來看,搜索到的解決方案有明顯改善,表明當(dāng)前的線性(PI,positional interpolation)和非均勻(Dynamic-NTK 和 YaRN)插值方法都不是最佳的。

值得注意的是,YaRN 在 PG19 上的表現(xiàn)不如 PI 和 NTK,因?yàn)槠溥_(dá)不到非微調(diào) LLM 的目標(biāo)上下文窗口長(zhǎng)度。

例如,在 8k 上下文大小的情況下,YaRN 的困惑度在 7k 后達(dá)到峰值。

通過搜索,公式 2 中的重標(biāo)度(rescaled)因子λ變得不均勻,與PI、NTK的公式計(jì)算和YaRN的分組計(jì)算中的固定標(biāo)度s有所不同。

在8k和16k上下文窗口中,這些非均勻因子大大提高了LLaMA2的語言建模性能(即復(fù)雜度),而無需進(jìn)行微調(diào),主要是因?yàn)橛纱水a(chǎn)生的位置嵌入有效地保留了原始的RoPE,尤其是關(guān)鍵維度,從而降低了LLM區(qū)分近似token位置的難度。

發(fā)現(xiàn)2:輸入序列中初始詞塊的RoPE推斷應(yīng)減少插值;

對(duì)于輸入序列中的初始n個(gè)token,假設(shè)RoPE應(yīng)該做較少的插值,這是因?yàn)闀?huì)獲得較大的注意力分?jǐn)?shù),從而對(duì)注意力層至關(guān)重要,正如在Streaming LLM和 LM-Infinite 中觀察到的那樣。

為了驗(yàn)證這一點(diǎn),研究人員使用PI和NTK將上下文窗口擴(kuò)展到 8k 和 16k,保留前 n(0,2, ..., 256)個(gè)token,不進(jìn)行插值。當(dāng)n=0 時(shí),則恢復(fù)到原來的 PI 和 NTK。

圖片圖片

上表中可以觀察到兩個(gè)結(jié)果:

1. 保留起始token而不進(jìn)行位置插值確實(shí)能提高性能。

2. 最佳起始token數(shù)n取決于目標(biāo)擴(kuò)展長(zhǎng)度。

發(fā)現(xiàn)3:在微調(diào)和非微調(diào)設(shè)置中,非均勻位置插值都能有效擴(kuò)展 LLM 上下文窗口。

雖然已經(jīng)證明,在不進(jìn)行微調(diào)的情況下,搜索到的非均勻位置插值能顯著提高8k和16k擴(kuò)展性能,但更長(zhǎng)的擴(kuò)展需要微調(diào)。

因此使用搜索到的RoPE對(duì)LLaMA2-7B的64k上下文窗口大小進(jìn)行了微調(diào)。

圖片圖片

從結(jié)果中可以看到,在微調(diào)LLaMA2-7B之前和之后,該方法都明顯優(yōu)于PI和YaRN,主要原因是有效地使用了非均勻位置插值、最小化信息損失,以及為微調(diào)提供了更好的初始化。

受上述發(fā)現(xiàn)的啟發(fā),研究人員提出了LongRoPE,首先引入了一種高效的搜索算法,以充分利用這兩種不均勻性,并將LLM上下文窗口擴(kuò)展到 200 萬個(gè)token。

圖片圖片

具體形式化算法參見原文。

實(shí)驗(yàn)結(jié)果

研究人員將LongRoPE應(yīng)用于LLaMA2-7B和Mistral-7B模型上,并從三個(gè)方面對(duì)其性能進(jìn)行了評(píng)估:

1. 長(zhǎng)文檔中擴(kuò)展上下文 LLM 的困惑度;

2. 密鑰(passkey)檢索任務(wù),該任務(wù)衡量模型從大量無關(guān)文本中檢索簡(jiǎn)單密鑰的能力;

3. 4096上下文窗口的標(biāo)準(zhǔn)LLM基準(zhǔn);

在256k范圍內(nèi)進(jìn)行長(zhǎng)序列語言建模。

在Proof-pile和PG19上通過不同插值方法擴(kuò)展的 LLaMA2 和 Mistral 的困惑度。

從實(shí)驗(yàn)結(jié)果中可以得出兩個(gè)關(guān)鍵的結(jié)論:

1. 從 4k 到 256k 的評(píng)估長(zhǎng)度來看,擴(kuò)展模型展現(xiàn)出整體困惑度下降的趨勢(shì),表明模型有能力利用更長(zhǎng)的上下文;

2. 即使在上下文窗口長(zhǎng)度為 16 倍的情況下(這通常是在較短上下文長(zhǎng)度下保持性能所面臨的挑戰(zhàn)),我們的 LongRoPE-2048k 模型在 256k 上下文長(zhǎng)度內(nèi)的性能仍優(yōu)于最先進(jìn)的基線模型。

圖片圖片

圖片圖片

超過2000k的長(zhǎng)序列語言建模

為了評(píng)估超長(zhǎng)文檔的有效性,研究人員使用了Books3數(shù)據(jù)集。

為了評(píng)估效率,隨機(jī)選擇20本書,每本長(zhǎng)度超過2048k個(gè)token,并使用256k的滑動(dòng)窗口。

圖片圖片

從結(jié)果中可以看出,LongRoPE成功地將LLaMA2-7B和Mistral-7B的上下文窗口擴(kuò)展到2048k,同時(shí)還在8k-128k的較短長(zhǎng)度內(nèi)實(shí)現(xiàn)了與基線相當(dāng)或更好的困惑度。

還可以觀察到2048k LLaMA2和Mistral之間的顯著性能差異:Mistral在較短的長(zhǎng)度上優(yōu)于基線,但困惑度在超過256k長(zhǎng)度時(shí)達(dá)到7。

LLaMA2的性能與預(yù)期一致:隨著時(shí)間的延長(zhǎng),困惑感會(huì)有所減少,在1024k和2048k時(shí)略有增加。

此外,在LLaMA2上,LongRoPE-2048k在256k比128k的微調(diào)長(zhǎng)度下表現(xiàn)更好,主要是由于次級(jí)延伸比(secondary extension ratio)更?。?倍對(duì)16倍)。

相比之下,Mistral在微調(diào)128k的窗口大小方面表現(xiàn)更好,主要原因是對(duì)于Mistral的128k和256k微調(diào),研究人員遵循YaRN的設(shè)置使用16k訓(xùn)練長(zhǎng)度,影響了Mistral在微調(diào)后進(jìn)一步擴(kuò)展上下文窗口的能力。

參考資料:

https://arxiv.org/abs/2402.13753

責(zé)任編輯:武曉燕 來源: 新智元
相關(guān)推薦

2025-10-14 09:54:28

2025-10-11 18:05:23

AI智能體模型

2025-10-14 10:03:11

CompLLMLLMRAG

2025-08-11 08:20:02

2024-03-20 09:59:04

2025-05-09 09:15:00

2023-06-15 15:45:42

自然語言語言模型

2025-10-27 09:38:26

2025-05-09 07:50:30

2024-05-06 13:01:21

數(shù)據(jù)模型

2025-01-15 13:09:12

2024-04-03 10:05:00

LLM性能基準(zhǔn)測(cè)試

2024-03-14 08:11:45

模型RoPELlama

2023-07-11 10:02:23

2025-10-31 16:06:19

AI參數(shù)微調(diào)

2025-07-29 00:00:00

LLM上下文窗口系統(tǒng)

2017-05-11 14:00:02

Flask請(qǐng)求上下文應(yīng)用上下文

2025-10-20 09:06:00

2025-05-15 08:20:46

2025-11-10 02:11:00

馬斯克Grok 4GPT-5
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

www.亚洲一区二区| 97超碰人人看人人| 免费看的黄色录像| 亚洲色图欧美视频| 欧美亚洲视频| 日韩在线播放av| 黄色在线免费播放| 国产亚洲精彩久久| 亚洲国产视频一区二区| 日本欧美精品在线| 任我爽在线视频| 红杏视频成人| 欧美区在线观看| 黄色网页免费在线观看| www.激情五月.com| 久久影院100000精品| 一本色道**综合亚洲精品蜜桃冫| 亚洲巨乳在线观看| 久久这里只有精品9| 午夜欧美精品| 最近2019中文字幕一页二页| 97精品人妻一区二区三区蜜桃| 成人国产激情| 午夜私人影院久久久久| www亚洲国产| 一级全黄少妇性色生活片| 亚洲无吗在线| 久久久国产精品一区| 国产三级国产精品| 99re热精品视频| 伊人婷婷欧美激情| 成人在线观看网址| 在线不卡免费视频| 久久日文中文字幕乱码| 亚洲国产一区二区三区在线观看| 国产乱女淫av麻豆国产| 手机看片久久| 狠狠躁天天躁日日躁欧美| 精品视频在线观看| 久久精品久久久久久久| 禁断一区二区三区在线| 亚洲成人999| 伦伦影院午夜理论片| 国产精品成人国产| 欧洲一区在线电影| 欧美黄色免费影院| 都市激情国产精品| 亚洲一区二区偷拍精品| 国产一级黄色录像片| 一级毛片视频在线观看| 国产一区二区在线免费观看| 国产精品久久久久久久9999| 亚洲图片在线视频| 亚洲一区激情| 欧美在线一级视频| 亚洲精品国产精品乱码| 激情欧美日韩| 97精品视频在线播放| 国产一级生活片| 激情国产一区| 性色av一区二区三区免费| 久久精品亚洲无码| 国产欧美日韩亚洲一区二区三区| 性欧美长视频免费观看不卡| 日韩高清精品免费观看| 国产精品久久久久久久久久妞妞| 91精品国产免费久久久久久| 精品国产乱码一区二区| 羞羞答答国产精品www一本| 日本精品免费观看| 亚洲天堂视频网| 国内精品国产三级国产a久久| 91亚洲精品久久久久久久久久久久| 国产乱子伦精品无码码专区| 国产精品99久久久| 国产精品2018| 在线观看视频中文字幕| 黑人巨大精品欧美黑白配亚洲| 亚洲wwwav| 欧美一区二区黄片| 久久影院视频免费| 亚洲看片网站| av伦理在线| 一本高清dvd不卡在线观看| 日本熟妇人妻中出| 国产一区二区三区| 亚洲成人免费网站| 国产免费无遮挡吸奶头视频| 欧美aaaa视频| 97婷婷涩涩精品一区| 国产成人av免费| 国产福利一区在线观看| 久久综合中文色婷婷| 91社区在线观看| 一区二区三区欧美日韩| www.com毛片| 一区二区三区日本视频| 国产精品久久久久久久久毛片 | a毛片在线观看| 亚洲午夜影视影院在线观看| 日韩手机在线观看视频| av片在线观看永久免费| 天天av天天翘天天综合网| 超碰av在线免费观看| 日韩一二三区在线观看| 亚洲人成亚洲人成在线观看| 九九热精品免费视频| 日本中文字幕不卡| 国产精品欧美久久| 麻豆视频免费在线观看| 一本大道久久a久久精品综合| 欧美性猛交xxxx乱大交91| 狠狠做六月爱婷婷综合aⅴ | 一区二区三区我不卡| 波多野结衣中文在线| 欧美日韩一二三| 国产呦小j女精品视频| 激情视频极品美女日韩| 日韩中文视频免费在线观看| 800av免费在线观看| 国产酒店精品激情| 亚洲国产精品毛片| 日本不卡网站| 欧美成人r级一区二区三区| 自拍偷拍第9页| 久热精品在线| 久久久亚洲综合网站| 啪啪免费视频一区| 欧美日韩国产电影| 免费看黄色av| 日韩有码一区二区三区| 精品久久sese| 99久久精品免费看国产小宝寻花| 欧美一区二区三区系列电影| 麻豆视频免费在线播放| 日日噜噜夜夜狠狠视频欧美人| 精品国产一区二区三区免费| 欧美卡一卡二| 欧美第一区第二区| 国产大学生自拍| 国产在线精品不卡| 99re99热| 久久爱www.| 久久在线免费视频| 国产精品玖玖玖| 亚洲日本在线a| 看看黄色一级片| 911精品美国片911久久久| 成人女保姆的销魂服务| 国产色在线观看| 日韩欧美一二区| 久久人人爽人人爽人人| 成人成人成人在线视频| 男女激情免费视频| 麻豆国产欧美一区二区三区r| 国内精品久久久久影院优| 久久久久在线视频| 久久伊99综合婷婷久久伊| 少妇高潮喷水久久久久久久久久| 免费成人网www| 国产精品扒开腿爽爽爽视频| eeuss影院www在线观看| 欧美日韩国产经典色站一区二区三区| 成人精品一二三区| 韩国v欧美v日本v亚洲v| 日本黄网站色大片免费观看| 一区二区在线视频观看| 久久久视频在线| 四虎成人免费在线| 成人免费一区二区三区在线观看| 97超碰人人爽| 欧美午夜久久| 麻豆91蜜桃| 欧美成人家庭影院| 欧美激情二区三区| 中文字幕在线观看你懂的| 中文字幕免费不卡| 亚洲精品一二三四| 国产欧美一级| 亚洲一区二区不卡视频| 日韩三级av高清片| 欧美专区第一页| 日本黄色片在线观看| 欧美成人a在线| 四虎影院在线免费播放| 成人欧美一区二区三区白人 | 精品人人人人| 国产精品久久久久久久天堂| h片在线免费| 亚洲欧美国产日韩天堂区| 久久久国产精华液| 91丝袜国产在线播放| 激情黄色小视频| 999亚洲国产精| 成人免费在线一区二区三区| 成人三级高清视频在线看| 中文字幕亚洲欧美日韩高清| 亚洲精品久久久蜜桃动漫| 欧洲精品一区二区三区在线观看| 日本黄色小说视频| 国产视频在线观看一区二区三区| 青娱乐国产精品视频| 久久只有精品| 农民人伦一区二区三区| 视频在线不卡免费观看| 久久国产一区二区| 欧美1区2区3| 国产成一区二区| av电影在线地址| 久久精品国产欧美亚洲人人爽| 人成免费电影一二三区在线观看| 欧美一级搡bbbb搡bbbb| 最近中文字幕在线观看| 午夜精品视频在线观看| 三级av在线免费观看| 国内精品伊人久久久久影院对白| 奇米精品一区二区三区| 午夜免费一区| 亚洲精品日韩成人| 亚洲区小说区图片区qvod按摩| 97超碰人人看人人| 57pao成人永久免费| 国产成人精品在线播放| 在线毛片观看| 91精品国产91久久久久久久久| 91精品久久| 久久综合伊人77777尤物| av资源网在线观看| 亚洲人成电影网站色| 手机av免费在线观看| 欧美日韩亚洲精品一区二区三区| 国产精品 欧美激情| 国产精品国产自产拍高清av王其| 黄色aaa视频| 91天堂素人约啪| 99re久久精品国产| jiyouzz国产精品久久| 无码人妻久久一区二区三区蜜桃| 国产在线不卡一区| 国产一级免费大片| 韩国av一区二区三区四区| 亚洲欧美日韩精品一区| 麻豆精品久久久| 亚洲欧美手机在线| 久久 天天综合| 国产免费中文字幕| 国产综合成人久久大片91| 日韩在线一区视频| 国产在线麻豆精品观看| 午夜大片在线观看| 国产一区二区三区香蕉| 日韩欧美中文在线视频| 国产成人8x视频一区二区| 人妻激情偷乱频一区二区三区| 成人天堂资源www在线| www男人天堂| 26uuu色噜噜精品一区二区| 天堂久久精品忘忧草| 国产亚洲va综合人人澡精品| 日韩欧美黄色网址| 亚洲欧洲三级电影| 欧美日韩国产精品一区二区三区| 亚洲综合在线观看视频| 五月婷婷开心网| 91久久精品国产91性色tv | 日韩精品国产欧美| 日韩肉感妇bbwbbwbbw| 精品一区二区免费视频| 亚洲区 欧美区| 97国产一区二区| 天天干天天色天天干| 国产精品一区二区在线看| 自拍视频第一页| 99久久精品国产麻豆演员表| 亚洲av无码一区二区三区人| 国产精品毛片高清在线完整版| 国产又黄又爽又无遮挡| 欧美视频不卡中文| 在线观看日韩一区二区| 精品欧美乱码久久久久久| 四虎电影院在线观看| 在线精品国产欧美| 中文字幕在线三区| 日本sm极度另类视频| 99精品美女视频在线观看热舞| 国产女主播一区二区| 欧美三级伦理在线| 国产99午夜精品一区二区三区 | 黑人一区二区三区| 国产高清在线一区| 日韩高清欧美| 成人在线观看你懂的| 麻豆国产欧美日韩综合精品二区 | 一级黄在线观看| 亚洲国产精品成人精品| av播放在线观看| 7777kkkk成人观看| 国产一区2区在线观看| 欧美一区二区三区精美影视 | 美女精品一区最新中文字幕一区二区三区 | 国产精品一区二区人人爽| 亚洲精品国产品国语在线| 免费日本一区二区三区视频| 69视频在线播放| 在线视频亚洲欧美中文| 亚洲视频在线二区| 免费久久99精品国产自在现线| 日本黄色一级网站| 国产精品丝袜91| 特级毛片www| 亚洲第一福利在线观看| 成人在线网址| 国产精品一区二区3区| 亚洲人成网77777色在线播放| 国产一区二区三区乱码| 久久99精品久久久久久动态图| 国产毛片久久久久久久| 性久久久久久久久| 精品人妻少妇AV无码专区| 中文字幕亚洲图片| 三上悠亚亚洲一区| 狠狠色伊人亚洲综合网站色| 欧美国产专区| 在线观看中文av| 国产精品初高中害羞小美女文| 日批视频免费在线观看| 亚洲精品不卡在线| 91www在线| 国产手机精品在线| 国模 一区 二区 三区| 国产亚洲色婷婷久久| 亚洲精品中文字幕在线观看| 国产又大又长又粗| 中文字幕日韩欧美精品在线观看| 搜成人激情视频| 日韩久久精品一区二区三区| 天堂精品中文字幕在线| 中日韩精品一区二区三区| 色综合久久久久综合体桃花网| 亚洲欧洲综合在线| 97avcom| 少妇精品久久久一区二区| 97视频在线免费播放| 理论片日本一区| 色欲狠狠躁天天躁无码中文字幕| 色88888久久久久久影院按摩| 加勒比一区二区三区在线| 操日韩av在线电影| 国产日韩中文在线中文字幕| 中文字幕一区二区三区四区五区人| 蜜桃av噜噜一区二区三区小说| 国产免费嫩草影院| 欧美巨大另类极品videosbest | 亚洲激情av| 特级西西人体wwwww| 红桃av永久久久| 欧美一区二区视频| 国产精品久久久久久久天堂| 99久久www免费| 欧美国产亚洲一区| 久久这里只有精品首页| 国产美女www爽爽爽| 日韩有码在线电影| 亚洲1区在线观看| 国产原创中文在线观看 | 寂寞少妇一区二区三区| 极品颜值美女露脸啪啪| 亚洲国产欧美一区二区丝袜黑人| 色是在线视频| 亚洲精品一区二区毛豆| 国产在线观看一区二区| 亚洲欧美在线观看视频| 亚洲精品视频在线播放| 国产精品4hu.www| 国产乱子伦精品无码专区| 久久综合一区二区| 欧美丝袜丝交足nylons图片| 国产a级片网站| 成人激情午夜影院| 日本免费在线观看视频| www.欧美精品一二三区| 国产在线不卡一区二区三区| 99热久久这里只有精品| 久久久久久久久久电影| 国产又粗又长又黄| 性色av一区二区三区| 欧美日韩亚洲在线观看| 国产伦理在线观看| 一本久道中文字幕精品亚洲嫩| 国产激情小视频在线| 精品久久久久久中文字幕动漫 | 欧美肥老妇视频| 亚洲国产合集| 特种兵之深入敌后| 日本韩国欧美在线| 免费污视频在线观看| 亚洲欧洲国产日韩精品| 99久久夜色精品国产网站| 中文字幕在线播放av| 欧美中文字幕在线观看|