精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

小紅書搜索團隊提出全新框架:驗證負樣本對大模型蒸餾的價值

人工智能
該框架包括三個序列化步驟,包括負向協助訓練(NAT)、負向校準增強(NCE)和動態自洽性(ASC),涵蓋從訓練到推理的全階段過程。通過一系列廣泛的實驗,我們展示了負向數據在 LLM 知識蒸餾中的關鍵作用。

大語言模型(LLMs)在各種推理任務上表現優異,但其黑盒屬性和龐大參數量阻礙了它在實踐中的廣泛應用。特別是在處理復雜的數學問題時,LLMs 有時會產生錯誤的推理鏈。傳統研究方法僅從正樣本中遷移知識,而忽略了那些帶有錯誤答案的合成數據。

在 AAAI 2024 上,小紅書搜索算法團隊提出了一個創新框架,在蒸餾大模型推理能力的過程中充分利用負樣本知識。負樣本,即那些在推理過程中未能得出正確答案的數據,雖常被視為無用,實則蘊含著寶貴的信息。

論文提出并驗證了負樣本在大模型蒸餾過程中的價值,構建一個模型專業化框架:除了使用正樣本外,還充分利用負樣本來提煉 LLM 的知識。該框架包括三個序列化步驟,包括負向協助訓練(NAT)負向校準增強(NCE)動態自洽性(ASC),涵蓋從訓練到推理的全階段過程。通過一系列廣泛的實驗,我們展示了負向數據在 LLM 知識蒸餾中的關鍵作用。

一、背景

如今,在思維鏈(CoT)提示的幫助下,大語言模型(LLMs)展現出強大的推理能力。然而,思維鏈已被證明是千億級參數模型才具有的涌現能力。這些模型的繁重計算需求和高推理成本,阻礙了它們在資源受限場景中的應用。因此,我們研究的目標是使小模型能夠進行復雜的算術推理,以便在實際應用中進行大規模部署。

知識蒸餾提供了一種有效的方法,可以將 LLMs 的特定能力遷移到更小的模型中。這個過程也被稱為模型專業化(model specialization),它強制小模型專注于某些能力。先前的研究利用 LLMs 的上下文學習(ICL)來生成數學問題的推理路徑,將其作為訓練數據,有助于小模型獲得復雜推理能力。然而,這些研究只使用了生成的具有正確答案的推理路徑(即正樣本)作為訓練樣本,忽略了在錯誤答案(即負樣本)的推理步驟中有價值的知識。

如圖所示,表 1 展示了一個有趣的現象:分別在正、負樣本數據上訓練的模型,在 MATH 測試集上的準確答案重疊非常小。盡管負樣本訓練的模型準確性較低,但它能夠解決一些正樣本模型無法正確回答的問題,這證實了負樣本中包含著寶貴的知識。此外,負樣本中的錯誤鏈路能夠幫助模型避免犯類似錯誤。另一個我們應該利用負樣本的原因是 OpenAI 基于 token 的定價策略。即使是 GPT-4,在 MATH 數據集上的準確性也低于 50%,這意味著如果僅利用正樣本知識,大量的 token 會被浪費。因此,我們提出:相比于直接丟棄負樣本,更好的方式是從中提取和利用有價值的知識,以增強小模型的專業化。

模型專業化過程一般可以概括為三個步驟:

1)思維鏈蒸餾(Chain-of-Thought Distillation),使用 LLMs 生成的推理鏈訓練小模型。

2)自我增強(Self-Enhancement),進行自蒸餾或數據自擴充,以進一步優化模型。

3)自洽性(Self-Consistency)被廣泛用作一種有效的解碼策略,以提高推理任務中的模型性能。

在這項工作中,我們提出了一種新的模型專業化框架,該框架可以全方位利用負樣本,促進從 LLMs 提取復雜推理能力。

  • 我們首先設計了負向協助訓練(NAT)方法,其中 dual-LoRA 結構被設計用于從正向、負向兩方面獲取知識。作為一個輔助模塊,負向 LoRA 的知識可以通過校正注意力機制,動態地整合到正向 LoRA 的訓練過程中。
  • 對于自我增強,我們設計了負向校準增強(NCE),它將負向輸出作為基線,以加強關鍵正向推理鏈路的蒸餾。
  • 除了訓練階段,我們還在推理過程中利用負向信息。傳統的自洽性方法將相等或基于概率的權重分配給所有候選輸出,導致投票出一些不可靠的答案。為了緩解該問題,提出了動態自洽性(ASC)方法,在投票前進行排序,其中排序模型在正負樣本上進行訓練的。

二、方法

我們提出的框架以 LLaMA 為基礎模型,主要包含三個部分,如圖所示:

  • 步驟 1 :對負向 LoRA 進行訓練,通過合并單元幫助學習正樣本的推理知識;
  • 步驟 2 :利用負向 LoRA 作為基線來校準自我增強的過程;
  • 步驟 3 :在正樣本和負樣本上訓練排名模型,在推理過程中根據其得分,自適應地對候選推理鏈路進行加權。

圖片圖片

2.1 負向協助訓練(NAT)

我們提出了一個兩階段的負向協助訓練(NAT)范式,分為負向知識吸收動態集成單元兩部分:

2.1.1 負向知識吸收

2.1.2 動態集成單元

2.2  負向校準增強(NCE)

為了進一步增強模型的推理能力,我們提出了負校準增強(NCE),它使用負知識來幫助自我增強過程。我們首先使用 NAT 為中的每個問題生成對作為擴充樣本,并將它們補充到訓練數據集中。對于自蒸餾部分,我們注意到一些樣本可能包含更關鍵的推理步驟,對提升模型的推理能力至關重要。我們的主要目標是確定這些關鍵的推理步驟,并在自蒸餾過程中加強對它們的學習。

β 值越大,表示兩者之間的差異越大,意味著該樣本包含更多關鍵知識。通過引入 β 來調整不同樣本的損失權重,NCE 將能夠選擇性地學習并增強 NAT 中嵌入的知識。

2.3 動態自洽性(ASC)

自洽性(SC)對于進一步提高模型在復雜推理中的表現是有效的。然而,當前的方法要么為每個候選者分配相等的權重,要么簡單地基于生成概率分配權重。這些策略無法在投票階段根據 (r?, y?) 的質量調整候選權重,這可能會使正確候選項不易被選出。為此,我們提出了動態自洽性方法(ASC),它利用正負數據來訓練排序模型,可以自適應地重新配權候選推理鏈路。

2.3.1 排序模型訓練

理想情況下,我們希望排序模型為得出正確答案的推理鏈路分配更高的權重,反之亦然。因此,我們用以下方式構造訓練樣本:

圖片圖片

并使用 MSE loss 去訓練排序模型:

圖片圖片

2.3.2 加權策略

我們將投票策略修改為以下公式,以實現自適應地重新加權候選推理鏈路的目標:

圖片圖片

下圖展示了 ASC 策略的流程:

圖片圖片

從知識遷移的角度來看,ASC 實現了對來自 LLMs 的知識(正向和負向)的進一步利用,以幫助小模型獲得更好的性能。

三、實驗

本研究專注于具有挑戰性的數學推理數據集 MATH,該數據集共有 12500 個問題,涉及七個不同的科目。此外,我們還引入了以下四個數據集來評估所提出的框架對分布外(OOD)數據的泛化能力:GSM8K、ASDiv、MultiArith和SVAMP。

對于教師模型,我們使用 Open AI 的 gpt-3.5-turbo 和 gpt-4 API來生成推理鏈。對于學生模型,我們選擇 LLaMA-7b。

在我們的研究中有兩種主要類型的基線:一種為大語言模型(LLMs),另一種則基于 LLaMA-7b。對于 LLMs,我們將其與兩種流行的模型進行比較:GPT3 和 PaLM。對于 LLaMA-7b,我們首先提供我們的方法與三種設置進行比較:Few-shot、Fine-tune(在原始訓練樣本上)、CoT KD(思維鏈蒸餾)。在從負向角度學習方面,還將包括四種基線方法:MIX(直接用正向和負向數據的混合物訓練 LLaMA)、CL(對比學習)、NT(負訓練)和 UL(非似然損失)。

3.1 NAT 實驗結果

所有的方法都使用了貪婪搜索(即溫度 = 0),NAT 的實驗結果如圖所示,表明所提出的 NAT 方法在所有基線上都提高了任務準確性。

從 GPT3 和 PaLM 的低值可以看出,MATH 是一個非常困難的數學數據集,但 NAT 仍然能夠在參數極少的情況下表現突出。與在原始數據上進行微調相比,NAT 在兩種不同的 CoT 來源下實現了約 75.75% 的提升。與 CoT KD 在正樣本上的比較,NAT 也顯著提高了準確性,展示了負樣本的價值。

對于利用負向信息基線,MIX 的低性能表明直接訓練負樣本會使模型效果很差。其他方法也大多不如 NAT,這表明在復雜推理任務中僅在負方向上使用負樣本是不夠的。

圖片圖片

3.2 NCE 實驗結果

如圖所示,與知識蒸餾(KD)相比,NCE 實現了平均 10%(0.66) 的進步,這證明了利用負樣本提供的校準信息進行蒸餾的有效性。與 NAT 相比,盡管 NCE 減少了一些參數,但它依然有 6.5% 的進步,實現壓縮模型并提高性能的目的。

圖片圖片

3.3 ASC 實驗結果

為了評估 ASC,我們將其與基礎 SC 和 加權(WS)SC 進行比較,使用采樣溫度 T = 1 生成了 16 個樣本。如圖所示,結果表明,ASC 從不同樣本聚合答案,是一種更有前景的策略。

圖片圖片

3.4 泛化性實驗結果

除了 MATH 數據集,我們評估了框架在其他數學推理任務上的泛化能力,實驗結果如下。

圖片圖片

四、結語

本項工作探討了利用負樣本從大語言模型中提煉復雜推理能力,遷移到專業化小模型的有效性。小紅書搜索算法團隊提出了一個全新的框架,由三個序列化步驟組成,并在模型專業化的整個過程中充分利用負向信息。負向協助訓練(NAT)可以從兩個角度提供更全面地利用負向信息的方法。負向校準增強(NCE)能夠校準自蒸餾過程,使其更有針對性地掌握關鍵知識。基于兩種觀點訓練的排序模型可以為答案聚合分配更適當的權重,以實現動態自洽性(ASC)。大量實驗表明,我們的框架可以通過生成的負樣本來提高提煉推理能力的有效性。

論文地址:https://arxiv.org/abs/2312.12832

五、作者簡介

李易為:
現博士就讀于北京理工大學,小紅書社區搜索實習生,在 AAAI、ACL、EMNLP、NAACL、NeurIPS、KBS 等機器學習、自然語言處理領域頂級會議/期刊上發表數篇論文,主要研究方向為大語言模型蒸餾與推理、開放域對話生成等。

袁沛文:
現博士就讀于北京理工大學,小紅書社區搜索實習生,在 NeurIPS、AAAI 等發表多篇一作論文,曾獲 DSTC11 Track 4 第二名。主要研究方向為大語言模型推理與評測。

馮少雄:
負責小紅書社區搜索向量召回。在 AAAI、EMNLP、ACL、NAACL、KBS 等機器學習、自然語言處理領域頂級會議/期刊上發表數篇論文。

道玄(潘博遠):
小紅書交易搜索負責人。在NeurIPS、ICML、ACL 等機器學習和自然語言處理領域頂級會議上發表數篇一作論文,在斯坦福機器閱讀競賽 SQuAD 排行榜上獲得第二名,在斯坦福自然語言推理排行榜上獲得第一名。

曾書(曾書書):
小紅書社區搜索語義理解與召回方向負責人。碩士畢業于清華大學電子系,在互聯網領域先后從事自然語言處理、推薦、搜索等相關方向的算法工作。

責任編輯:龐桂玉 來源: 小紅書技術REDtech
相關推薦

2024-10-12 10:57:39

2023-07-27 13:58:19

2025-11-18 10:00:56

2025-08-01 09:03:16

2025-08-05 09:09:00

AI訓練模型

2025-08-20 07:49:28

2025-11-14 15:44:59

小紅書視頻時長EGMN

2025-08-13 09:00:00

AI模型訓練

2025-01-17 14:38:40

2024-08-23 09:20:00

AI語言模型

2025-11-04 08:46:00

2025-08-20 07:06:23

2025-04-22 08:08:37

2024-07-10 09:37:57

2024-10-10 08:19:50

2025-11-20 08:35:59

2025-10-23 09:02:12

2024-11-01 20:25:28

2025-06-25 09:53:59

2025-01-22 09:32:30

點贊
收藏

51CTO技術棧公眾號

久久免费视频观看| 91精品国产全国免费观看| 欧洲久久久久久| 91精品国产色综合久久不8| 国产精品99视频| 日韩美女在线视频| 狠狠干 狠狠操| 二区三区在线| 狠狠色丁香婷婷综合| 性色av一区二区三区在线观看| 亚洲视频电影| 一本久道久久综合无码中文| 黑丝一区二区三区| 国产亚洲欧美日韩美女| 真实乱偷全部视频| 亚洲成人看片| 一区二区成人在线观看| 欧美最大成人综合网| 国产哺乳奶水91在线播放| 亚洲影院免费| 欧美激情精品久久久久久免费印度 | 91这里只有精品| 成人美女视频在线观看| 国产精品偷伦免费视频观看的| 丝袜 亚洲 另类 欧美 重口| 久久99国产成人小视频| 日韩精品一区二区三区老鸭窝| 日韩手机在线观看视频| 波多野结衣乳巨码无在线观看| 国产精品视频在线看| 成人三级视频在线观看一区二区| 在线免费a视频| 国产亚洲在线观看| 欧美国产日韩视频| 紧身裙女教师波多野结衣| 国产欧美一区二区精品久久久| 精品国产制服丝袜高跟| 在线观看av免费观看| 日本美女久久| 欧美自拍丝袜亚洲| 男人透女人免费视频| 久操视频在线播放| 中文字幕不卡一区| 欧美日韩免费精品| 日韩一级片免费在线观看| 国产一区二区伦理片| 国产日韩换脸av一区在线观看| 麻豆成人免费视频| 国产精品外国| 91精品国产乱码久久久久久蜜臀| 久久久久亚洲av成人片| 综合激情婷婷| 欧美精品在线网站| 午夜国产福利一区二区| 五月久久久综合一区二区小说| 中日韩美女免费视频网站在线观看| 日韩人妻一区二区三区| 三级小说欧洲区亚洲区| 精品亚洲精品福利线在观看| 一本色道综合久久欧美日韩精品| 欧美美女黄色| 日韩av在线高清| 国产中文字幕一区二区| 羞羞答答一区二区| 亚洲人成在线一二| 51妺嘿嘿午夜福利| 日本激情一区| 日韩中文字幕在线视频| 国产午夜手机精彩视频| 欧美一区不卡| 久久久久久久久久av| 国产午夜福利片| 一区二区三区国产在线| 欧美在线www| 波多野结衣毛片| 麻豆国产一区二区| 亚洲一区二区久久久久久| 亚洲成人av综合| 91在线视频免费观看| 免费日韩av电影| 91短视频版在线观看www免费| 国产欧美综合在线| 天堂v在线视频| 成人在线免费看黄| 午夜私人影院久久久久| 国产亚洲综合视频| 国产a亚洲精品| 日韩精品自拍偷拍| 中文字幕在线免费看线人| 九色精品国产蝌蚪| 日韩亚洲在线观看| 九九热只有精品| 国产精品资源| 成人国产精品久久久久久亚洲| 国产视频一区二区三| www.66久久| 日韩不卡av| av免费在线免费观看| 欧美性xxxx在线播放| 四季av一区二区三区| 91麻豆精品激情在线观看最新| 亚洲精品日韩久久久| 自拍偷拍第9页| 尤物网精品视频| 国产精品直播网红| 天堂av资源在线| 国产精品久久一卡二卡| 男女啪啪免费视频网站| 国产黄色精品| 日韩电影中文字幕在线| 欧美丰满熟妇bbbbbb| 六月丁香综合| 99精品国产高清在线观看| 国产午夜在线观看| 亚洲国产欧美日韩另类综合| 91精品无人成人www| 好吊妞国产欧美日韩免费观看网站 | 亚洲视频狠狠干| 国内外成人免费激情视频| 精品国产伦一区二区三区观看说明 | 一区二区三区免费在线观看| 欧美两根一起进3p做受视频| 9l视频自拍蝌蚪9l视频成人| 最近中文字幕日韩精品| 精品国产一区二区三区四| 国产精品18久久久久久久久| 日韩福利视频| 欧美日韩国产观看视频| 日韩亚洲国产中文字幕欧美| 在线观看亚洲大片短视频| 国产精品老牛| 国产午夜精品一区| 在线不卡日本v二区707| 欧美一区二区在线免费播放| 91成人精品一区二区| 久久国产精品亚洲77777| 国产一区二区精品在线| 四虎av在线| 91精品国产麻豆国产自产在线| 国产毛片欧美毛片久久久| 毛片一区二区| 久久久久久久久一区| 99在线视频影院| 欧美va亚洲va| 老妇女50岁三级| 国产一区亚洲一区| 福利网在线观看| 日日夜夜亚洲| 日韩中文字幕精品| 影音先锋国产资源| 中文子幕无线码一区tr| 丝袜制服一区二区三区| 精品国内自产拍在线观看视频| 日本精品va在线观看| 欧美高清成人| 在线观看日韩高清av| xxxx日本免费| 久久午夜电影| 日韩免费一区二区三区| av在线不卡精品| 在线激情影院一区| 一区二区三区精| 亚洲视频你懂的| 无码人妻一区二区三区在线视频| 中文字幕一区二区三区久久网站 | 日韩欧美不卡在线| 欧美黑白配在线| 51久久精品夜色国产麻豆| 欧美新色视频| 欧美在线观看一二区| 特级西西人体高清大胆| 久久99国产精品免费| 乱子伦一区二区| 97精品久久| 欧美亚洲国产日本| 激情福利在线| 欧美狂野另类xxxxoooo| www.超碰在线观看| www.欧美.com| 亚洲综合在线网站| 欧美电影免费观看高清| 97在线中文字幕| 国产精选在线| 中日韩午夜理伦电影免费 | 欧美大片顶级少妇| 天堂中文在线网| 中文欧美字幕免费| 男人添女人荫蒂国产| 午夜亚洲性色视频| 一区二区三区欧美成人| av成人资源| 国产成人亚洲综合91| 黄色免费网站在线观看| 亚洲精品videossex少妇| 黄色免费av网站| |精品福利一区二区三区| 丰满少妇xbxb毛片日本| 日韩影院免费视频| 中文精品无码中文字幕无码专区| 欧美日韩高清| 国产经典一区二区三区| 国产综合色在线观看| 午夜精品视频在线| 麻豆视频在线| 亚洲精品视频播放| av中文字幕在线免费观看| 色综合久久久久综合体| 国产一区二区播放| 国产片一区二区三区| 老司机午夜免费福利| 久久97超碰国产精品超碰| 精品视频在线观看一区| 婷婷另类小说| 品久久久久久久久久96高清| 97色成人综合网站| 国产欧美日韩精品在线观看| 午夜影视一区二区三区| 九色91av视频| 免费av在线| 亚洲无线码在线一区观看| 人妻一区二区三区四区| 91精品国产全国免费观看| 在线观看av大片| 色av一区二区| 看片网址国产福利av中文字幕| 亚洲三级在线播放| 中文字幕第二区| 久久色中文字幕| 欧美日韩一区二区区| 精品一区二区三区视频| 国产三级三级三级看三级| 一区二区三区成人精品| 91黄色在线看| 亚洲小说欧美另类社区| 好色先生视频污| 国产精品二区不卡| 亚洲人久久久| 成人影视亚洲图片在线| 人偷久久久久久久偷女厕| 日韩动漫一区| 国产一区在线免费观看| 一区二区三区免费在线看| 97国产超碰| 欧美影院精品| 97碰碰视频| 综合激情网...| wwwxx欧美| 欧美久久亚洲| 99porn视频在线| 精品午夜视频| y111111国产精品久久婷婷| 亚洲一区 二区| av在线亚洲男人的天堂| av自拍一区| 久久久水蜜桃| 国产亚洲一卡2卡3卡4卡新区 | 国产精品毛片一区二区在线看| 亚洲精品视频一二三| 久久一区二区三区电影| 男女激烈动态图| 欧美日韩国产高清| 日韩五码在线观看| 亚洲免费网站| 天天干在线影院| 久久精品国产秦先生| www.五月天色| 国产91精品精华液一区二区三区| 国产污在线观看| 91年精品国产| 国产精品无码无卡无需播放器| 国产精品久久久久影院亚瑟| 91香蕉一区二区三区在线观看| 亚洲精品国产a久久久久久| 久久国产在线观看| 精品成人国产在线观看男人呻吟| 草久视频在线观看| 欧美午夜一区二区三区| 国产片高清在线观看| 欧美mv日韩mv国产网站| 无码精品视频一区二区三区| 国产亚洲视频在线| www免费视频观看在线| 久久久久久久久久久网站| 欧美日韩免费看片| 成人在线播放av| 九色丨蝌蚪丨成人| 亚州欧美一区三区三区在线 | 亚洲黄网在线观看| 欧美日本一道本| 理论片中文字幕| 国产一区av在线| 亚洲淫性视频| 日韩av免费在线播放| 99视频这里有精品| 狠狠干一区二区| 天天综合网网欲色| 久久久久久久中文| 激情综合色综合久久综合| 欧美一级片黄色| 国产精品免费视频网站| 日本少妇吞精囗交| 欧美日韩视频不卡| 无码精品一区二区三区在线 | 极品色av影院| 欧美天堂在线观看| 国产成人三级在线播放| 亚洲社区在线观看| 久草在线新免费首页资源站| 国产精品久久77777| 国产精品99久久免费观看| 亚洲一区三区| 美女日韩在线中文字幕| 亚洲精品乱码久久久久久9色| 中文字幕欧美国产| 青青国产在线观看| 精品久久免费看| 老司机av在线免费看| 日本在线观看天堂男亚洲| 中文字幕视频精品一区二区三区| 日韩精品一区二区三区外面| 99国产精品99久久久久久粉嫩| 182午夜视频| 国产欧美在线观看一区| 精品人妻一区二区三区免费看| 精品1区2区在线观看| 精品视频在线一区二区| 国产精品免费久久久| 小嫩嫩12欧美| 国产视频九色蝌蚪| 波多野结衣中文一区| 青青青在线免费观看| 欧美日韩国产一级二级| 黄色在线小视频| 热re99久久精品国产66热| 精品人人人人| 日本中文字幕在线视频观看| 国产精品91一区二区| 日本一级片免费| 欧美日韩精品福利| 99青草视频在线播放视| 日韩美女在线观看| 奇米777国产一区国产二区| 亚洲色成人www永久在线观看| 国产精品乡下勾搭老头1| 少妇aaaaa| 欧美一区二区三区色| 天堂va在线| 国产高清精品一区二区| 悠悠资源网久久精品| 在线免费观看污视频| 欧美色图在线视频| 日本在线丨区| 国产精品99久久久久久久久久久久 | 成人在线看片| 国户精品久久久久久久久久久不卡| 波多野吉衣在线视频| 亚洲国产一区在线观看| 秋霞网一区二区| 91精品国产高清自在线看超| 亚洲精品456| 亚洲黄色av网址| 国产精品国产三级国产普通话蜜臀 | 欧美亚洲一区二区在线| 草草影院在线观看| 国产在线a不卡| 欧美二区不卡| 88av在线播放| 日韩欧美国产网站| 超碰97在线免费观看| 91视频免费进入| 亚洲伊人观看| 毛片视频免费播放| 欧美一卡二卡三卡四卡| 91黄页在线观看| 欧洲精品在线一区| 国产一区二区三区免费播放| 国产在线观看免费视频今夜| 亚洲精品一区二区三区婷婷月| 成人在线网站| 老汉色影院首页| 26uuu亚洲综合色| 亚洲综合精品国产一区二区三区 | 欧美成人三级在线观看| 亚洲国产精品专区久久| 久久精品超碰| 国产九色porny| 国产色综合久久| 国产日韩欧美一区二区东京热| 97热精品视频官网| 日韩黄色大片| 亚洲午夜久久久久久久久| 欧美亚洲一区二区三区四区| 欧美v亚洲v| 四虎永久国产精品| 国产成人精品aa毛片| 久久久久亚洲视频| 欧美华人在线视频| 日本一区二区免费高清| 成年人的黄色片| 欧美日韩精品欧美日韩精品一综合|