精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Hugging Face 推出 GOLD:讓不同模型家族也能做知識(shí)蒸餾

發(fā)布于 2025-11-3 07:24
瀏覽
0收藏

在最近Thinking Machines的新文章(見(jiàn)文末)里指出一種很有用的模型壓縮技術(shù)——在線策略蒸餾(On-Policy Distillation),它通過(guò)從高性能“教師”模型的概率分布中轉(zhuǎn)移知識(shí)來(lái)訓(xùn)練一個(gè)小的“學(xué)生”模型。這使得學(xué)生能夠模仿教師的任務(wù)性能,同時(shí)顯著減少大小和延遲。它讓小模型在特定領(lǐng)域達(dá)到大模型的表現(xiàn),成本卻只有傳統(tǒng)方法的十分之一。

Hugging Face 推出 GOLD:讓不同模型家族也能做知識(shí)蒸餾-AI.x社區(qū)

但這里有一個(gè)知識(shí)蒸餾一直存在的痛點(diǎn):老師和學(xué)生必須用同一套分詞器。這意味著你不能讓 Llama 向 Qwen 學(xué)習(xí),也不能讓 Gemma 向其他模型取經(jīng)。這就好比一個(gè)說(shuō)中文的老師,只能教懂中文的學(xué)生。

Hugging Face 的研究團(tuán)隊(duì)剛剛解決了這個(gè)問(wèn)題。他們提出的 GOLD(General On-Policy Logit Distillation)方法,讓任意兩個(gè)模型之間(即使它們來(lái)自完全不同的模型家族)都能進(jìn)行在線知識(shí)蒸餾,不管它們用的是什么分詞器。

技術(shù)核心

出現(xiàn)這一問(wèn)題的根源在于不對(duì)齊,比如:同一句話"Hugging Face is awesome!",在不同分詞器下會(huì)變成完全不同的 token 序列:

Hugging Face 推出 GOLD:讓不同模型家族也能做知識(shí)蒸餾-AI.x社區(qū)

Tokenizer A:[3, 1, 2] Tokenizer B:[2, 3, 1, 0] 這種不匹配造成兩個(gè)核心問(wèn)題:序列長(zhǎng)度不同,token ID 也不對(duì)應(yīng)。之前的方法,如ULD(Universal Logit Distillation)只能簡(jiǎn)單截?cái)嗟阶疃涕L(zhǎng)度,丟失信息還容易錯(cuò)位。

Hugging Face 推出 GOLD:讓不同模型家族也能做知識(shí)蒸餾-AI.x社區(qū)

GOLD 通過(guò)三步解決跨分詞器蒸餾:

  1. 增量解碼:同時(shí)解碼教師和學(xué)生模型的 token,獲取各自的概率分布
  2. 文本對(duì)齊:將相同可見(jiàn)文本的片段分組,識(shí)別需要合并的 token 位置
  3. 概率合并:在每組內(nèi)合并相關(guān)概率,通過(guò)對(duì)數(shù)概率求和保持語(yǔ)義完整性

Hugging Face 推出 GOLD:讓不同模型家族也能做知識(shí)蒸餾-AI.x社區(qū)

具體來(lái)說(shuō):

  • 序列對(duì)齊:不再簡(jiǎn)單截?cái)嗟阶疃涕L(zhǎng)度,而是識(shí)別需要合并的 token,通過(guò)對(duì)數(shù)概率求和來(lái)合并語(yǔ)義相關(guān)的片段。這樣"Hugging"和" Face"可以合并成一個(gè)完整的概念。
  • 詞匯對(duì)齊:先找出兩個(gè)分詞器中相同的 token(即使 ID 不同),對(duì)這些 token 使用直接映射;對(duì)無(wú)法匹配的部分,才回退到 ULD 的排序方法。最終損失函數(shù)結(jié)合兩部分:L_GOLD = w1 * L_GKD + w2 * L_ULD

Hugging Face 推出 GOLD:讓不同模型家族也能做知識(shí)蒸餾-AI.x社區(qū)

這樣即使 token 邊界不同,也能保證在完整輸出上計(jì)算損失函數(shù)。

實(shí)驗(yàn)效果

數(shù)學(xué)任務(wù)跨家族蒸餾:用 Qwen 教師模型指導(dǎo) LLaMA 學(xué)生模型,在數(shù)學(xué)任務(wù)上表現(xiàn)良好,甚至超過(guò)了 GRPO 方法。

Hugging Face 推出 GOLD:讓不同模型家族也能做知識(shí)蒸餾-AI.x社區(qū)

個(gè)性化(領(lǐng)域)蒸餾:先用 SFT 提升模型的代碼能力,然后用蒸餾恢復(fù) IFEval 分?jǐn)?shù)。這驗(yàn)證了前面提到的"專業(yè)能力與通用能力平衡"問(wèn)題的解決方案。

Hugging Face 推出 GOLD:讓不同模型家族也能做知識(shí)蒸餾-AI.x社區(qū)

同時(shí)需要指出的是,分詞器相似度確實(shí)影響效果,但仍然強(qiáng)于強(qiáng)化學(xué)習(xí)。Llama-3.2-1B 與 Qwen3-4B 的相似度 0.64,最終成績(jī) 0.42;Gemma-3-1b 相似度只有 0.063,表現(xiàn)相應(yīng)較差。

Hugging Face 推出 GOLD:讓不同模型家族也能做知識(shí)蒸餾-AI.x社區(qū)

使用方法

GOLD 已經(jīng)集成到 TRL 庫(kù)中,使用相當(dāng)簡(jiǎn)單:

from trl.experimental.gold import GOLDConfig, GOLDTrainer

trainer = GOLDTrainer(
    model="meta-llama/Llama-3.2-1B-Instruct",
    teacher_model="Qwen/Qwen2.5-0.5B-Instruct",
    args=GOLDConfig(
        output_dir="gold-model", 
        use_uld_loss=True, 
        teacher_tokenizer_name_or_path="Qwen/Qwen2.5-0.5B-Instruct"
    ),
    train_dataset=train_dataset,
)
trainer.train()

更多:https://huggingface.co/docs/trl/main/en/gold_trainer

想要在自己的場(chǎng)景嘗試在線策略知識(shí)蒸餾,官方給出了如下是利用A??ccelerate訓(xùn)練的????(Accelerate是什么?可以閱讀此書(shū):)??配置用例:

  • SFT配置:

accelerate launch \
  --config_file examples/accelerate_configs/multi_gpu.yaml trl/scripts/sft.py \
  --model_name_or_path Qwen/Qwen3-4B-Instruct-2507 \
  --dtype auto \
  --attn_implementation kernels-community/flash-attn \
  --dataset_name open-r1/codeforces-cots \
  --dataset_config solutions_decontaminated \
  --bf16 \
  --gradient_checkpointing \
  --per_device_train_batch_size 1 \
  --gradient_accumulation_steps 32 \
  --learning_rate 1e-5 \
  --num_train_epochs 1 \
  --max_length 16384 \
  --logging_steps 1 \
  --report_to trackio \
  --trackio_project Qwen3-4B-SFT-Codeforces \
  --output_dir data/Qwen3-4B-SFT-Codeforces \
  --push_to_hub \
  --hub_model_id <your-username>/Qwen3-4B-SFT-Codeforces \
  --seed 42 \
  --warmup_ratio 0.05 \
  --lr_scheduler_type cosine_with_min_lr \
  --use_liger_kernel
  • 蒸餾配置:

accelerate launch \
  --config_file examples/accelerate_configs/multi_gpu.yaml trl/experimental/gold/gold.py \
  --model_name_or_path <sft-model> \
  --dtype auto \
  --attn_implementation kernels-community/flash-attn \
  --dataset_name allenai/tulu-3-sft-mixture \
  --dataset_train_split train \
  --bf16 \
  --learning_rate 1e-7 \
  --gradient_checkpointing \
  --per_device_train_batch_size 1 \
  --gradient_accumulation_steps 64 \
  --num_train_epochs 1 \
  --eval_strategy steps \
  --eval_steps 100 \
  --temperature 1.0 \
  --top_p 0.95 \
  --top_k 0 \
  --max_new_tokens 2048 \
  --max_prompt_length 512 \
  --lmbda 0.25 \
  --beta 0.0 \
  --use_uld_loss \
  --use_extended_uld \
  --uld_use_hybrid_loss \
  --uld_crossentropy_weight 0.0 \
  --uld_distillation_weight 1.0 \
  --uld_student_temperature 1.0 \
  --uld_teacher_temperature 1.0 \
  --uld_hybrid_unmatched_weight 1.0 \
  --uld_hybrid_matched_weight 1.0 \
  --teacher_model_name_or_path Qwen/Qwen3-4B-Instruct-2507 \
  --logging_steps 1 \
  --push_to_hub \
  --hub_model_id <your-username>/Qwen3-4B-GKD-Tulu \
  --report_to trackio \
  --trackio_project Qwen3-4B-GKD-Tulu \
  --seed 42 \
  --warmup_ratio 0.05 \
  --lr_scheduler_type cosine_with_min_lr

小結(jié)

這一突破非常有實(shí)用價(jià)值。以前你只能在同一家族內(nèi)做知識(shí)蒸餾,現(xiàn)在可以跨家族進(jìn)行。在線策略蒸餾對(duì)于需要在資源受限環(huán)境下部署高性能模型的場(chǎng)景特別有用,可以用最好的模型作為教師,采各家所長(zhǎng),訓(xùn)練出適合自己場(chǎng)景的模型。

On-Policy Distillation:https://thinkingmachines.ai/blog/on-policy-distillation/

本文轉(zhuǎn)載自??AI工程化??,作者:ully

已于2025-11-3 07:24:13修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
国产精品美女久久久久久不卡| 国产高清在线a视频大全| 久久一本综合频道| 原创国产精品91| 无码人妻一区二区三区在线视频| 欧美videosex性欧美黑吊| 91麻豆swag| 91九色蝌蚪国产| 在线观看黄网站| 欧美残忍xxxx极端| 精品99一区二区| 9l视频白拍9色9l视频| 黄页在线观看免费| 国产精品传媒视频| 久久99精品久久久久子伦| 夜夜躁狠狠躁日日躁av| 精品电影一区| 超碰91人人草人人干| www.色多多| 欧美经典影片视频网站| 色哟哟亚洲精品| www.18av.com| 日本免费在线观看| 久久久久久久一区| 成人蜜桃视频| 国产精品免费无遮挡| 免费国产自线拍一欧美视频| 久久99热精品| 一区二区三区在线播放视频| 日韩高清影视在线观看| 欧美一级久久久久久久大片| 国产精品无码av无码| heyzo高清国产精品| 亚洲色图视频免费播放| 色噜噜狠狠一区二区三区| 秋霞av鲁丝片一区二区| 国产精品影视网| 国产一区二区在线播放| 无码人妻一区二区三区免费| 一本久道久久综合狠狠爱| 色综合久久久888| 日本精品在线免费观看| 日韩情爱电影在线观看| 亚洲午夜国产成人av电影男同| 精品无码在线视频| 欧美日韩一本| 日韩电影网在线| 亚州av综合色区无码一区| 亚洲一二av| 精品国产亚洲一区二区三区在线观看| 色婷婷一区二区三区在线观看| 欧美97人人模人人爽人人喊视频| 91久久精品国产91性色tv| 欧美网站免费观看| 性感女国产在线| 精品久久久久久久久久久久久| 91免费黄视频| 国产激情在线播放| 亚洲1区2区3区4区| 国产视频九色蝌蚪| 在线最新版中文在线| 色综合中文综合网| 一级黄色香蕉视频| 未满十八勿进黄网站一区不卡| 欧美午夜电影在线播放| 蜜臀一区二区三区精品免费视频 | 国产精品啪视频| 中文字幕视频二区| 狠狠色伊人亚洲综合成人| 91亚洲精品在线观看| www.日日夜夜| 成人18视频在线播放| 久久另类ts人妖一区二区| 深夜福利在线视频| 中文字幕免费不卡| 超碰免费在线公开| sm在线观看| 色婷婷av一区二区三区gif| 九九九在线观看视频| 亚洲91在线| 欧美va亚洲va香蕉在线| 三级电影在线看| 日韩欧美不卡| 不卡av电影在线观看| 天堂网av手机版| 麻豆一区二区99久久久久| 成人字幕网zmw| 亚洲色图欧美视频| 国产精品素人视频| 热99这里只有精品| 91大神在线观看线路一区| 欧美一区三区四区| 91精品国产自产| 久久人人99| 午夜精品久久久久久久99黑人 | 欧美精品一二三四| 日本一区二区在线免费观看| 日韩高清欧美| 97在线视频免费观看| 中文字幕第99页| 懂色av一区二区夜夜嗨| 日韩三级电影免费观看| 日本资源在线| 欧美猛男gaygay网站| 亚洲欧美高清在线| 久久精品影视| 国产成一区二区| 日韩中文字幕影院| 亚洲欧洲三级电影| 日韩免费毛片视频| 国产精品九九九九九| 欧美大片网站| 日韩精品视频观看| 亚洲av无码一区二区三区在线| 国产精品色网| 成人自拍偷拍| 77导航福利在线| 欧美性猛交xxxxx水多| av在线免费看片| 国产欧美日韩精品一区二区免费 | 亚洲国产精品视频在线观看| 成人无码精品1区2区3区免费看| 亚洲人人精品| 91超碰rencao97精品| aⅴ在线视频男人的天堂| 欧美日韩一区二区免费在线观看| av在线网站免费观看| 日韩精品不卡一区二区| 欧美亚洲日本黄色| 无码精品一区二区三区在线| 亚洲蜜臀av乱码久久精品| 无需播放器的av| 深爱激情综合| 青青草原一区二区| 亚洲av成人无码久久精品老人 | 国产乱人伦精品一区二区三区| 国产精品久久久久久吹潮| 亚洲美女在线观看| 青青青国产在线| 国产成人在线看| 熟妇熟女乱妇乱女网站| 96视频在线观看欧美| 日韩在线免费高清视频| 亚洲综合免费视频| 亚洲日本在线看| 91亚洲一区二区| 欧美一区亚洲| 国产传媒一区二区三区| 日本动漫理论片在线观看网站| 日韩亚洲欧美在线观看| 中文字幕影音先锋| 成人精品小蝌蚪| 日韩亚洲欧美视频| 偷窥自拍亚洲色图精选| 日本aⅴ大伊香蕉精品视频| 日韩欧美在线番号| 在线视频一区二区三区| 国产探花视频在线| 韩国视频一区二区| 青青草综合在线| 欧美深夜视频| 国产成人精品网站| 麻豆av在线免费看| 日韩精品中午字幕| 日韩三级视频在线播放| 久久久午夜精品| 精品日韩久久久| 欧美hd在线| 欧美一级高清免费| 狠狠狠综合7777久夜色撩人 | 亚洲一区 中文字幕| 欧美国产一区视频在线观看| 91热这里只有精品| 久久密一区二区三区| 国产美女久久久| 麻豆视频免费在线观看| 日韩欧美另类在线| 日韩久久精品视频| 91蜜桃传媒精品久久久一区二区| 在线免费观看视频黄| 青青草原综合久久大伊人精品 | 中文字幕国产在线观看| 99九九99九九九视频精品| aa在线免费观看| 国产一区二区亚洲| 97人人模人人爽人人喊38tv| 天天干在线视频论坛| 亚洲成人亚洲激情| 91精品国产综合久久久蜜臀九色| 久久久久久久久97黄色工厂| 在线观看日本一区二区| 欧美国内亚洲| 极品校花啪啪激情久久| 欧美无毛视频| 最近2019年日本中文免费字幕| 不卡av中文字幕| 精品日韩视频在线观看| 一级特黄曰皮片视频| 狠狠色丁香久久婷婷综合_中| 一区二区三区四区欧美日韩| jizz国产精品| 国产精品成人av在线| 久热国产在线| 日韩久久免费电影| 国产精品视频一区二区三区,| 亚洲视频网在线直播| 亚洲午夜福利在线观看| 国模少妇一区二区三区| 福利视频一二区| 色天天久久综合婷婷女18| 精品国产一二| 亚洲精品毛片| 97超级碰碰人国产在线观看| 91精品大全| 欧美刺激午夜性久久久久久久| 中文字幕精品一区二| 亚洲影院理伦片| 国产精成人品免费观看| 大美女一区二区三区| 日本高清免费观看| 久久精品中文| 精品国偷自产一区二区三区| 日韩国产在线| 亚洲福利av| 亚洲一区二区三区在线免费| 国产精品极品美女粉嫩高清在线| 免费毛片在线看片免费丝瓜视频| 亚洲免费一在线| 性做久久久久久久久久| 色综合av在线| 香蕉影院在线观看| 亚洲成人av免费| 粉嫩av性色av蜜臀av网站| 成人激情免费电影网址| 又大又长粗又爽又黄少妇视频| 免费欧美日韩国产三级电影| 欧美日韩在线一| 午夜欧美精品| 国产911在线观看| 97久久视频| 婷婷久久青草热一区二区 | 久久婷婷av| 久久久久免费看黄a片app| 国产精品v日韩精品v欧美精品网站| 午夜欧美性电影| 中文字幕伦av一区二区邻居| 国产伦精品一区二区| 亚洲aⅴ网站| 亚洲va欧美va国产综合久久| 六九午夜精品视频| 国产精品久久久精品| 日韩大片欧美大片| 久久久久久久久久久久久久久久久久av| 性欧美ⅴideo另类hd| 欧美精品在线免费观看| 黄色一级片在线观看| 亚洲欧洲一区二区三区在线观看| 黄色毛片在线看| 国产一区二区av| 1024国产在线| 亚洲免费视频一区二区| 99re在线视频| 视频一区视频二区国产精品| 在线观看免费黄色| 欧美高跟鞋交xxxxhd| 先锋成人av| 亚洲91精品在线| 亚洲插插视频| 国产免费一区视频观看免费| 欧美爱爱视频| 91精品视频在线| 日韩毛片网站| 国产精品福利视频| 全国精品免费看| 欧美另类网站| 精品久久精品| 一区二区不卡在线观看| 天天天综合网| 国产片侵犯亲女视频播放| 亚洲一区日韩在线| 一道本视频在线观看| 久久er99热精品一区二区| 国产精品人人爽人人爽| 国产精品亚洲第一 | 91视频免费播放| 亚洲中文字幕无码av| 国产精品视频一二三| www.av免费| 午夜精品国产更新| 天天干天天操天天操| 欧美喷潮久久久xxxxx| 亚洲AV无码一区二区三区性| 亚洲精品久久久久中文字幕二区| 欧美性天天影视| 久久久久久久久久久国产| 成人动漫一区| 国产精品美女999| 精品久久对白| 亚洲午夜精品久久| 一区在线观看| 中文字幕第22页| 94色蜜桃网一区二区三区| 人妻熟人中文字幕一区二区| 国产精品入口麻豆九色| 五月婷婷中文字幕| 欧美一级电影网站| 日本一二三区在线视频| 欧美极品少妇xxxxx| 欧美精品资源| 国产v亚洲v天堂无码| 青青草综合网| 午夜视频你懂的| www.亚洲精品| 中国毛片直接看| 欧美日韩一级二级三级| 欧美综合视频在线| 久久精品视频99| 中国色在线日|韩| 亚洲最大成人网色| japanese国产精品| 日韩亚洲欧美一区二区| 久久爱www久久做| mm131美女视频| 亚洲综合色成人| 国产乱人乱偷精品视频| 国产午夜精品一区理论片飘花| 精品日韩av| 97人人模人人爽人人少妇| 日韩av在线播放网址| 国模吧无码一区二区三区| 久久99精品一区二区三区三区| 亚洲v国产v欧美v久久久久久| 亚洲成人免费视| jlzzjlzzjlzz亚洲人| 久久久国产一区| 国产亚洲人成a在线v网站| 欧美精品成人一区二区在线观看 | 亚洲伊人伊成久久人综合网| 久久精品99| 在线高清一区| 亚洲色图14p| 亚洲mv在线观看| 亚洲国产精品视频在线| 欧美激情xxxx| 日韩一区二区三区精品| 黄色a级在线观看| 国产成人免费在线| 91在线播放观看| 欧美一区二区网站| 中文字幕在线视频区| 国产精品福利在线观看网址| 神马香蕉久久| 国产一区二区视频播放| 久久久噜噜噜久久人人看| 久久国产精品免费看| 亚洲精品久久久久中文字幕二区| 原纱央莉成人av片| 欧美极品色图| 日韩黄色一级片| 三级黄色在线观看| 欧美精品久久久久久久久老牛影院| se在线电影| 91一区二区三区| 亚洲无线视频| 精品1卡二卡三卡四卡老狼| 都市激情亚洲色图| 欧美成人片在线| 国产精品美女av| 国产精品a级| 娇妻高潮浓精白浆xxⅹ| 五月激情丁香一区二区三区| 黄色国产在线| 国产一区二区色| 欧美色综合网| 懂色av粉嫩av蜜乳av| 色诱视频网站一区| 电影av一区| 99国产超薄肉色丝袜交足的后果| 午夜国产欧美理论在线播放| 95视频在线观看| 欧美无人高清视频在线观看| 老司机在线看片网av| 99re国产视频| 三级久久三级久久久| 极品美妇后花庭翘臀娇吟小说| 制服丝袜日韩国产| 无遮挡在线观看| 天天爽天天狠久久久| 国产在线精品一区二区三区不卡 | 欧美日韩中文字幕一区二区三区| 性鲍视频在线观看| 欧美日韩性视频| 国产一二三区在线视频| 亚洲自拍另类欧美丝袜| 一本色道久久综合亚洲精品不| av无码av天天av天天爽| 91精品国产综合久久久蜜臀粉嫩 | 精品视频高潮| 日韩av片网站| 亚洲精品国产品国语在线app|