精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Kimi發布最新模型k1.5,技術報告也干貨滿滿

發布于 2025-1-22 13:33
瀏覽
0收藏

大家好,我是劉聰NLP。

就在今晚,Kimi發布了最新模型k1.5,先來看榜單效果,簡直爆炸

在長推理上,k1.5在數學能力上,無論是純文本還是視覺多模態上,都遠超openai的o1模型;在codeforces與其持平,LiveCode上略差,但相比于QVQ和QWQ有較大的優勢。

Kimi發布最新模型k1.5,技術報告也干貨滿滿-AI.x社區

在短推理上,k1.5的數學能力真實遙遙領先,無論是gpt-4o還是claude3.5-sonnet都遠不如k1.5,尤其是在AIME榜單上,k1.5有60.8,而最高的deepseek-v3只有39.2,堪稱斷層式碾壓。這個應該得益于他們的Long2short RL技術(后面介紹);并且k1.5在其他場景中大多都跟頂尖的開源和閉源模型打成平手。有一說一,這次kimi的新模型有點東西的哈。

Kimi發布最新模型k1.5,技術報告也干貨滿滿-AI.x社區

最重要的是kimi發了技術報告《Kimi k1.5: Scaling Reinforcement Learning with Large Language Models》,看了一下,25頁,干貨滿滿,他家針對強化學習,真的是做了好多工作,無論是data、strategy、還是Infra。

Paper link: https://github.com/MoonshotAI/Kimi-k1.5/blob/main/Kimi_k1.5.pdf

先簡單看了一下,讓我印象最深刻的就是RL數據收集部分、Long2short 部分、以及Infra 的Hybrid Deployment Framework部分。

Long2short部分,這個應該k1.5模型可以在短推理上取得超優效果的核心。自從o1出來之后,我們都知道,增加test time可以提高模型的推理效果,大大提高模型智能,這也是為什么o1出來后,又帶起一波LLM新浪潮的原因。

long-cot雖然優秀,但在推理階段需要消耗大量的token預算,以及時間,那么是不是可以將long-cot模型的推理先驗知識轉移到short-cot模型中呢?k1.5嘗試了多種方法:

  • 模型合并:之前都是通過模型合并來提高模型的泛化性,k1.5發現long-cot模型和short-cot模型也可以合并,從而提高輸出效率,中和輸出內容,并且無需訓練。
  • 最短拒絕采樣:對于模型輸出結果進行n次采樣(實驗中n=8),選擇最短的正確結果進行模型微調。
  • DPO:與最短拒絕采樣類似,利用long-cot模型生成多個輸出結果,將最短的正確輸出作為正樣本,而較長的響應(包括:錯誤的長輸出、比所選正樣本長 1.5 倍的正確長輸出)作為負樣本,通過構造的正負樣本進行DPO偏好學習。
  • Long2Short的強化學習:在標準的強化學習訓練階段之后,選擇一個在性能和輸出效率之間達到最佳平衡的模型作為基礎模型,并進行單獨的long-cot到short-cot的強化學習訓練階段。在這一階段,采用長度懲罰,進一步懲罰超出期望長度,但保證模型仍然可能正確的輸出答案。

Long2short效果如下所示,在提高輸出效率的同時,大幅度提高模型效果。

Kimi發布最新模型k1.5,技術報告也干貨滿滿-AI.x社區

RL數據收集部分,我覺得kimi真的說到的了我的心趴上。畢竟在做LLM之后,我很長一段時間都在做數據相關的工作。而RL階段依然也不例外,強化學習階段數據的質量和多樣性,不僅能夠引導模型進行穩健的推理,還能減少 reward hacking 和overfitting的風險。

高質量的RL提示數據的三要素:

  • 覆蓋范圍-廣:提示數據應涵蓋廣泛的學科領域,如科學、技術、工程和數學(STEM)、代碼和一般推理,增強模型在不同領域的普適性。這里k1.5開發了一個標簽系統,對提示按照領域和學科進行分類,確保不同學科領域的數據平衡。
  • 難度分布-均:提示數據應包含易、中、難不同難度級別的問題,讓模型逐步學習,防止模型過擬合到一些特定復雜的問題上。這里k1.5通過模型自身的推理能力,來評估每個prompt的難度,就是對相同的prompt利用相對較高溫度生成10次答案,然后計算答案的通過率,通過率越低,代表prompt難度越高。
  • 可評估性-準:提示數據應允許驗證器進行客觀且可靠的評估,確保模型結果是基于正確的推理過程,而不是簡單模式或隨機猜測。這里k1.5利用沒有任何鏈式推理步驟的情況下預測可能的答案,如果在N次嘗試內,均預測正確答案,認為該prompt容易產生reward hacking。

在k1.5的報告中,寫了大段infra的內容,看完之后受益匪淺,因為我本身不是做infra的,所以對infra的很多細節,之前并不是很了解,看完k1.5的內容之后,真的學到很多。

Kimi發布最新模型k1.5,技術報告也干貨滿滿-AI.x社區

其中,Hybrid Deployment Framework部分,有一些工程上的東西的。RL階段主要有以下幾個階段:

  • 訓練階段:Megatron(Shoeybi et al. 2020)和 vLLM(Kwon et al. 2023)分別在獨立的容器中運行,這些容器被一個名為檢查點引擎(checkpoint-engine)的外殼進程封裝(詳見第 2.6.3 節)。Megatron 首先啟動訓練過程。訓練完成后,Megatron 會釋放 GPU 內存,并準備將當前權重傳遞給 vLLM。
  • 訓練階段:Megatron和 vLLM分別在獨立的容器中運行,容器稱為checkpoint-engine的外殼進程封裝。Megatron 首先啟動訓練過程,訓練完成后,Megatron 會釋放 GPU 內存,并準備將當前權重傳遞給 vLLM。
  • 推理階段:在 Megatron 釋放內存后,vLLM 以虛擬模型權重啟動,并通過 Mooncake 從 Megatron 接收最新的權重更新。完成回放后,checkpoint-engine會停止所有 vLLM 進程。
  • 后續訓練階段:釋放 vLLM 所占用的內存后,Megatron 重新加載內存并開始下一輪訓練。

而現有框架很難同時滿足以下所有特性:

  • 復雜的并行策略:Megatron 和 vLLM 可能采用不同的并行策略。Megatron 中分布在多個節點上的訓練權重很難與 vLLM 共享。
  • 最小化閑置 GPU 資源:對于在線策略強化學習,SGLang和 vLLM可能會在訓練過程中保留一些 GPU,導致訓練 GPU 的閑置。如何共享相同的設備,將訓練變得更加高效。
  • 動態擴展能力:通過增加推理節點的數量,同時保持訓練過程不變,可以顯著加速訓練。如何高效利用閑置的 GPU 節點。

如圖下圖所示,k1.5在Megatron 和 vLLM 的基礎上實現了這種混合部署框架,將訓練階段切換到推理階段的時間縮短到不到一分鐘,而從推理階段切換到訓練階段大約只需要十秒。

Kimi發布最新模型k1.5,技術報告也干貨滿滿-AI.x社區

我看完整個paper,是學到不少,還有一些其他的內容,后面有機會在繼續給大家分享吧,期待其他infra大佬和rl大佬來解讀。

最后說一下,k1.5 剛剛發布,現在正在進行灰度上線,也許你馬上成為那個幸運兒,可以提前體驗到k1.5的整體效果。我反正是十分期待ing。

Kimi發布最新模型k1.5,技術報告也干貨滿滿-AI.x社區

本文轉載自??NLP工作站??,作者: 劉聰NLP ????

收藏
回復
舉報
回復
相關推薦
精品在线视频观看| 亚洲欧美日韩综合网| 天天射天天色天天干| 久久精品一区| 日韩在线观看免费| 九色91porny| 亚洲一二三四| 亚洲视频在线一区二区| 国产成人免费观看| 久久精品五月天| 欧美精品91| 伊人一区二区三区久久精品| 在线观看中文av| 亚洲精品一区| 亚洲另类在线制服丝袜| 欧美福利一区二区三区| 99久久久国产精品无码网爆| 久久精品首页| 蜜月aⅴ免费一区二区三区| 麻豆国产精品一区| 亚洲高清999| 欧美日韩一卡二卡| 亚洲熟妇无码另类久久久| 欧美成人精品一区二区男人看| 成人动漫在线一区| 成人自拍性视频| 99re热视频| 日韩视频中文| 欧美激情第一页xxx| 超碰97av在线| 免费不卡中文字幕在线| 日韩精品中文字幕一区二区三区| mm1313亚洲国产精品无码试看| 久久大胆人体| 亚洲少妇中出一区| 亚洲亚洲精品三区日韩精品在线视频 | 1314成人网| 日韩高清在线| 一本一道综合狠狠老| 免费国产a级片| 福利在线导航136| 亚洲精品免费视频| 黄频视频在线观看| 日本免费视频在线观看| 日本一区二区三区高清不卡| 久久精品日产第一区二区三区| 精品女同一区二区三区| 国产一区二区三区四区五区入口 | 国产精品久久久久久久久搜平片| 欧美日韩一区二区三| 无码国产精品一区二区免费16| 国产mv日韩mv欧美| 99久久一区三区四区免费| 国产又粗又长视频| 国产一区二区三区精品视频| 91久久精品一区| 国产精品久久久久久无人区 | 在线观看免费视频综合| 国产日韩一区二区在线观看| 亚洲欧美一区二区三区| 色婷婷久久久亚洲一区二区三区 | 亚洲欧美精品suv| 醉酒壮男gay强迫野外xx| 色婷婷久久久| 亚洲欧美日韩成人| 国产一区二区三区精品在线| 成人毛片在线| 亚洲人a成www在线影院| 久久久久久成人网| 天天做天天爱天天爽综合网| 欧美成人免费观看| 精品99在线观看| 日韩午夜免费视频| 欧美亚洲激情在线| 无码久久精品国产亚洲av影片| 日日摸夜夜添夜夜添精品视频 | 亚洲AV午夜精品| 国产超碰在线一区| 精品日本一区二区三区在线观看| 免费在线黄色网址| 国产精品你懂的| 日本久久高清视频| 国产精品vvv| 色国产综合视频| 午夜国产福利在线观看| 亚洲精品在线a| 亚洲精品国产精品久久清纯直播| 日韩人妻无码一区二区三区| 精品免费视频| 久久久久久国产精品| 日本一区二区免费电影| 美国三级日本三级久久99| 亚洲字幕在线观看| 偷拍自拍在线| 亚洲婷婷在线视频| 日本福利视频在线| 欧美爱爱视频| 日韩免费观看高清完整版| 一本加勒比波多野结衣| 色乱码一区二区三区网站| 久久久久九九九九| 一区二区 亚洲| 不卡在线观看av| 一本一道久久久a久久久精品91 | 91久久爱成人| 麻豆国产在线播放| 一区二区三区高清不卡| 激情内射人妻1区2区3区| 精品国产亚洲日本| 亚洲天堂视频在线观看| 久久免费视频6| 麻豆精品一区二区综合av| 国产精品区一区二区三在线播放| 成人18在线| 欧美日韩激情视频| 中文字幕乱妇无码av在线| 久草精品在线| 98精品国产高清在线xxxx天堂| 一级片aaaa| 久久亚洲二区三区| www.avtt| 国产一区二区视频在线看| 国产一区二区三区日韩欧美| 日本特黄特色aaa大片免费| 国产专区综合网| 亚洲高清不卡一区| 92国产精品| 日韩第一页在线| 国产亚洲第一页| 国产一二精品视频| 伊人婷婷久久| 国产精品黄色片| 一本久久综合亚洲鲁鲁| 日韩不卡在线播放| 99精品桃花视频在线观看| 国内精品国产三级国产99| 色综合久久久| 日韩中文有码在线视频| 懂色av蜜臀av粉嫩av喷吹| 久久众筹精品私拍模特| 免费看又黄又无码的网站| 高清欧美性猛交xxxx黑人猛| 九九热r在线视频精品| 国产一区二区自拍视频| 国产精品乱码一区二区三区软件 | 国产精品亚洲欧美在线播放| 国产精品乱人伦中文| 亚洲一级免费观看| 日韩欧美高清| 成人激情在线观看| 秋霞午夜理伦电影在线观看| 欧美日韩卡一卡二| 国产精品久久久免费看| 韩国毛片一区二区三区| 中文字幕免费高| 在线精品视频一区| 欧美黄色www| 少妇喷水在线观看| 欧美日韩亚洲高清| 美女久久久久久久久久| 丝袜美腿成人在线| 日韩一区免费观看| 国产一区二区三区四区五区3d| 色哟哟亚洲精品一区二区| 中文字幕乱码一区二区| 1000部国产精品成人观看| 国产一级免费大片| 亚洲一本视频| 久久伊人一区二区| 欧美成a人片在线观看久| 中日韩美女免费视频网站在线观看| 中国一区二区视频| 亚洲免费观看高清完整版在线观看 | 国产尤物在线观看| 亚洲综合一区在线| 91黄色免费视频| 日韩国产欧美在线播放| 香蕉视频在线网址| 日韩电影不卡一区| 国产剧情久久久久久| 曰本三级在线| 亚洲精品一二区| 亚洲一级在线播放| 亚洲一区二区免费视频| www在线观看免费视频| 国产毛片精品一区| 成年人视频网站免费观看| 日韩国产一区二区| 国产精品久久7| 国产精品亚洲d| 欧美激情国内偷拍| 国产在线中文字幕| 欧美一区二区三区在线| 波多野结衣国产| 国产精品福利av| 在线天堂www在线国语对白| 免费视频最近日韩| 精品少妇人妻av免费久久洗澡| 日韩夫妻性生活xx| 精品久久久久久中文字幕动漫| 国产91在线精品| 97免费在线视频| 免费高清在线观看| 亚洲欧美精品一区二区| 亚洲欧美另类日韩| 欧美日韩不卡视频| 中文字幕精品无码一区二区| 亚洲欧美激情视频在线观看一区二区三区| 亚洲av成人片色在线观看高潮| 精品在线一区二区三区| 亚洲乱码中文字幕久久孕妇黑人| 婷婷综合伊人| 日韩精品一区二区三区外面| 精品国内亚洲2022精品成人| 亚洲最大成人免费视频| 国产成人77亚洲精品www| 欧美亚州一区二区三区| www欧美xxxx| 伦理中文字幕亚洲| 国产理论电影在线观看| 亚洲国产精品电影在线观看| 99视频国产精品免费观看a| 在线看国产一区| 久久一区二区三区视频| 一区二区久久久久| 天堂网avav| 国产精品国产三级国产专播品爱网 | 精品国产亚洲AV| 欧美日本在线播放| 97人妻精品视频一区| 日韩欧美极品在线观看| 日韩成人免费在线视频| 夜夜爽夜夜爽精品视频| 国产女人被狂躁到高潮小说| 国产精品高潮呻吟| 殴美一级黄色片| 中文字幕免费不卡在线| 51妺嘿嘿午夜福利| 中文字幕欧美区| 久久久久亚洲AV成人无在| 久久精品日产第一区二区三区高清版| 水蜜桃av无码| 99re热这里只有精品视频| 人妖粗暴刺激videos呻吟| 粉嫩绯色av一区二区在线观看 | 国内精品久久久久久中文字幕| 亚洲国产精品精华素| 九九精品在线观看| 大黄网站在线观看| 韩剧1988免费观看全集| 天堂av在线| 奇米4444一区二区三区| 欧美亚洲韩国| 国产精品情侣自拍| 青青在线精品| 91色视频在线观看| 亚洲视频三区| 国产精品xxxx| 视频福利一区| 色一情一乱一伦一区二区三欧美 | 国产免费视频传媒| 日本不卡视频一二三区| 亚洲男人天堂av在线| 国产一区亚洲一区| 99免费观看视频| 91视频在线看| 久久久久久久久福利| 国产精品第13页| 久久久久久久久艹| 黑人欧美xxxx| 中文字幕av影视| 欧美一区二区三区在线电影| 男人天堂网在线视频| 日韩久久免费视频| 触手亚洲一区二区三区| 久久伊人免费视频| 国产va在线视频| 国产精品久久久久久av福利软件 | 91porn在线视频| 亚洲国产另类av| 亚洲国产精品无码久久久| 777a∨成人精品桃花网| 少妇人妻一区二区| 中文字幕亚洲欧美在线| 视频在线这里都是精品| 热久久视久久精品18亚洲精品| 欧美电影在线观看网站| 国产乱码精品一区二区三区日韩精品| 亚洲成aⅴ人片久久青草影院| 亚洲精品成人久久久998| 欧美视频官网| 国产日韩成人内射视频| 国产精品一区久久久久| 女~淫辱の触手3d动漫| 亚洲另类春色国产| 久久久久在线视频| 日韩欧美中文字幕一区| 福利视频在线播放| 国模私拍视频一区| 9999在线精品视频| 欧美日韩精品免费看| 欧美精品一区二区三区久久久竹菊| 久久久久久久久久久久久国产精品 | 色小子综合网| 久久精品免费一区二区| 国产一区二区三区不卡在线观看 | 亚洲免费在线视频| 精品国产xxx| 亚洲精品一区在线观看| 人人干在线视频| 日本久久久久久久久| 人人爱人人干婷婷丁香亚洲| 五月天久久狠狠| 亚洲美女毛片| 9191在线视频| 亚洲图片激情小说| 依依成人在线视频| 亚洲伦理中文字幕| 国产黄大片在线观看| 成人免费看片网站| 亚洲蜜桃视频| 国内外成人免费在线视频| 久久久九九九九| 日韩三级免费看| 精品久久久久一区二区国产| 麻豆视频在线| 91精品国产综合久久香蕉922| 深爱激情久久| av无码精品一区二区三区| 91网站在线观看视频| 男人天堂中文字幕| 亚洲精品一区二区三区99| 国内在线免费视频| 91文字幕巨乱亚洲香蕉| 欧美精品九九| 性感美女一区二区三区| 洋洋av久久久久久久一区| av免费在线不卡| 九九热这里只有精品6| 国产精品777777在线播放| 中文字幕一区二区三区在线乱码| 人妖欧美一区二区| 亚洲精品一区二区三区影院忠贞| 91国偷自产一区二区开放时间 | 成人高潮片免费视频| 欧美精品在线极品| 99精品中文字幕在线不卡| a级免费在线观看| 成人免费视频app| 好吊操这里只有精品| 亚洲国产天堂久久综合| 免费在线小视频| 麻豆精品视频| 日韩高清一区二区| 东京热无码av男人的天堂| 欧美剧在线免费观看网站| 99福利在线| 国内一区二区三区在线视频| 亚洲欧美日韩专区| 天天操天天干天天操天天干| 91.com视频| 久草免费在线色站| 精品在线视频一区二区| 久久婷婷亚洲| 四虎永久免费地址| 日韩精品一区二区在线观看| 超免费在线视频| 欧美日韩亚洲免费| 韩国成人在线视频| 精品无码一区二区三区电影桃花 | 草草影院第一页| 欧美日韩国产一级片| 污片在线免费观看| 精品无人区一区二区三区竹菊| 日韩在线卡一卡二| 波多野结衣喷潮| 精品对白一区国产伦| 欧美舌奴丨vk视频| 艳母动漫在线免费观看| 成人国产精品免费观看动漫 | 91精品国产综合久久福利软件 | 欧美午夜一区二区| 亚洲综合伊人久久大杳蕉| 久久天堂国产精品| 精品无人区卡一卡二卡三乱码免费卡 | 国产区视频在线| 爱情岛论坛亚洲入口| 久久免费黄色| 久久精品视频免费在线观看| 精品亚洲一区二区三区在线观看| 日韩免费在线电影| 黄页网站大全在线观看| 欧美激情一区二区三区不卡| 亚洲精品综合网| 国产精品直播网红| 亚洲永久网站| 欧美日韩精品亚洲精品| 国产亚洲成av人片在线观看桃| 超碰精品在线观看| 亚洲成人福利在线|