精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

450美元訓(xùn)練一個「o1-preview」?UC伯克利開源32B推理模型Sky-T1,AI社區(qū)沸騰了

人工智能 新聞
近日,加州大學(xué)伯克利分校天空計算實驗室的研究團隊 NovaSky 發(fā)布了 Sky-T1-32B-Preview。有趣的是,團隊表示:「Sky-T1-32B-Preview 的訓(xùn)練成本不到 450 美元,這表明可以經(jīng)濟、高效地復(fù)制高級推理能力。」

450 美元的價格,乍一聽起來不算「小數(shù)目」。但如果,這是一個 32B 推理模型的全部訓(xùn)練成本呢?

是的,當時間來到 2025 年,推理模型正變得越來越容易開發(fā),且成本迅速降低到我們此前無法想象的程度。

近日,加州大學(xué)伯克利分校天空計算實驗室的研究團隊 NovaSky 發(fā)布了 Sky-T1-32B-Preview。有趣的是,團隊表示:「Sky-T1-32B-Preview 的訓(xùn)練成本不到 450 美元,這表明可以經(jīng)濟、高效地復(fù)制高級推理能力。」

圖片


  • 項目主頁:https://novasky-ai.github.io/posts/sky-t1/
  • 開源地址:https://huggingface.co/NovaSky-AI/Sky-T1-32B-Preview

據(jù)官方信息,這款推理模型在多個關(guān)鍵基準測試中與 OpenAI o1 的早期版本相媲美。

圖片

重點是,Sky-T1 似乎是第一個真正開源的推理模型,因為團隊發(fā)布了訓(xùn)練數(shù)據(jù)集以及必要的訓(xùn)練代碼,任何人都可以從頭開始復(fù)制。

大家驚呼:「數(shù)據(jù)、代碼和模型權(quán)重,多么驚人的貢獻。」

圖片

不久前,訓(xùn)練一個具有同等性能的模型的價格往往高達數(shù)百萬美元。合成訓(xùn)練數(shù)據(jù)或由其他模型生成的訓(xùn)練數(shù)據(jù),讓成本實現(xiàn)了大幅降低。

此前,一家 AI 公司 Writer 發(fā)布的 Palmyra X 004 幾乎完全基于合成數(shù)據(jù)進行訓(xùn)練,開發(fā)成本僅為 70 萬美元。

想象一下,以后我們可以在 Nvidia Project Digits AI 超級計算機上運行此程序,該超級計算機售價 3000 美元(對于超級計算機來說很便宜),可以運行多達 2000 億個參數(shù)的模型。而不久的將來,不到 1 萬億個參數(shù)的模型將由個人在本地運行。

2025 年的大模型技術(shù)演進正在加速,這感受確實很強烈。

模型概述

擅長推理的 o1 和 Gemini 2.0 flash thinking 等模型通過產(chǎn)生長長的內(nèi)部思維鏈,解決了復(fù)雜的任務(wù),并取得了其他方面的進步。然而,技術(shù)細節(jié)和模型權(quán)重卻無法獲取,這對學(xué)術(shù)界和開源社區(qū)的參與構(gòu)成了障礙。

為此,在數(shù)學(xué)領(lǐng)域出現(xiàn)了一些訓(xùn)練開放權(quán)重推理模型的顯著成果,如 Still-2 和 Journey。與此同時,加州大學(xué)伯克利分校的 NovaSky 團隊一直在探索各種技術(shù),以發(fā)展基礎(chǔ)模型和指令調(diào)整模型的推理能力。

在 Sky-T1-32B-Preview 這項工作中,團隊不僅在數(shù)學(xué)方面取得了有競爭力的推理性能,而且在同一模型的編碼方面也取得了有競爭力的推理性能。

圖片


為確保這項工作能「惠及更廣泛的社區(qū)」,團隊開源了所有細節(jié)(如數(shù)據(jù)、代碼、模型權(quán)重),使社區(qū)能夠輕松復(fù)制和改進:

  •  基礎(chǔ)設(shè)施:在單一存儲庫中構(gòu)建數(shù)據(jù)、訓(xùn)練和評估模型;
  •  數(shù)據(jù):用于訓(xùn)練 Sky-T1-32B-Preview 的 17K 數(shù)據(jù);
  •  技術(shù)細節(jié):技術(shù)報告及 wandb 日志;
  •  模型權(quán)重:32B 模型權(quán)重。

圖片

技術(shù)細節(jié)

數(shù)據(jù)整理過程

為了生成訓(xùn)練數(shù)據(jù),團隊使用了 QwQ-32B-Preview,這是一個開源模型,其推理能力與 o1-preview 相當。團隊對數(shù)據(jù)混合進行了整理,以涵蓋需要推理的不同領(lǐng)域,并采用拒絕采樣程序來提高數(shù)據(jù)質(zhì)量。

然后,團隊受到 Still-2 的啟發(fā),用 GPT-4o-mini 將 QwQ trace 重寫為結(jié)構(gòu)規(guī)整的版本,以提高數(shù)據(jù)質(zhì)量并簡化解析。

他們發(fā)現(xiàn),解析的簡便性對推理模型尤其有利。它們被訓(xùn)練成以特定格式做出響應(yīng),而結(jié)果往往難以解析。例如,在 APPs 數(shù)據(jù)集上,如果不重新格式化,團隊只能假設(shè)代碼是寫在最后一個代碼塊中的,而 QwQ 只能達到約 25% 的準確率。但是,有時代碼可能寫在中間,經(jīng)過重新格式化后,準確率會提高到 90% 以上。

拒絕采樣。根據(jù)數(shù)據(jù)集提供的解決方案,如果 QwQ 樣本不正確,團隊就會將其丟棄。對于數(shù)學(xué)問題,團隊會與 ground truth 解決方案進行精確匹配。對于編碼問題,團隊執(zhí)行數(shù)據(jù)集中提供的單元測試。團隊的最終數(shù)據(jù)包含來自 APPs 和 TACO 的 5k 編碼數(shù)據(jù),以及來自 AIME、MATH 和 NuminaMATH 數(shù)據(jù)集的 Olympiads 子集的 10k 數(shù)學(xué)數(shù)據(jù)。此外,團隊還保留了來自 STILL-2 的 1k 科學(xué)和謎題數(shù)據(jù)。

訓(xùn)練

團隊使用訓(xùn)練數(shù)據(jù)來微調(diào) Qwen2.5-32B-Instruct,這是一個不具備推理能力的開源模型。該模型采用 3 個 epoch、學(xué)習(xí)率 1e-5 和 96 的批大小進行訓(xùn)練。使用 DeepSpeed Zero-3 offload(根據(jù) Lambda Cloud 的定價約為 450 美元),在 8 個 H100 上用 19 個小時完成模型訓(xùn)練。團隊使用了 Llama-Factory 進行訓(xùn)練。

評估結(jié)果

Sky-T1 在 MATH500(「競賽級」數(shù)學(xué)挑戰(zhàn))上的表現(xiàn)優(yōu)于 o1 的早期預(yù)覽版本,還在一組來自 LiveCodeBench(一種編碼評估)的難題上擊敗了 o1 的預(yù)覽版本。然而,Sky-T1 不如 GPQA-Diamond 上的 o1 預(yù)覽版,后者包含博士畢業(yè)生應(yīng)該了解的物理、生物和化學(xué)相關(guān)問題。

圖片

不過,OpenAI 的 o1 GA 版本比 o1 的預(yù)覽版更強大,并且 OpenAI 預(yù)計將在未來幾周發(fā)布性能更佳的推理模型 o3。

值得重視的新發(fā)現(xiàn)

模型大小很重要。團隊最初嘗試在較小的模型(7B 和 14B)上進行訓(xùn)練,但觀察到的改進不大。例如,在 APPs 數(shù)據(jù)集上訓(xùn)練 Qwen2.5-14B-Coder-Instruct 在 LiveCodeBench 上的性能略有提高,從 42.6% 提高到 46.3%。然而,在手動檢查較小模型(小于 32B 的模型)的輸出時,團隊發(fā)現(xiàn)它們經(jīng)常生成重復(fù)內(nèi)容,從而限制了它們的有效性。

數(shù)據(jù)混合很重要。團隊最初使用 Numina 數(shù)據(jù)集(由 STILL-2 提供)中的 3-4K 個數(shù)學(xué)問題訓(xùn)練 32B 模型,AIME24 的準確率從 16.7% 顯著提高到 43.3%。然而,將 APPs 數(shù)據(jù)集生成的編程數(shù)據(jù)納入訓(xùn)練過程時,AIME24 的準確率下降到 36.7%。可能意味著,這種下降是由于數(shù)學(xué)和編程任務(wù)所需的推理方法不同。

編程推理通常涉及額外的邏輯步驟,如模擬測試輸入或內(nèi)部執(zhí)行生成的代碼,而數(shù)學(xué)問題的推理往往更為直接和結(jié)構(gòu)化。為了解決這些差異,團隊使用 NuminaMath 數(shù)據(jù)集中具有挑戰(zhàn)性的數(shù)學(xué)問題和 TACO 數(shù)據(jù)集中復(fù)雜的編程任務(wù)來豐富訓(xùn)練數(shù)據(jù)。這種均衡的數(shù)據(jù)混合使模型在兩個領(lǐng)域都表現(xiàn)出色,在 AIME24 上恢復(fù)了 43.3% 的準確率,同時也提高了其編程能力。

與此同時,也有研究者表示了懷疑:

圖片

圖片


責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2025-02-14 09:20:00

模型數(shù)據(jù)訓(xùn)練

2025-04-18 08:42:52

模型推理AI

2025-04-10 10:02:43

2025-04-30 09:09:00

2023-04-07 09:28:31

模型訓(xùn)練

2025-02-11 16:17:42

2025-01-20 13:08:25

2025-05-21 08:53:00

2024-09-23 16:00:00

AI模型測評

2024-09-23 14:46:27

2024-09-24 11:01:03

2025-02-13 08:30:00

2025-06-18 02:30:00

推理能力強化學(xué)習(xí)大語言模型

2025-04-27 09:19:00

強化學(xué)習(xí)模型AI

2023-12-04 18:56:03

AI模型

2025-03-10 07:00:00

阿里開源QwQ-32B

2025-03-06 17:29:21

2025-04-21 08:52:00

大語言模型生成AI

2024-12-20 14:30:00

2023-07-01 13:27:55

點贊
收藏

51CTO技術(shù)棧公眾號

色呦呦一区二区三区| 国产一区二区三区免费播放 | 国产精品久久免费| 艳女tv在线观看国产一区| 亚洲国产精品久久精品怡红院 | 久热成人在线视频| 欧美激情网站在线观看| 国产精品久久久久久在线观看| 电影天堂国产精品| 一区二区三区免费在线观看| 欧美高清性xxxxhdvideosex| 国产高清在线免费| 天堂一区二区在线| 欧美黑人巨大精品一区二区| 性欧美精品男男| 国产一区二区三区亚洲| 欧美伦理视频网站| 国产二区视频在线播放| 在线观看av免费| 国产午夜久久久久| 国产精品三区www17con| 一卡二卡三卡在线| 麻豆精品网站| 欧美激情成人在线视频| 97精品在线播放| 色综合中文网| 亚洲国产天堂久久综合| 国产成人av免费观看| 精品国产美女a久久9999| 黄色一区二区在线| 黄色网在线视频| 欧美私人网站| 欧美激情一区二区三区四区 | 欧美成人激情| 亚洲人高潮女人毛茸茸| 北京富婆泄欲对白| 涩爱av色老久久精品偷偷鲁| 欧美区视频在线观看| 成人免费观看毛片| 欧美激情网站| 午夜精品福利一区二区蜜股av| 欧美精品久久96人妻无码| 成人三级黄色免费网站| 久久九九久久九九| 欧美精品欧美精品| 日本在线视频1区| 99久久综合狠狠综合久久| 成人区精品一区二区| 99免费在线视频| 国产精品自拍一区| 96pao国产成视频永久免费| 在线观看国产成人| 久久精品久久综合| 国产精品一区二区久久精品| 日本中文字幕在线观看视频| 亚洲性感美女99在线| 欧美激情一区二区三区高清视频| 欧美国产日韩综合| 欧美午夜不卡| 久久久久久九九九| 黄色一级片免费看| 免费在线日韩av| 国产成人精品综合久久久| 狠狠人妻久久久久久综合| 久久精品女人天堂| 国产精品久久不能| 91theporn国产在线观看| 精品一区二区精品| 91精品黄色| 色呦呦中文字幕| 久久久久久久国产精品影院| 日韩精品久久一区| av网站在线播放| 国产精品久久久久桃色tv| 日韩最新中文字幕| 秋霞在线午夜| 欧美日韩国产在线播放| 男人舔女人下面高潮视频| 国产精品传媒麻豆hd| 555夜色666亚洲国产免| 中国黄色片视频| 宅男在线一区| 久久久精品免费| 国产无码精品视频| 日韩福利视频导航| 91麻豆国产语对白在线观看| 黄色片网站免费在线观看| 久久午夜老司机| 在线观看一区二区三区三州| 国产探花视频在线观看| 一本色道亚洲精品aⅴ| 天天干天天玩天天操| 97se亚洲| 色偷偷偷综合中文字幕;dd| 青娱乐免费在线视频| 午夜一区不卡| 成人网在线免费看| 五月婷婷六月激情| 国产精品国产三级国产aⅴ原创| 91精品国产毛片武则天| 我爱我色成人网| 欧美一级二级在线观看| 男生草女生视频| 欧美日韩日本国产亚洲在线| 国产成人小视频在线观看| 国产www免费观看| 久久久电影一区二区三区| av动漫在线播放| 日韩美女在线看免费观看| 日韩精品中午字幕| 国产视频不卡在线| 国产精品女主播一区二区三区| 成人疯狂猛交xxx| 免费毛片在线| 亚洲午夜电影网| 国产一区二区在线观看免费视频| 日韩有码av| 九九热最新视频//这里只有精品| 波多野结衣激情视频| 成人sese在线| 国产一区二区看久久| 欧美极品在线观看| 日韩mv欧美mv国产网站| av不卡在线看| 久久乐国产精品| 一区二区国产欧美| 久久久电影一区二区三区| 夜夜添无码一区二区三区| 亚洲欧美专区| 在线成人中文字幕| 精品一区精品二区| 欧美精品亚洲精品| 日韩免费影院| 欧美日韩和欧美的一区二区| 野外性满足hd| 亚洲第一精品影视| av蓝导航精品导航| 超碰个人在线| 欧美欧美午夜aⅴ在线观看| 丰满少妇高潮一区二区| 亚洲一区二区网站| 久久精品国产一区二区三区日韩| 成人黄色动漫| 亚洲成人黄色网址| 国产成人精品a视频一区| 国产成人av在线影院| 穿情趣内衣被c到高潮视频| 小说区图片区亚洲| 久久影院资源网| 国产精品久久婷婷| 亚洲另类色综合网站| 中文字幕55页| 欧美一区二区| 91国产丝袜在线放| 182在线播放| 亚洲激情电影中文字幕| 欧美精品二区三区| 91影院在线观看| 久久精品网站视频| 欧美综合另类| 成人精品视频在线| 青草影视电视剧免费播放在线观看| 欧美一级淫片007| 黑人巨大精品一区二区在线| 国产99久久久精品| 青青青青草视频| 美女久久久久| 国产精品美女av| 麻豆传媒在线观看| 精品少妇一区二区三区日产乱码 | 精品99又大又爽又硬少妇毛片 | 欧美精品videosex性欧美| 欧美天堂在线视频| 欧美午夜激情在线| 男女男精品视频网站| 国产伦精品一区二区三区免费迷| 性高湖久久久久久久久aaaaa| 欧美理伦片在线播放| 国产精品99久久99久久久二8| 在线观看黄av| 日韩欧美国产电影| 黄色在线免费观看| 亚洲欧洲国产日本综合| 在线xxxxx| 日韩精品欧美精品| 成人av在线播放观看| 天天久久夜夜| 成人免费在线视频网站| 99爱在线观看| 神马久久桃色视频| 噜噜噜久久,亚洲精品国产品| 色婷婷综合中文久久一本| 视频国产一区二区| 99久久综合色| 久久久精品视频国产| 欧美中文日韩| 久久男人资源站| 菠萝蜜一区二区| 国产精品日韩欧美一区二区三区| 成人黄色在线| 国产69精品99久久久久久宅男| 成人三级黄色免费网站| 亚洲国产精品电影在线观看| 92久久精品一区二区| 欧美日韩国产一区二区三区| 中文字幕另类日韩欧美亚洲嫩草| 99久久精品国产导航| 男男受被啪到高潮自述| 视频一区二区中文字幕| 国产曰肥老太婆无遮挡| 999久久久91| 狼狼综合久久久久综合网| 麻豆国产精品| 国产主播欧美精品| 欧美特大特白屁股xxxx| 久久久久久一区二区三区| 欧美成人hd| 亚洲天堂男人天堂女人天堂| 亚洲免费视频网| 91精品国产aⅴ一区二区| 免费av中文字幕| 欧美日韩亚洲国产一区| 免费在线观看av网址| 中文字幕综合网| 超碰人人人人人人人| 久久久久青草大香线综合精品| 美女黄色一级视频| 东方aⅴ免费观看久久av| 一级黄色高清视频| 免费高清在线视频一区·| 日韩av资源在线| 9色国产精品| 波多野结衣之无限发射| 韩日在线一区| 日韩精品一区二区三区电影| 久久久9色精品国产一区二区三区| 日韩av免费电影| 综合国产视频| 欧美日韩成人一区二区三区 | 国产精品黄色网| 一区二区三区av电影| 成熟的女同志hd| 亚洲欧美激情在线| 欧美黑吊大战白妞| 亚洲午夜一二三区视频| 久久精品99国产精| 亚洲日本在线观看| 青青草原国产视频| 亚洲韩国精品一区| 看片网址国产福利av中文字幕| 午夜国产精品影院在线观看| 国产成人精品a视频一区| 精品成人在线视频| 91精品国产高清一区二区三密臀| 欧美日韩国产色| 超碰在线97观看| 欧美日韩一区二区三区免费看| 亚洲专区在线播放| 欧美一区二区三区视频| 国产高中女学生第一次| 亚洲国产成人在线播放| 欧洲视频在线免费观看| 亚洲图片欧美日产| 巨大荫蒂视频欧美大片| 另类少妇人与禽zozz0性伦| 欧美亚洲系列| 7777精品视频| 久久人人视频| 99re资源| 在线成人动漫av| 爱爱爱视频网站| 狠狠色丁香久久综合频道| 国产乱子伦农村叉叉叉| 日本中文字幕一区二区视频| 日韩va在线观看| 成人黄色一级视频| 美女脱光内衣内裤| 亚洲免费av高清| 探花视频在线观看| 在线播放中文一区| 污污网站免费在线观看| 中文字幕国产日韩| 牛牛精品在线视频| 日韩免费观看网站| 国产美女视频一区二区| 久久99精品国产99久久| 日韩精品永久网址| 日韩一级片免费视频| 久久亚洲不卡| 大伊人狠狠躁夜夜躁av一区| 羞羞色国产精品| 动漫av在线免费观看| 欧美人体大胆444www| 中文字幕在线一区免费| 妺妺窝人体色www聚色窝仙踪 | 澳门av一区二区三区| 91免费人成网站在线观看18| 三级精品视频| 伊人情人网综合| 国产一区二区三区成人欧美日韩在线观看| 五月婷婷深爱五月| 成人免费视频视频在线观看免费| a天堂中文字幕| 一区二区三区**美女毛片| 蜜臀99久久精品久久久久小说| 精品少妇一区二区三区| av影片在线看| 日韩av手机在线| 大香伊人久久精品一区二区| 杨幂一区欧美专区| 亚洲综合不卡| 国产日韩视频一区| 成人免费视频在线观看| 91精品国产91久久久久久不卡| 婷婷五月综合激情| 两个人的视频www国产精品| 成人交换视频| 欧美三日本三级少妇三99| 很黄很黄激情成人| 国产999免费视频| 国产精品国产三级国产a| 黄色片视频免费| 亚洲精品国产免费| 欧美草逼视频| 96国产粉嫩美女| 7777久久香蕉成人影院| 日本xxxx黄色| 日本一区二区免费在线| 成年人av网站| 亚洲伦理中文字幕| 三级中文字幕在线观看| 粉嫩av一区二区三区免费观看| 欧美成人亚洲| 国模大尺度视频| 亚洲美女偷拍久久| 91 中文字幕| 久久九九热免费视频| 国产精品99| 一区二区三区四区在线视频| 三级亚洲高清视频| 亚洲午夜精品久久久久久高潮| 色婷婷狠狠综合| 手机亚洲第一页| 国产不卡精品视男人的天堂| 久久av免费| 韩国中文字幕av| 国产精品丝袜久久久久久app| 久久久久精彩视频| 中文字幕亚洲一区二区三区| 成人国产激情在线| 欧美爱爱视频网站| 国产精品一区免费视频| 久久网中文字幕| 亚洲国产成人精品女人久久久| 欧美a级在线观看| 欧美精品一区在线发布| 老妇喷水一区二区三区| 一二三四在线观看视频| 6080国产精品一区二区| 久草在线视频网站| 久久精品国产精品国产精品污| 日韩精品五月天| chinese全程对白| 欧美大黄免费观看| 中文字幕在线看片| 日韩精品久久一区二区三区| 九九精品视频在线看| 国产亚洲欧美久久久久| 国产视频欧美视频| 高清亚洲高清| 成人在线免费观看视频网站| 91色在线porny| 中文在线免费观看| 欧美理论电影在线播放| 美国一区二区| 最新天堂中文在线| 亚洲一区二区三区中文字幕 | 丁香天五香天堂综合| 成人午夜视频在线播放| 中文字幕精品—区二区| 在线一区二区三区视频| 97xxxxx| 中文字幕一区在线观看视频| 国产综合在线播放| 日韩av三级在线观看| 欧美在线看片| 一卡二卡三卡四卡| 日韩一区二区三区在线| 亚洲欧美小说色综合小说一区| 一区二区三区在线视频看| 不卡一区二区三区四区| 中文字幕人成人乱码亚洲电影| 久久久久久成人精品| 日韩中文在线电影| 超碰caoprom| 欧美日韩成人高清| 成人性生活视频| 91免费国产精品| 国产精品蜜臀av| 深夜福利视频一区|