精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

<strike id="yau0s"><input id="yau0s"></input></strike>

<strike id="yau0s"><input id="yau0s"></input></strike>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

8卡32B模型超越o1預(yù)覽版、DeepSeek V3，普林斯頓、北大提出層次化RL推理新范式

輕薄滴假象

發(fā)布于 2025-2-12 15:58

瀏覽

0收藏

一、引言

推理大語(yǔ)言模型（LLM），如 OpenAI 的 o1 系列、Google 的 Gemini、DeepSeek 和 Qwen-QwQ 等，通過(guò)模擬人類推理過(guò)程，在多個(gè)專業(yè)領(lǐng)域已超越人類專家，并通過(guò)延長(zhǎng)推理時(shí)間提高準(zhǔn)確性。推理模型的核心技術(shù)包括強(qiáng)化學(xué)習(xí)（Reinforcement Learning）和推理規(guī)模（Inference scaling）。

主流的大模型強(qiáng)化學(xué)習(xí)算法，如 DPO、PPO、GRPO 等，通常需要在完整的思維鏈上進(jìn)行微調(diào)，需要高質(zhì)量數(shù)據(jù)、精確的獎(jiǎng)勵(lì)函數(shù)、快速反饋和在線迭代、以及大量的算力。當(dāng)處理復(fù)雜任務(wù)，如高級(jí)數(shù)學(xué)和編程問(wèn)題時(shí)，模型需要更細(xì)粒度的搜索、更精確的推理步驟和更長(zhǎng)的思維鏈，導(dǎo)致?tīng)顟B(tài)空間和策略空間的規(guī)模急劇擴(kuò)大，難度大幅上升。

Inference scaling 策略，不依賴訓(xùn)練，通過(guò)延長(zhǎng)推理時(shí)間進(jìn)一步提高模型的 Reasoning 能力。常見(jiàn)方法，如 Best-of-N 或者蒙特卡洛樹(shù)搜索（MCTS），允許 LLM 同時(shí)探索多條推理路徑，擴(kuò)大搜索空間，朝著更有希望的方向前進(jìn)。這些方法計(jì)算成本高，特別是步驟多或搜索空間大的時(shí)候。采樣隨機(jī)性使得確定最佳路徑困難，且依賴手動(dòng)設(shè)計(jì)的搜索策略和獎(jiǎng)勵(lì)函數(shù)，限制了泛化能力。

在此背景下，普林斯頓大學(xué)團(tuán)隊(duì)聯(lián)合北京大學(xué)團(tuán)隊(duì)合作開(kāi)發(fā)了名為 ReasonFlux 的多層次（Hierarchical）LLM 推理框架。

8卡32B模型超越o1預(yù)覽版、DeepSeek V3，普林斯頓、北大提出層次化RL推理新范式-AI.x社區(qū)

文章鏈接：https://arxiv.org/abs/2502.06772
開(kāi)源地址：https://github.com/Gen-Verse/ReasonFlux

（該論文作者特別聲明：本工作沒(méi)有蒸餾或用任何方式使用 DeepSeek R1。）

基于層次化強(qiáng)化學(xué)習(xí)（Hierachical Reinforcement Learning）思想，ReasonFlux 提出了一種更高效且通用的大模型推理范式，它具有以下特點(diǎn)：

思維模版：ReasonFlux 的核心在于結(jié)構(gòu)化的思維模板，每個(gè)模版抽象了一個(gè)數(shù)學(xué)知識(shí)點(diǎn)和解題技巧。僅用 500 個(gè)通用的思維模板庫(kù)，就可解決各類數(shù)學(xué)難題。
層次化推理和強(qiáng)可解釋性：ReasonFlux 利用層次化推理（Hierarchical Reasoning）將思維模板組合成思維軌跡（Thought Template Trajectory）、再實(shí)例化得到完整回答。模型的推理過(guò)程不再是 “黑盒”，而是清晰的展現(xiàn)了推理步驟和依據(jù)，這為 LLM 的可解釋性研究提供了新的工具和視角，也為模型的調(diào)試和優(yōu)化提供了便利。與 DeepSeek-R1 和 OpenAI-o1 等模型的推理方式不同，ReasonFlux 大大壓縮并凝練了推理的搜索空間，提高了強(qiáng)化學(xué)習(xí)的泛化能力，提高了 inference scaling 的效率。
輕量級(jí)系統(tǒng)：ReasonFlux 僅 32B 參數(shù)，強(qiáng)化訓(xùn)練只用了 8 塊 NVIDIA A100-PCIE-80GB GPU。它能通過(guò)自動(dòng)擴(kuò)展思維模板來(lái)提升推理能力，更高效靈活。

8卡32B模型超越o1預(yù)覽版、DeepSeek V3，普林斯頓、北大提出層次化RL推理新范式-AI.x社區(qū)

ReasonFlux-32B 在多個(gè)數(shù)學(xué)推理基準(zhǔn)測(cè)試中表現(xiàn)出色，僅僅用了 500 個(gè)基于不同數(shù)學(xué)知識(shí)點(diǎn)的思維模版，就展現(xiàn)了其強(qiáng)大的推理能力和躋身第一梯隊(duì)的實(shí)力。

二、ReasonFlux

三大關(guān)鍵技術(shù)構(gòu)建大模型推理新框架

ReasonFlux 的性能提升得益于其三大核心技術(shù)：

結(jié)構(gòu)化的思維模板抽?。?/strong>ReasonFlux 利用大語(yǔ)言模型從以往的數(shù)學(xué)問(wèn)題中提取了一個(gè)包含大約 500 個(gè)結(jié)構(gòu)化思維模板的知識(shí)庫(kù)。每個(gè)模板都包含標(biāo)簽、描述、適用范圍、應(yīng)用步驟等信息，這些信息經(jīng)過(guò)組織和結(jié)構(gòu)化處理，為 LLM 的推理提供了元知識(shí)參考。這些模板覆蓋了多種數(shù)學(xué)問(wèn)題類型和解題方法，如不等式求解、三角函數(shù)變換、極值定理等，是 ReasonFlux 進(jìn)行推理的基礎(chǔ)。
多層次強(qiáng)化學(xué)習(xí)（Hierarchical RL）—選擇最優(yōu)的 Thought Template Trajectory：該算法通過(guò) Hierarchical Reinforcement Learning 訓(xùn)練一個(gè) High-level 的 navigator，使其能夠?qū)斎雴?wèn)題進(jìn)行拆解，轉(zhuǎn)而求解多個(gè)更簡(jiǎn)單的子問(wèn)題，根據(jù)子問(wèn)題類型從模板庫(kù)中檢索相關(guān)的思維模板，并規(guī)劃出最優(yōu)的 Thought Template Trajectory。它可以看作是解決問(wèn)題的 “路線圖”，它由一系列的模板組合而成。這種基于 Hierarchical RL 的優(yōu)化算法通過(guò)獎(jiǎng)勵(lì)在相似問(wèn)題上的泛化能力，提升了推理軌跡的魯棒性和有效性，使得 ReasonFlux 能夠舉一反三，為各種數(shù)學(xué)問(wèn)題生成有效的思維模板軌跡。
新型 Inference Scaling 系統(tǒng)：該系統(tǒng)實(shí)現(xiàn)了結(jié)構(gòu)化模板庫(kù)和 inference LLM 之間的多輪交互?！癗avigator” 負(fù)責(zé)規(guī)劃模板軌跡和檢索模板，inference LLM 負(fù)責(zé)將模板實(shí)例化為具體的推理步驟，并通過(guò)分析中間結(jié)果來(lái)動(dòng)態(tài)調(diào)整軌跡，實(shí)現(xiàn)高效的推理過(guò)程。這種交互機(jī)制使得 ReasonFlux 能夠根據(jù)問(wèn)題的具體情況靈活調(diào)整推理策略，從而提高推理的準(zhǔn)確性和效率。

（a）推理示例對(duì)比

接下來(lái)我們來(lái)分析 ReasonFlux 在解決實(shí)際問(wèn)題上相較于 o1-mini 的對(duì)比。

我們來(lái)看和 o1-mini 的對(duì)比：

如上圖可知，o1-mini 在面對(duì)這道難題時(shí)，嘗試了多種策略，但均未能找到有效的突破口。它首先試圖通過(guò)引入新變量和利用對(duì)稱性來(lái)簡(jiǎn)化方程組，但收效甚微；接著又嘗試假設(shè)變量相等來(lái)尋找特解，結(jié)果卻得出了矛盾；隨后，它試圖用一個(gè)變量表示其他變量，并嘗試平方去根號(hào)，但復(fù)雜的表達(dá)式使其望而卻步；最后，它甚至想到了三角換元，但由于未能正確應(yīng)用，最終只能無(wú)奈地放棄求解。

相比之下，ReasonFlux 的解題過(guò)程如下：

分析與規(guī)劃：ReasonFlux 首先對(duì)題目進(jìn)行分析，確定了解題的主要步驟：初步確定 k 值的范圍、利用三角換元、化簡(jiǎn)方程組、求解 θ、計(jì)算目標(biāo)值。這一步反映了 ReasonFlux 的問(wèn)題分析和規(guī)劃能力，為后續(xù)解題過(guò)程提供了基礎(chǔ)。
模板化推理：ReasonFlux 隨后依次應(yīng)用了 “三角換元”、“化簡(jiǎn)方程組”、“求解 θ” 等模板，將復(fù)雜的方程組逐步簡(jiǎn)化，并最終求解出 θ 的值。每一步都依據(jù)模板的指導(dǎo)，旨在保證解題過(guò)程的準(zhǔn)確性。

逐步推導(dǎo)：ReasonFlux 根據(jù)求得的角度值，計(jì)算出 (x, y, z) 的值，并最終計(jì)算出目標(biāo)值，從而得到 (m=1, n=32, m+n=33)。整個(gè)過(guò)程邏輯清晰，步驟明確，展示了 ReasonFlux 的規(guī)劃和推理能力。

圖片

(b) 新的 inference scaling law

如上圖所示，隨著問(wèn)題復(fù)雜度的增加，ReasonFlux 正確解答問(wèn)題時(shí)所需的模板數(shù)量和交互輪數(shù)也相應(yīng)增加。這表明 ReasonFlux 能夠根據(jù)問(wèn)題的難度動(dòng)態(tài)調(diào)整推理策略，體現(xiàn)了其優(yōu)秀的自適應(yīng)能力。并且可以觀察到，交互輪數(shù)的增長(zhǎng)趨勢(shì)略高于模板數(shù)量，這意味著規(guī)劃能力的提升對(duì)解決復(fù)雜問(wèn)題至關(guān)重要。

三、主流推理范式對(duì)比

ReasonFlux vs Best-of-N & MCTS

目前，提升 LLM 推理性能的主流方法通常依賴于增加模型規(guī)模和計(jì)算資源。例如，增加模型參數(shù)量、采用 Best-of-N 或蒙特卡洛樹(shù)搜索 (MCTS) 等方法來(lái)擴(kuò)大搜索空間以尋找更優(yōu)解。然而，這些方法往往計(jì)算成本較高，且模型的推理過(guò)程難以解釋。

ReasonFlux 采用了一種不同的方法，通過(guò)構(gòu)建結(jié)構(gòu)化的思維模板庫(kù)和設(shè)計(jì)新的層次化強(qiáng)化學(xué)習(xí)算法，實(shí)現(xiàn)了一種更高效和可解釋的推理方式。

傳統(tǒng)的 Inference Scaling 方法，如 Best-of-N 和 MCTS，主要通過(guò)擴(kuò)大搜索空間來(lái)提高準(zhǔn)確率。但隨著問(wèn)題復(fù)雜度的增加，搜索空間呈指數(shù)級(jí)增長(zhǎng)，導(dǎo)致計(jì)算成本顯著上升。

在 ReasonFlux 的推理過(guò)程中，Navigator 與 Inference LLM 之間存在多輪交互。Inference LLM 根據(jù) Navigator 給出的模板軌跡執(zhí)行推理步驟后，Navigator 會(huì)對(duì)執(zhí)行結(jié)果進(jìn)行評(píng)估

。如公式所示，根據(jù)評(píng)估結(jié)果，Navigator 會(huì)動(dòng)態(tài)調(diào)整模板軌跡，例如修改當(dāng)前步驟的模板、添加或刪除步驟等。這種迭代優(yōu)化的機(jī)制使得 ReasonFlux 能夠根據(jù)問(wèn)題的具體情況靈活調(diào)整推理策略，從而提高推理的準(zhǔn)確性和效率。

ReasonFlux 通過(guò)引入結(jié)構(gòu)化的思維模板，將搜索空間從 “原始解空間” 縮小到 “模板空間”，從而降低了搜索的難度和成本。

如果說(shuō)傳統(tǒng)的推理范式是 “大海撈針”，那么 ReasonFlux 則是 “按圖索驥”。這些模板并非簡(jiǎn)單的規(guī)則堆砌，而是經(jīng)過(guò)提煉和結(jié)構(gòu)化處理的知識(shí)模板，它們將復(fù)雜的推理過(guò)程分解為一系列可復(fù)用的步驟，從而提升了推理的效率和準(zhǔn)確率。

圖片

如上圖所示，隨著問(wèn)題難度的提升，Best-of-N 和 MCTS 的探索成本（例如采樣軌跡數(shù)量和迭代次數(shù)）顯著增加，而 ReasonFlux 的探索成本（交互輪數(shù)）則保持在較低水平且相對(duì)穩(wěn)定。這說(shuō)明 ReasonFlux 能夠更高效地利用已有的知識(shí)模板來(lái)解決問(wèn)題，而不需要像 Best-of-N 和 MCTS 那樣進(jìn)行大量的試錯(cuò)和探索。這得益于 ReasonFlux 的結(jié)構(gòu)化模板庫(kù)和模板軌跡規(guī)劃?rùn)C(jī)制，使其能夠在更小的搜索空間內(nèi)找到正確的推理路徑。

四、訓(xùn)練及推理框架介紹

下圖展示了 ReasonFlux 的訓(xùn)練框架，其核心在于利用結(jié)構(gòu)化的思維模板庫(kù)和基于思維模板軌跡獎(jiǎng)勵(lì)的層次化強(qiáng)化學(xué)習(xí)算法，訓(xùn)練出一個(gè)能夠進(jìn)行高效推理的大模型。整個(gè)訓(xùn)練過(guò)程可以分為兩個(gè)主要階段：結(jié)構(gòu)化知識(shí)學(xué)習(xí)和思維模板軌跡優(yōu)化。

1. 結(jié)構(gòu)化知識(shí)學(xué)習(xí)階段：這個(gè)階段的目標(biāo)是讓模型學(xué)習(xí)思維模板庫(kù)中蘊(yùn)含的結(jié)構(gòu)化知識(shí)。這些結(jié)構(gòu)化的 Thought template 格式如下圖所示：

然后，我們利用這些結(jié)構(gòu)化模板數(shù)據(jù)

對(duì)一個(gè)基礎(chǔ) LLM 進(jìn)行微調(diào)，得到模型。訓(xùn)練的目標(biāo)是讓模型能夠根據(jù)模板的名稱和標(biāo)簽，生成對(duì)應(yīng)的描述和適用范圍。通過(guò)這個(gè)階段的訓(xùn)練，模型學(xué)習(xí)到了模板庫(kù)中蘊(yùn)含的豐富知識(shí)，并具備了初步的模板理解和應(yīng)用能力。

2. 模板軌跡優(yōu)化階段：這個(gè)階段的目標(biāo)是訓(xùn)練模型生成有效的模板軌跡，即針對(duì)特定問(wèn)題，選擇合適的模板并進(jìn)行排序，形成解決問(wèn)題的 “路線圖”。我們利用新穎的基于 Thought Template Trajectory 的 Hierarchical RL 算法來(lái)實(shí)現(xiàn)這一目標(biāo)。在這個(gè)階段，我們使用模型針對(duì)輸入問(wèn)題生成多個(gè)候選的 high-level 思維模板軌跡。每個(gè)軌跡由一系列步驟組成，每個(gè)步驟都關(guān)聯(lián)到一個(gè)特定的模板。為了評(píng)估軌跡的質(zhì)量，我們構(gòu)建了一組與輸入問(wèn)題相似的問(wèn)題集。然后，我們利用 inference LLM 根據(jù)模板軌跡對(duì)這些相似問(wèn)題進(jìn)行具體的解答，并計(jì)算平均準(zhǔn)確率作為軌跡的獎(jiǎng)勵(lì)?；谶@個(gè)獎(jiǎng)勵(lì)信號(hào)，我們構(gòu)建了優(yōu)化樣本對(duì)

，其中。然后，我們利用這些樣本對(duì)，通過(guò) DPO 對(duì) 進(jìn)行進(jìn)一步優(yōu)化，得到最終的 navigator 模型，也就是我們的 ReasonFlux 模型。

通過(guò)這兩個(gè)階段的訓(xùn)練，ReasonFlux 模型不僅學(xué)習(xí)到了結(jié)構(gòu)化的模板知識(shí)，還學(xué)會(huì)了如何針對(duì)特定問(wèn)題選擇和組合模板，形成有效的推理路徑。這種能力使得 ReasonFlux 能夠高效地解決各種復(fù)雜的數(shù)學(xué)推理問(wèn)題。

下圖是 ReasonFlux 的推理框架。其核心在于 navigator、inference LLM 和結(jié)構(gòu)化模板庫(kù)之間的多輪交互。這種交互機(jī)制使得 ReasonFlux 能夠根據(jù)問(wèn)題的具體情況靈活調(diào)整推理策略，從而提高推理的準(zhǔn)確性和效率。

以下是 ReasonFlux 的推理流程：

通過(guò)這種 navigator 引導(dǎo)、inference LLM 執(zhí)行、模板庫(kù)支持、動(dòng)態(tài)調(diào)整軌跡的多輪交互機(jī)制，ReasonFlux 能夠高效地解決各種復(fù)雜的數(shù)學(xué)推理問(wèn)題。這種推理框架不僅提高了推理的準(zhǔn)確性和效率，還增強(qiáng)了模型的可解釋性，因?yàn)槲覀兛梢郧逦刈粉櫮Ｐ偷耐评磉^(guò)程和依據(jù)。

五、數(shù)學(xué)推理數(shù)據(jù)集上的表現(xiàn)

小模型媲美大模型，展現(xiàn)未來(lái)應(yīng)用潛力

ReasonFlux 在 MATH、AIME 2024、AMC 2023、OlympiadBench 和 Gaokao En 2023 等多個(gè)具有挑戰(zhàn)性的數(shù)學(xué)推理數(shù)據(jù)集上進(jìn)行了測(cè)試，并取得了良好的結(jié)果。

ReasonFlux-32B 在這些數(shù)據(jù)集上的表現(xiàn)處于前列，與其他先進(jìn)模型相比具有競(jìng)爭(zhēng)力。如下表所示，在 MATH 數(shù)據(jù)集上，ReasonFlux-32B 的準(zhǔn)確率為 91.2%；在 AIME 2024 數(shù)據(jù)集上，ReasonFlux-32B 的準(zhǔn)確率為 56.7%。這些結(jié)果表明 ReasonFlux 框架具有有效性。更重要的是，它表明較小規(guī)模的模型通過(guò)優(yōu)化推理框架，可以達(dá)到甚至在某些情況下超越較大模型的性能。

ReasonFlux 還可用于不同大?。?.5B, 7B 和 32B）的基礎(chǔ)模型，并且都能獲得巨幅的推理效果提升，足見(jiàn)其通用性和泛化性。

ReasonFlux 的成功不僅限于數(shù)學(xué)推理領(lǐng)域，其背后的核心思想 —— 結(jié)構(gòu)化思維模板和模板軌跡 —— 具有廣泛的應(yīng)用潛力。未來(lái)，ReasonFlux 有潛力被應(yīng)用于更多領(lǐng)域，如代碼生成，醫(yī)療診斷，具身智能等多個(gè)領(lǐng)域。

六、作者介紹

楊靈：北大在讀博士，普林斯頓高級(jí)研究助理，研究領(lǐng)域?yàn)榇笳Z(yǔ)言模型和擴(kuò)散模型。

余昭辰：新加坡國(guó)立大學(xué)在讀碩士，北京大學(xué) PKU-DAIR 實(shí)驗(yàn)室科研助理，研究領(lǐng)域?yàn)榇笳Z(yǔ)言模型和擴(kuò)散模型。

崔斌教授：崔斌現(xiàn)為北京大學(xué)計(jì)算機(jī)學(xué)院博雅特聘教授、博士生導(dǎo)師，擔(dān)任計(jì)算機(jī)學(xué)院副院長(zhǎng)、數(shù)據(jù)科學(xué)與工程研究所所長(zhǎng)。他的研究方向包括數(shù)據(jù)庫(kù)系統(tǒng)、大數(shù)據(jù)管理與分析、機(jī)器學(xué)習(xí) / 深度學(xué)習(xí)系統(tǒng)等。

王夢(mèng)迪教授：王夢(mèng)迪現(xiàn)任普林斯頓大學(xué)電子與計(jì)算機(jī)工程系終身教授，并創(chuàng)立并擔(dān)任普林斯頓大學(xué) “AI for Accelerated Invention” 中心的首任主任。她的研究領(lǐng)域涵蓋強(qiáng)化學(xué)習(xí)、可控大模型、優(yōu)化學(xué)習(xí)理論以及 AI for Science 等多個(gè)方向。

本文轉(zhuǎn)載自??機(jī)器之心??

標(biāo)簽
模型
o1預(yù)覽版
DeepSeek V3

贊

收藏

回復(fù)

分享

微博

QQ

微信

舉報(bào)
舉報(bào)

微信掃碼分享

刪除帖子
刪除取消

回復(fù)

相關(guān)推薦

OpenAI o1推理模型基礎(chǔ)入門

51CTO內(nèi)容精選 ? 3600瀏覽 ? 0回復(fù)
普林斯頓大學(xué)提出首個(gè)基于MoE的稀疏時(shí)序預(yù)測(cè)大模型，參數(shù)量擴(kuò)展到2.4billion

海因斯DK ? 5870瀏覽 ? 0回復(fù)
VLM版o1超越一眾開(kāi)源和閉源模型！LLaVA-o1：多階段自主推理（北大&清華&阿里等）

angel ? 4560瀏覽 ? 0回復(fù)
解密o1推理過(guò)程！DeepSeek-R1-Lite預(yù)覽版上線

kede96 ? 4453瀏覽 ? 0回復(fù)
阿里重磅開(kāi)源QwQ-32B：自我思考、糾正，數(shù)學(xué)能力擊敗o1模型

Aceryt ? 9406瀏覽 ? 0回復(fù)
DeepSeek的V3，爆火了

51CTO技術(shù)棧 ? 9215瀏覽 ? 0回復(fù)
Kimik1.5、DeepSeek-V3 大戰(zhàn) OpenAI o1，誰(shuí)能笑到最后？

智駐未來(lái) ? 8076瀏覽 ? 0回復(fù)
s1-32B 模型：超越 o1-preview，一起探索其原因

AI論文解讀 ? 3457瀏覽 ? 0回復(fù)
吳泳銘預(yù)告的旗艦推理模型更了！阿里重磅推出QwQ-Max預(yù)覽版，Agent或成正式版王炸！

51CTO技術(shù)棧 ? 3323瀏覽 ? 0回復(fù)
從推理到編程，詳細(xì)比較DeepSeek 32B、70B、R1實(shí)踐性能

小虎哦哦 ? 1.7w瀏覽 ? 0回復(fù)
沖，DeepSeek-R1/V3推理系統(tǒng)架構(gòu)設(shè)計(jì)被開(kāi)源了！

PaperAgent ? 4151瀏覽 ? 0回復(fù)
綜述：DeepSeek Infra/V1/MoE/V2/V3/R1 & 開(kāi)源關(guān)鍵技術(shù)

amei2000go ? 1.1w瀏覽 ? 0回復(fù)
DeepSeek開(kāi)源新版V3，再次震驚國(guó)外

Aceryt ? 3186瀏覽 ? 0回復(fù)
從FP8到安全張量，DeepSeek?V3?0324 重塑大模型生態(tài)的秘密武器

xuxiangda ? 4522瀏覽 ? 0回復(fù)
32B參數(shù)模型硬剛GPT-4o，性能驚艷

Halo咯咯 ? 5365瀏覽 ? 0回復(fù)
國(guó)產(chǎn)大模型崛起！智譜發(fā)布GLM-4-32B-0414系列模型，以32B模型參數(shù)比肩GPT-4o和DeepSeek V3/R1

AIGCStudio ? 4345瀏覽 ? 0回復(fù)
剛剛，Qwen3強(qiáng)勢(shì)登頂，成開(kāi)源新王！國(guó)內(nèi)首個(gè)混合推理模型，235B擊敗R1、o1!源神火力全開(kāi)

51CTO技術(shù)棧 ? 3877瀏覽 ? 0回復(fù)
全球首個(gè)去中心化訓(xùn)練的32B參數(shù)大模型：INTELLECT-2如何重塑AI訓(xùn)練范式

頓數(shù)AI ? 3822瀏覽 ? 0回復(fù)
小模型，大推理：MBZUAI 開(kāi)源 K2 Think，32B 模型超越超大體量對(duì)手

Halo咯咯 ? 3482瀏覽 ? 0回復(fù)

輕薄滴假象

這個(gè)用戶很懶，還沒(méi)有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

DeepSeek一口氣開(kāi)源3個(gè)項(xiàng)目，還有梁文鋒親自參與，昨晚API大降價(jià) 2025-02-27 12:40:06發(fā)布
全球首個(gè)AI CUDA工程師來(lái)了！將PyTorch原生實(shí)現(xiàn)提速10-100倍 2025-02-21 13:20:31發(fā)布

熱門推薦

用 Cognee 構(gòu)建端到端知識(shí)圖譜，實(shí)現(xiàn)當(dāng)前效果最好的AI Agent記憶層 0回復(fù)
Spring AI Alibaba：Java 后端接入大模型，終于不用羨慕 Python 了！ 0回復(fù)
小模型，大能量：阿里巴巴 Qwen3-VL 4B/8B，重新定義多模態(tài)輕量化邊界 0回復(fù)
2025 年最強(qiáng) OCR 大比拼：從識(shí)別文本到文檔智能，誰(shuí)才是終極解法？ 0回復(fù)
馬斯克新模型屠榜，包攬前二！馬斯克：已經(jīng)沒(méi)有真正能考AI的測(cè)試題了，終極測(cè)試是現(xiàn)實(shí)世界 0回復(fù)

上一篇： ECCV 2024 | 探索離散Token視覺(jué)生成中的自適應(yīng)推理策略

下一篇： DeepSeek R1不編程就能生成GPU內(nèi)核，比熟練工程師好，驚到了英偉達(dá)

社區(qū)精華內(nèi)容

目錄

Copyright ? 2005-2025 51CTO.COM 京ICP證060544版權(quán)所有未經(jīng)許可請(qǐng)勿轉(zhuǎn)載

客服

感谢您访问我们的网站，您可能还对以下资源感兴趣：
免费观看国产视频

国产伦视频一区二区三区| 欧美日韩成人网| 日本999视频| 男人天堂久久久| 成人小视频免费在线观看| 777777777亚洲妇女| 污污视频网站在线免费观看| 欧美日韩国产一区二区在线观看| 精品国产老师黑色丝袜高跟鞋| 欧美在线一二三区| www.国产欧美| 日韩精品免费视频人成| 欧美日韩国产999| 黄色激情在线观看| 美女福利一区二区| 夜夜嗨av一区二区三区网页| 欧美色图亚洲自拍| 国产99对白在线播放| 三级欧美韩日大片在线看| 九九精品视频在线| 大胸美女被爆操| 国产一区福利| 欧美一卡二卡在线| 狠狠热免费视频| 鲁鲁在线中文| 一区二区三区四区激情| 亚洲v国产v在线观看| 天堂在线视频网站| 精品影视av免费| 国产成人高潮免费观看精品| 久草免费在线视频观看| 欧美激情欧美| 亚洲香蕉伊综合在人在线视看| 乱码一区二区三区| 国产一区二区av在线| 欧美制服丝袜第一页| 国产精品无码一区二区在线| jizz性欧美| 国产精品久久久久影院老司| 日本精品一区二区三区视频| 性感美女一级片| 成人免费观看视频| 岛国视频一区| 国产喷水福利在线视频| 免费成人小视频| 国产精品第一第二| 自拍偷拍校园春色| 蜜桃视频一区| 日本欧美国产在线| 成人在线免费看视频| 国产欧美丝祙| 欧美有码在线观看| 国产九色在线播放九色| 一区二区三区成人精品| 97超级碰在线看视频免费在线看 | 少妇人妻在线视频| 欧美另类tv| 亚洲综合视频在线观看| 国产乱子伦精品视频| 中文字幕中文字幕在线十八区 | 国产精品夜夜嗨| 亚洲bt欧美bt日本bt| 91成品人影院| 国产精品自产自拍| 99在线观看视频网站| 亚洲精品一区二区三区区别| 丁香另类激情小说| 国内精品久久久久久久果冻传媒| 天堂中文在线官网| 91在线一区二区| 欧美性大战久久久久| 国产高清免费在线播放| 亚洲欧洲一区二区在线播放| 中国免费 av| 国内在线免费视频| 天天综合天天综合色| 免费日韩视频在线观看| 97成人超碰| 欧美电影影音先锋| 91九色蝌蚪porny| 日韩精品欧美大片| 神马久久久久久| 青青草成人免费| 日韩午夜免费| 国产精品第三页| 国产偷人妻精品一区二区在线| 丁香激情综合国产| 日本一区二区三区免费看| 18免费在线视频| 伊人夜夜躁av伊人久久| 青青艹视频在线| 福利一区二区三区视频在线观看| 91精品免费观看| 无码任你躁久久久久久老妇| 一区三区在线欧| xvideos亚洲人网站| 精品视频一区二区在线观看| 国产精品乱看| 国产在线播放91| 免费国产羞羞网站视频| 国产精品无码永久免费888| 精品嫩模一区二区三区| 91av亚洲| 日韩一区二区三区四区五区六区| 精品国产一区在线| 99久久精品费精品国产| 久久欧美在线电影| 亚洲一线在线观看| 91网站在线观看视频| 亚洲午夜精品国产| 欧美aa免费在线| 欧美一区二区三区日韩| 在线观看日本中文字幕| 韩国欧美一区| 国产精品福利在线| 欧美视频久久久| 国产精品久久久久久久第一福利 | 久久三级福利| 成人18视频| 在线观看完整版免费| 欧美日韩一区二区精品| 免费在线观看日韩av| 日韩欧美一区二区三区免费看| 97视频在线免费观看| 国产美女精品视频国产| 日本一二三不卡| 成熟了的熟妇毛茸茸| 日韩08精品| 久久精品一偷一偷国产| 乱子伦一区二区三区| 97久久精品人人做人人爽50路| 日本黄xxxxxxxxx100| 97精品国产综合久久久动漫日韩| 亚洲美女av在线播放| 国产污视频在线观看| 国产精品中文字幕欧美| 亚洲欧洲一区二区在线观看| 在线免费看h| 亚洲国产天堂网精品网站| 精品99久久久久成人网站免费| 麻豆精品精品国产自在97香蕉 | 亚洲精品在线网址| 日韩伦理一区| 国产精品美女久久久久av超清| 欧美日韩在线精品一区二区三区激情综| 亚洲午夜精品网| 成人一区二区三区仙踪林| 亚洲区综合中文字幕日日| 国产精品视频区1| 999在线视频| 欧美日韩一区视频| 在线免费看视频| 久久99精品久久久| 黄色网络在线观看| 天天免费亚洲黑人免费| 亚洲一区999| 国产91av在线播放| 国产精品久久综合| 久久久久久久久久久久久久久国产 | 99精彩视频在线观看免费| 成人av免费| 日韩欧美不卡一区| 日本免费一二三区| 97国产一区二区| 成人免费视频久久| 91视频综合| 91成人免费视频| 国产羞羞视频在线播放| 亚洲国内高清视频| 无码一区二区三区| 中文字幕国产一区| 天天综合天天添夜夜添狠狠添| 亚洲国产一区二区在线观看| 99理论电影网| 九九色在线视频| 国产婷婷成人久久av免费高清| 亚洲精品中文字幕乱码三区91| 国产日产欧美精品一区二区三区| 蜜臀av免费观看| 亚洲视频在线免费| 久久大香伊蕉在人线观看热2| 欧洲av不卡| 久久好看免费视频| 内射后入在线观看一区| 一道本成人在线| 情侣偷拍对白清晰饥渴难耐| 国产成人在线免费| 黑鬼大战白妞高潮喷白浆| 国产精品成人一区二区不卡| 国产精品一区二区不卡视频| 日韩欧美另类一区二区| 久久精品在线视频| 污污网站免费在线观看| 欧美美女一区二区| 日本va欧美va国产激情| 国产精品第四页| 精品一区二区视频在线观看| 美女视频第一区二区三区免费观看网站| 国产精品久久成人免费观看| 日韩美女毛片| 97操在线视频| 成人在线不卡| 97人洗澡人人免费公开视频碰碰碰| 国产精品二线| 日韩电影大全免费观看2023年上| 亚洲在线精品视频| 午夜精品久久久久久| 午夜激情福利电影| 久久综合九色欧美综合狠狠| 久久久久久久久久毛片| 视频一区二区三区在线| 国产欧美日韩小视频| 国产精品久久久久无码av| 美女精品国产| 高潮按摩久久久久久av免费| 国产色综合天天综合网 | 青梅竹马是消防员在线| 日韩欧美在线综合网| 中文字幕理论片| 狠狠色狠色综合曰曰| 国产无套内射又大又猛又粗又爽| 综合中文字幕亚洲| 手机看片日韩av| 91天堂素人约啪| 午夜福利三级理论电影| 国产原创一区二区三区| 亚欧激情乱码久久久久久久久| 午夜综合激情| 少妇人妻在线视频| 亚洲大胆av| 成人免费看片'免费看| 国产精品久久天天影视| 亚洲v国产v| 日韩欧美精品一区| 日韩妆和欧美的一区二区| 亚洲国产网址| 久久精品日韩精品| 亲子伦视频一区二区三区| 国产精品青青草| 91亚洲精品视频在线观看| 成人av片网址| 色悠久久久久综合先锋影音下载| 91免费欧美精品| 一级欧美视频| 成人写真福利网| 疯狂欧洲av久久成人av电影| 成人激情在线播放| 99久久这里有精品| 成人性生交大片免费看视频直播| 欧美成人三级| 国产中文日韩欧美| 成人国产精品久久| 超碰97在线资源| 欧美精品国产白浆久久久久| 久99久在线| 亚洲香蕉视频| 亚洲高清精品中出| 久久精品亚洲人成影院| 日本中文字幕一级片| 亚洲黄色毛片| 日韩一级免费在线观看| 捆绑紧缚一区二区三区视频| 一起操在线视频| 国内精品不卡在线| 国产清纯白嫩初高中在线观看性色| caoporn国产一区二区| 黄瓜视频污在线观看| 国产三区在线成人av| 精品伦精品一区二区三区视频密桃| 亚洲欧美在线观看| 精品小视频在线观看| 色综合久久久久综合体 | 亚洲第一区在线观看| 你懂的在线视频| 中文字幕亚洲精品| www久久日com| 欧美一二三视频| 国产精品久久久久久妇女| 999在线免费观看视频| 网曝91综合精品门事件在线| 亚洲欧洲精品在线| 国语自产精品视频在线看8查询8| 国产精品沙发午睡系列| 蜜桃一区二区三区在线| zjzjzjzjzj亚洲女人| 国产网红主播福利一区二区| 男女做暖暖视频| 日韩欧美在线看| www.激情五月| 亚洲美女又黄又爽在线观看| 成人午夜在线影视| 欧亚精品中文字幕| 久久的色偷偷| 美日韩免费视频| 综合久久99| 欧美日韩怡红院| 成人性生交大片免费看视频在线| av黄色在线免费观看| 亚洲自拍偷拍网站| 中文字幕在线网址| 日韩成人小视频| 91精品久久| 国产精品欧美一区二区三区奶水| 成人性生交大片免费看96| 亚洲欧洲免费无码| 国产精品丝袜xxxxxxx| 毛片毛片毛片毛片毛| 久久久99精品久久| 国产精彩视频在线观看| 555www色欧美视频| 蜜桃免费在线| 97在线精品视频| 91综合久久爱com| 综合视频在线观看| 天堂成人国产精品一区| 人妻互换一二三区激情视频| 国产精品久久久久影院老司| 无码人妻一区二区三区线| 亚洲国产精品999| 韩国日本一区| 91福利视频导航| 希岛爱理av一区二区三区| 妞干网在线免费视频| 成人国产亚洲欧美成人综合网| 久久国产波多野结衣| 欧美色视频在线观看| 欧美视频免费一区二区三区| 国模极品一区二区三区| 一区二区三区视频免费视频观看网站 | 亚洲精品中文在线| 一区二区三区www污污污网站| 亚洲免费视频在线观看| 国产高清自产拍av在线| 国产福利一区二区三区在线观看| 这里只有精品在线| 青青草精品在线| 日韩毛片精品高清免费| 91麻豆国产在线| 色婷婷**av毛片一区| 国产精品久久久久久妇女| 日本成人黄色免费看| 日本在线播放一区二区三区| 欧美aaa级片| 欧美日韩www| 黄页视频在线播放| 亚洲伊人久久大香线蕉av| 永久91嫩草亚洲精品人人| 久久综合在线观看| 一区二区三区在线观看网站| 精品人妻一区二区三区麻豆91| 欧美夫妻性生活xx| 国产精品久久久久久久久久白浆| 免费看黄在线看| 99re在线精品| 一级黄色在线视频| 中文字幕综合一区| 国产va免费精品观看精品| 激情图片qvod| 国产99久久精品| 亚洲视频免费播放| 亚洲性av网站| 日韩电影免费观看高清完整版在线观看| 自拍另类欧美| 国产成人免费视频一区| 国产精品美女毛片真酒店| 亚洲精品有码在线| 欧美黄页在线免费观看| 妺妺窝人体色www看人体| 99热99精品| 中文区中文字幕免费看| 精品国产欧美成人夜夜嗨| 97视频一区| 免费男同深夜夜行网站| 最新久久zyz资源站| 女人18毛片一区二区三区| 欧美一区二区三区图| 日韩一区二区在线免费| 激情小说欧美色图| 欧美性69xxxx肥| 亚洲免费视频一区二区三区| 成人av影视在线| 老司机午夜精品视频在线观看| 日韩欧美国产成人精品免费| 欧美精品一区二区三区视频| 日本欧美韩国| 大片在线观看网站免费收看| 2023国产精品自拍| 91亚洲精品国偷拍自产在线观看| 孩xxxx性bbbb欧美| 不卡一区综合视频| 中文字幕人妻一区| 欧美在线影院一区二区| 91禁在线看| 正义之心1992免费观看全集完整版| 成人三级伦理片| 亚洲无码精品在线播放| 欧美一区第一页| 欧美成人69av| 91无套直看片红桃在线观看| 亚洲国产精品一区二区久|