微軟發(fā)布Phi-4-mini“閃推版”:10倍吞吐,只用38億參數(shù),干翻76B大模型
微軟推出了一款名為 Phi-4-mini-flash-reasoning 的全新輕量級人工智能模型。
據(jù)說,這款模型專為計(jì)算、內(nèi)存或延遲受限的場景量身打造。其目標(biāo)是在不依賴強(qiáng)大硬件的情況下,提供卓越的推理能力。
該模型構(gòu)建于微軟去年十二月推出的Phi-4家族基礎(chǔ)之上,參數(shù)規(guī)模達(dá)到38億。模型重點(diǎn),則聚焦于提升數(shù)學(xué)推理方面的能力。
Phi-4-mini-flash-reasoning 直接帶來了性能的巨大飛躍。微軟方面表示,它實(shí)現(xiàn)了高達(dá)十倍的吞吐量提升。與其前代模型相比,新模型的平均延遲降低了二至三倍。
圖片
圖注:標(biāo)準(zhǔn)推理與 flash 推理的延遲與吞吐量對比,flash 在相同延遲下實(shí)現(xiàn)了 10 倍的吞吐量。Flash 推理在保持相同延遲響應(yīng)的同時(shí),將吞吐量提高了十倍。圖源微軟
需要指出的是,這些測試結(jié)果基于工業(yè)級GPU,而非模型所針對的低資源設(shè)備。即便如此,這一成績也預(yù)示了其在目標(biāo)設(shè)備上的巨大潛力。
Phi-4-mini-flash-reasoning在處理長上下文方面同樣表現(xiàn)出色。該模型支持高達(dá) 64,000個(gè) token 的上下文窗口。即使在處理達(dá)到容量上限的長序列時(shí),它也能保持其速度和性能。
架構(gòu)革新:“閃推”機(jī)制源自SambaY與GMU

微軟將此歸功于SambaY設(shè)計(jì)的高效率。SambaY架構(gòu)確保了處理速度的穩(wěn)定,即便序列長度不斷增加。
SambaY架構(gòu)引入了門控內(nèi)存單元(GMU)和“差分注意力”機(jī)制,構(gòu)成了其技術(shù)基石。
傳統(tǒng)的Transformer模型每一層都依賴復(fù)雜的注意力機(jī)制來判斷輸入內(nèi)容的重要性。而門控內(nèi)存單元(GMU)通過一種簡化的方式,徹底改變了這一流程。
它用簡單的逐元素乘法操作,替代了計(jì)算量巨大的交叉注意力運(yùn)算。這種乘法運(yùn)算在當(dāng)前輸入和前一層記憶狀態(tài)之間進(jìn)行。使得模型能夠動態(tài)地重新校準(zhǔn)需要關(guān)注的token,且無需承擔(dān)常規(guī)的計(jì)算開銷。
圖片
圖注:Phi-4-mini-flash-reasoning 在處理 32,000 個(gè) token 時(shí)的延遲遠(yuǎn)低于標(biāo)準(zhǔn)推理模型,突顯了 flash 方法的高效性。圖源微軟
SambaY 實(shí)際上混合了多種注意力機(jī)制,形成一種高效的混合解碼器架構(gòu)。模型中只有一個(gè)全注意力層,負(fù)責(zé)創(chuàng)建一個(gè)鍵值緩存(key-value cache)。后續(xù)的層級可以直接訪問這個(gè)共享的鍵值緩存。而門控內(nèi)存單元(GMU)則取代了大約一半的交叉注意力層。
這些層級通過輕量級的乘法運(yùn)算共享信息,大幅降低了計(jì)算復(fù)雜度,這種獨(dú)特的設(shè)計(jì)顯著削減了內(nèi)存使用和計(jì)算需求。
在傳統(tǒng)模型中,隨著序列長度的增加,內(nèi)存與處理器之間的數(shù)據(jù)傳輸量會急劇攀升。但在SambaY架構(gòu)下,即使序列長度增加,數(shù)據(jù)傳輸量也基本保持平穩(wěn)。
超越基準(zhǔn):卓越的推理能力
圖片
論文地址:https://arxiv.org/abs/2507.06607v1 圖源微軟
新模型的“flash”版本在各項(xiàng)基準(zhǔn)測試中脫穎而出。Phi-4-mini-flash-reasoning的訓(xùn)練使用了與Phi-4-mini相同的五萬億token數(shù)據(jù)集。
訓(xùn)練數(shù)據(jù)中包含了大量為提升推理能力而生成的合成數(shù)據(jù)。整個(gè)訓(xùn)練過程動用了1000塊A100 GPU,持續(xù)了14天。
圖片
在后續(xù)的測試中,它持續(xù)擊敗了作為基礎(chǔ)模型的Phi-4-mini。尤其在知識密集型和編程任務(wù)上,性能提升了數(shù)個(gè)百分點(diǎn)。
該模型在數(shù)學(xué)和科學(xué)推理方面的表現(xiàn)也更為優(yōu)異。值得注意的是,它是在沒有采用資源密集型強(qiáng)化學(xué)習(xí)步驟的情況下,取得了這些成就。
此前的模型版本通常需要依賴強(qiáng)化學(xué)習(xí)進(jìn)行微調(diào)。在部分基準(zhǔn)測試中,Phi-4-mini-flash-reasoning的表現(xiàn)甚至超越了規(guī)模是其兩倍的大型模型。
這證明了其架構(gòu)的卓越效率,能夠以更小的規(guī)模實(shí)現(xiàn)更強(qiáng)的能力。
微軟已經(jīng)將Phi-4-mini-flash-reasoning模型在Hugging Face平臺上提供。同時(shí),微軟在Phi Cookbook中發(fā)布了相關(guān)的代碼示例。完整的訓(xùn)練代碼庫也已在GitHub上開源。
抱抱臉:https://huggingface.co/microsoft/phi-4-mini-flash-reasoning
Phi Cookbook:https://github.com/microsoft/PhiCookBook





































