北大提出首個復數大模型,2比特量化,推理僅加法,可手機部署!
首個復數大模型!北大提出2比特超低比特量化算法。
現如今,大模型在推理時通常都非常耗存儲和計算,這是因為權重采用FP16存儲,占用空間大。
北大團隊首次提出iFairy方案,把模型權重量化到復數集合 {+1, -1, +i, -i}。

這四個值剛好可以用2比特表示,相當于壓縮到原本的1/8。
推理時,復數與{±1,±i}相乘,不需要真正做乘法,只需加減或交換數據位置,計算成本更低。
研究團隊還將整個Transformer架構都進行了“復數化”改造。
結果顯示,iFairy模型取得了比全精度(FP16)LLaMA基座模型更低的困惑度(PPL),降幅高達10%,語言建模能力和下游任務表現反超其全精度的LLaMA基座模型,讓GPT-5這樣的大模型也有在手機上運行的可能。

目前,相關論文及代碼全面開源,人人都能復現訓練。
研究核心:模型體積壓縮與全新量化算法PhaseQuant
為追求更高的模型性能,業界普遍做法是不斷堆疊參數量,模型部署成本高昂。
同時,龐大的參數量帶來了計算量的激增,盡管學界和業界已涌現出如gpt-oss的MXFP4訓練等優秀的量化方案,但其核心計算邏輯依然沒有消除對硬件資源消耗巨大的“乘法”運算的依賴,推理延遲沒有實現根本性的降低。
北大團隊的iFairy超低比特量化方案為此破局。
模型體積極致壓縮,僅為原1/8
在“空間”上,iFairy實現了極致的壓縮。
傳統的全精度(FP16)權重需要16比特,而iFairy方案僅用2比特,就完成了對一個權重信息的編碼。
這意味著,相較于流行的FP16模型,其模型體積可以直接壓縮至原來的1/8。這種極致的壓縮率,為大模型在手機、汽車等邊緣設備上的部署掃清了存儲障礙。
PhaseQuant實現“無乘法”計算
在“時間”上,團隊提出全新量化算法PhaseQuant,iFairy實現“無乘法”計算。
PhaseQuant算法
這一切,都源于團隊提出的全新量化算法PhaseQuant。它不再將權重映射到實數軸上的點,而是基于參數的相位將其映射到復平面上的四個單位根{+1, -1, +i, -i}。

△PhaseQuant量化算法示意圖
這一操作一舉多得:
- 信息密度:用 {+1, -1, +i, -i}四個值,徹底利用了2-bit的全部信息容量,信息熵從傳統三元量化(如BitNet b1.58)的log?(3)≈1.58-bit,提升到滿格的log?(4)=2-bit。
- 對稱性:這四個點在復平面上關于原點中心對稱,保持了模型訓練所需的良好性質。
- 稀疏性:每個量化后的復數權重,其實部或虛部必有一個為零,這在高維度上保留了稀疏性的優勢。
“無乘法”運算
一個標準的復數乘法(a+ib)(c+id)需要4次實數乘法和2次加法,計算量不小。
但在iFairy模型中,當一個復數激活值與量化后的權重{±1, ±i}相乘時,運算發生變化:所有乘法都消失了。

△超低比特復數運算規則
整個模型中最核心、最龐大的矩陣乘法(GEMM),被徹底重構。
原本昂貴的浮點乘法運算,被完全替換為硬件成本幾乎為零的加法、減法和數據交換(shuffle)操作。這從根本上消除了計算瓶頸,為實現數量級的推理加速提供了可能。
架構革新:一個全面“復數化”的Transformer
研究團隊還將整個Transformer架構都進行了“復數化”改造。

△Fairy±i模型主干
復數注意力機制:傳統注意力計算Q和K的點積,這里則巧妙地使用了Hermitian內積的實部作為相似度分數,既利用了所有復數信息,又自然地得到了實數分數用于Softmax。

復數旋轉位置編碼(RoPE):在復數域,位置編碼的旋轉操作變得異常簡潔和統一,一個簡單的復數乘法即可實現。

性能表現:PPL降低10%,性能反超全精度
結果顯示,iFairy不僅沒有出現超低比特量化常見的性能懸崖,反而實現了性能反超。
在LLM的語言建模能力方面,模型的困惑度(PPL)越低,代表模型對文本的理解和預測能力越強。在對PPL的測試中,基于相同數據集訓練(注:為保證對比的嚴謹性,所有對比模型的訓練數據均保持一致,具體信息可參見論文)的2-bit的iFairy模型取得了比全精度(FP16)模型更低的困惑度(PPL),降幅高達10%。

△iFairy PPL評測結果
在下游任務評測方面,iFairy模型更是在多個任務的評分反超了全精度的Llama基座模型。

△iFairy 下游任務評測結果(zero-shot)
對量化后權重的分析還發現,模型在訓練后,這四個復數值{±1, ±i}的分布非常均勻,證明模型確實學會了充分利用這套全新的“編碼系統”。

△左為iFairy模型k_proj的參數分布,右為iFairy模型o_proj的參數分布
這項工作將復數神經網絡的思想與超低比特量化相結合,通過利用“相位”這一被忽略的信息維度,在不增加任何存儲成本的前提下,顯著提升了模型的表達能力和最終性能。
或許,我們離在普通手機上流暢運行GPT-5級別的模型,又近了一步。相關論文、訓練代碼、模型權重與實驗腳本已全部開源,配套提供從訓練、評測到可復現實驗的完整流程,人人皆可復現訓練。
論文鏈接:https://arxiv.org/pdf/2508.05571
huggingface鏈接:
https://huggingface.co/PKU-DS-LAB/Fairy-plus-minus-i-700M,https://huggingface.co/PKU-DS-LAB/Fairy-plus-minus-i-1.3B
github鏈接:https://github.com/PKULab1806/Fairy-plus-minus-i



































