VLM 實現 10%的精度提高,13.1倍加速!紐約大學新算法讓視覺語言模型更小、更快、更準確
紐約大學的研究團隊通過QSVD的新方法,讓視覺語言模型(VLM)實現了驚人的效率飛躍,在普通GPU上獲得了高達13.1倍的運行速度提升。

視覺語言模型是人工智能領域的一項杰出成就,它賦予了AI像人一樣同時理解圖像和文字的能力。
無論是讓AI看圖說話,進行生動的圖像描述,還是回答關于一張圖片內容的復雜問題,這些都離不開VLM的核心支持。
它就像是連接視覺世界和語言世界的橋梁,在醫療診斷、在線教育、互動娛樂等眾多領域展現出巨大的應用潛力。
然而,這種強大的能力背后,是巨大的計算代價。
VLM需要吞噬海量的數據,處理高維度的視覺與文本信息,這導致其模型體積龐大,內存占用極高,計算過程緩慢。
尤其是在模型進行推理,也就是生成答案或描述時,一個名為鍵值緩存(KV Cache)的機制會急劇消耗內存帶寬,成為拖慢整體速度的主要瓶頸。
這種高昂的硬件成本,極大地限制了VLM在普通設備,特別是手機、筆記本電腦等資源受限環境中的部署和應用。
為了讓這項技術真正走進千家萬戶,科學家們必須為這頭巨獸瘦身減負,在不犧牲其智慧的前提下,讓它變得更輕、更快。
奇思妙想:將Q、K、V三個矩陣捆綁處理
過去,研究者們嘗試了各種方法來壓縮模型,比如分組查詢注意力或多查詢注意力,思路主要是減少計算中的某些環節。
最近,DeepSeek-v3模型提出的多頭潛在注意力(MLA)提供了一個新穎的視角,它通過將KV緩存壓縮成更小的潛在向量,顯著提升了推理效率。
受到MLA的啟發,紐約大學的研究者們提出了一個更大膽的想法。
在VLM的核心組件多頭注意力(Multi-Head Attention)模塊中,輸入的信息會通過三個獨立的權重矩陣,分別變換成查詢(Query, Q)、鍵(Key, K)和值(Value, V)。
這三個元素是注意力機制的關鍵,決定了模型在處理信息時應該關注什么。
傳統的優化方法,通常是獨立地去壓縮處理Q、K、V各自的權重矩陣。這就像是三個獨立的優化任務,分別對三個部件進行改造。
而QSVD的核心創新在于,它不再將這三者分開看待。
研究團隊將原本獨立的三個大小為E×E的權重矩陣WQ、WK、WV,在邏輯上拼接成一個更寬的、大小為E×3E的聯合矩陣Wconcat。
然后,他們對這個拼接后的超級矩陣進行一次統一的奇異值分解(Singular Value Decomposition, SVD)。

SVD是一種經典的矩陣分解技術,可以理解為一種精密的數據壓縮手術。
它能將一個復雜的矩陣,分解為幾個更簡單、更小的矩陣相乘的形式,并自動找出原矩陣中最重要的特征信息,用一個對角矩陣中的奇異值來表示其重要性,數值越大的奇異值越重要。
通過保留那些最重要的奇異值,就可以用幾個小得多的矩陣來近似模擬原來的大矩陣,從而實現壓縮。
QSVD的這一步操作,帶來了立竿見影的好處。

在原始模型中(a, d),輸入數據X需要分別和WQ、WK、WV做三次矩陣乘法,計算成本高。同時,生成的KV緩存直接存儲完整的K和V向量,內存占用大。
如果像之前的方法那樣,分別對WQ、WK、WV做SVD(圖b, e),雖然也能壓縮權重,但在計算時,輸入X還是要分別和兩個不同的下投影矩陣相乘,生成兩個中間結果Ck和Cv并緩存起來。
而QSVD的方法(圖c, f)則優雅得多。
輸入X只需要和那個共享的下投影矩陣相乘一次,就能得到一個統一的中間結果。
結果在權重參數量、計算開銷(浮點運算次數FLOPs)和最關鍵的KV緩存大小這三個方面,都實現了顯著的降低。
為每個奇異值打出重要性得分
聯合SVD提供了一把鋒利的手術刀,但如何下刀,切除多少,才能既切除冗余,又不傷及模型的智慧,這是一個核心挑戰。
這個度的把握,就是如何為模型中所有注意力層的聯合矩陣,確定一個最優的截斷秩(rank)。
簡單粗暴地為所有層設置一個統一的秩,或者沿用過去基于費雪信息(Fisher Information)的分配方法,效果并不理想。
QSVD為此設計了一套更精細、更高效的秩分配策略。其核心思想是,直接量化每一個奇異值對模型最終準確率的貢獻度。
我們知道,一個矩陣的SVD分解可以看作是多個單秩分量的加和,每個分量由一個奇異值和其對應的左右奇異向量構成。截斷一個奇異值,就等于從原矩陣中移除了它所代表的那部分信息。
這個移除操作,必然會引起模型最終輸出的變化,從而導致訓練損失(Training Loss)的增加。QSVD的目標,就是找到那些移除后對損失函數影響最小的奇異值,將它們截斷。
首先對模型所有注意力層的QKV權重進行聯合SVD分解,得到所有的奇異值。
接著使用一小部分校準數據集(例如從ScienceQA中抽取256個樣本),計算出每一個奇異值對應的重要性評分。
然后QSVD執行一個關鍵的全局排序。它不再局限于單個注意力層,而是將模型中所有層的、所有奇異值放在一起,根據它們的重要性評分進行一個總排名。
最后設定一個總的秩預算k,只保留全局排名前k的那些最重要的奇異值,無論它們來自哪一層。其余的奇異值全部被截斷(設為0)。
這種全局最優的分配策略,確保了有限的秩資源被用在了刀刃上,保留了對模型性能最關鍵的組件,從而在最大化壓縮率的同時,將精度損失降到最低。
極致壓縮:為低秩模型引入可控的量化方案
經過聯合SVD和智慧秩分配,VLM已經變得苗條了許多。但QSVD的目標是極致的效率,于是它引入了量化(Quantization)。
量化,就是將模型中用高精度浮點數(如FP16)表示的權重和激活值,轉換為低精度的整數(如INT8甚至INT4)來存儲和計算。這能大幅減少內存占用和計算延遲,因為整數運算比浮點運算快得多。
然而,量化也是一把雙刃劍。這個過程必然會帶來精度損失,就像把3.14159近似成3一樣。特別是當數據分布中存在一些極端的大數值,即異常值(Outliers)時,量化誤差會急劇放大,嚴重損害模型性能。
研究者們分析了LLaVA-v1.5 13B模型的內部數據,發現無論是在注意力模塊還是前饋網絡中,輸入激活值X都存在非常嚴重的通道級異常值。
直接對這樣的數據進行量化,后果不堪設想。
為了解決這個問題,學術界已經有了一些成熟的方法,比如通過引入一個正交矩陣H進行旋轉,來平滑異常值的分布,同時保持模型的數學計算等價性。
但QSVD面對的情況更復雜,因為它的注意力架構已經被SVD改造過了。研究者們為此開發了一種與低秩SVD框架深度融合的量化方法。
最終,QSVD的量化方案,通過引入兩個正交矩陣H1和H2,以及一個可學習的參數β,成功地馴服了低秩VLM中的異常值,實現了從輸入、權重到中間結果的全鏈路低精度計算。
這使得模型在享受SVD帶來的結構性優化的同時,還能獲得量化帶來的存儲和計算雙重紅利,從而達到極致的硬件效率。
更低的成本,更高的精度
研究團隊在LLaVA-v1.5、LLaVA-Next和SmolVLM等多個主流視覺語言模型上,對QSVD進行了全面的評估。
為了公平對比,他們將QSVD與當前頂尖的SVD方法(如ASVD, SVD-LLM)和量化方法(如QuaRot, DuQuant, QVLM)進行了同臺競技。
評價的維度非常清晰:在相似甚至更低的硬件成本(用權重/計算壓縮率R1和KV緩存壓縮率R2來衡量)下,誰能保持更高的模型準確率。
首先,來看一下僅使用SVD壓縮(表示為QSVD-noQ)的效果。

QSVD-noQ的表現堪稱驚艷。在所有測試模型和數據集上,它都以最低的硬件成本,取得了超越ASVD和SVD-LLM的準確率。
在LLaVA-v1.5 13B模型上,QSVD-noQ在ScienceQA-IMG數據集上的準確率損失不到1%,幾乎與未壓縮的FP16模型持平。
在VizWiz數據集上,它甚至以46.7%的權重和17.5%的緩存,取得了超越原始模型2%的準確率。
這可能意味著低秩近似在某種程度上起到了正則化作用,有效地抑制了模型的幻覺(Hallucination)現象,讓回答更準確。
接下來,是SVD與量化雙管齊下的完整版QSVD的表演。

在W8A8(8位權重和8位激活)的溫和量化設置下,QSVD在大多數情況下都輕松勝出。
在LLaVA-1.5 13B這樣的大模型上,它幾乎達到了FP16基線的精度,而此時QKV的權重和計算量已經減半,KV緩存更是只有原始大小的18.75%。
當挑戰升級到W4A4的極限壓縮設置時,差距被進一步拉大。
其他方法,特別是QASVD,性能急劇下降,甚至完全失效(準確率變為0)。而QSVD依然堅挺,在所有模型上都保持了最高的性能,同時硬件成本依舊是最低的。
這些數據雄辯地證明了QSVD框架的先進性,它不僅僅是SVD和量化的簡單疊加,而是二者深度融合、協同優化的結晶。
最后,是延遲的實測。
研究者們在一臺配備12GB顯存的NVIDIA RTX 4070 GPU上測試了LLaVA-v1.5 7B模型的推理延遲,這代表了典型的消費級硬件環境。
結果令人振奮。由于顯存有限,原始的FP16模型和僅經過SVD壓縮的QSVD-noQ模型,都需要將一部分數據卸載到CPU內存中,導致速度緩慢。
即便如此,QSVD-noQ因為數據移動量更少,也實現了比基線最高2.1倍的加速。
而當應用了W8A8量化的完整版QSVD登場時,情況發生了質變。
由于模型和緩存被極致壓縮,它完全不需要CPU卸載,所有計算都在GPU上飛速完成,最終實現了高達13.1倍的驚人加速。
這意味著,曾經需要在昂貴服務器上才能流暢運行的大型視覺AI,現在有了在普通家用電腦甚至未來在移動設備上高效部署的可能。
QSVD通過其統一的QKV權重處理、智慧的秩分配策略和與低秩框架深度綁定的量化方案,為高成本的視覺語言模型指出了一條清晰的平民化之路。
這項工作為強大AI技術的普及和應用,掃清了一大障礙。


































