LFM2-VL-3B:源自生物學靈感的邊緣模型 原創
2025年10月,一家源自MIT的創業公司Liquid AI發布了LFM2-VL-3B視覺語言模型,這款僅有3B參數的模型不僅能在資源受限的邊緣設備上流暢運行,還在多項基準測試中展現出媲美更大模型的性能表現。這不是簡單的工程優化,而是一場源自生物學靈感、基于全新架構理念的技術革命。當科技巨頭競相構建數千億參數的巨型模型時,Liquid AI正在證明:真正的智能不在于規模的堆砌,而在于架構的優雅與效率的極致。
1.起源
Liquid AI的核心技術源頭可以追溯到一個令人意外的研究對象——秀麗隱桿線蟲(Caenorhabditis elegans)。這種體長僅1毫米的微小生物只擁有302個神經元,卻能展現出復雜的覓食、交配和逃避危險等行為。Liquid AI的聯合創始人Ramin Hasani在MIT攻讀博士學位期間,深入研究了這種生物的神經系統,發現了其神經網絡的一個關鍵特性:神經元之間的連接強度會根據輸入信號動態調整,整個系統能夠持續適應環境變化。
這一發現啟發了液態神經網絡(Liquid Neural Networks, LNNs)的誕生。與傳統神經網絡在訓練完成后參數固定不同,液態神經網絡的"神經元"由時間常數方程控制,其行為會隨著輸入數據的特性持續演化。這種設計使得網絡能夠在部署后繼續學習和適應新環境,無需重新訓練。用Hasani的話說,這就像液體能夠適應容器的形狀一樣,網絡能夠適應數據的特性。
液態神經網絡的數學基礎建立在常微分方程(ODEs)之上。每個神經元的狀態不是通過簡單的激活函數計算,而是由一個微分方程描述其隨時間的演化。這個方程包含一個關鍵參數——液態時間常數(τ),它會根據輸入動態調整,從而改變神經元連接的強度。
這種設計帶來了幾個重要優勢:首先,網絡對噪聲和異常數據具有天然的魯棒性,因為時間常數能夠平滑瞬時的擾動;其次,網絡的狀態是有界的,不會出現傳統循環神經網絡常見的梯度爆炸問題;第三,由于神經元的表達能力更強,網絡可以用更少的神經元實現相同甚至更好的性能。
在2020年的研究中,Hasani及其團隊展示了一個令人震驚的結果:一個只有19個神經元和253個突觸的液態神經網絡能夠成功控制模擬自動駕駛車輛完成車道保持任務,而傳統神經網絡需要數萬個神經元和數十萬參數才能達到類似效果。這項成果后來于2020年發表,展示了液態神經網絡在實際控制任務中的潛力。這不僅證明了液態神經網絡的高效性,更重要的是展示了其可解釋性——由于網絡規模小,研究人員可以追蹤每個神經元的決策過程,理解模型為什么做出特定的判斷。
2.模型架構設計
將液態神經網絡的原理擴展到大規模語言模型并非易事。傳統的Transformer架構雖然在自然語言處理任務上取得了巨大成功,但其自注意力機制的計算復雜度隨序列長度呈二次增長,在處理長文本或高分辨率圖像時效率低下。Liquid AI的研究團隊花費數年時間,探索如何將液態神經網絡的動態適應性與現代深度學習架構相結合。
LFM2系列模型代表了這一探索的最新成果。與完全拋棄Transformer的激進做法不同,Liquid AI采取了一種務實的混合架構策略。LFM2-2.6B這個作為視覺語言模型骨干的語言模型,由16個計算塊組成:10個雙門控短距離卷積塊和6個分組查詢注意力(GQA)塊。這種設計巧妙地平衡了局部特征提取和全局信息整合的需求。
卷積塊負責捕捉序列中的局部模式和短程依賴關系。與傳統卷積不同,這些短距離卷積采用了乘法門控機制,使網絡能夠動態調節信息流。門控機制本質上是一種選擇性注意,它讓網絡能夠決定哪些信息應該保留、哪些應該遺忘。這種設計繼承了液態神經網絡的核心思想——根據輸入特性動態調整網絡行為。更關鍵的是,卷積操作的計算復雜度是線性的,相比Transformer的二次復雜度具有顯著優勢。
分組查詢注意力塊則處理長程依賴關系。GQA是對標準多頭注意力的改進,它將查詢頭分組,每組共享相同的鍵值對。這種設計在保持注意力機制表達能力的同時,大幅減少了內存占用和計算量。在LFM2的架構中,注意力塊被策略性地放置在網絡的關鍵位置,專門處理需要全局視野的任務,而大部分序列處理工作由更高效的卷積塊完成。
這種混合架構帶來的性能提升是顯著的。在實際測試中,LFM2在CPU上的推理速度比Qwen3和Gemma 3快200%,解碼和預填充性能都有成倍提升。更重要的是,訓練效率提升了3倍,這意味著開發新模型或微調現有模型的成本大幅降低。這種效率優勢不是來自硬件加速或量化壓縮,而是源于架構本身的優越性。
3.自動化優化的藝術
設計一個高效的神經網絡架構是一項極其復雜的工程。傳統方法依賴人類專家的經驗和直覺,通過反復試錯來尋找最佳配置。這不僅耗時耗力,而且容易陷入局部最優。Liquid AI開發的STAR(System for Transformation And Reasoning)架構搜索算法代表了一種全新的思路。
STAR的核心思想是將架構設計轉化為一個多目標優化問題。與只關注驗證損失或困惑度的傳統方法不同,STAR采用了50多項評估指標,全面測試模型在各類任務上的能力。這些指標涵蓋知識問答、推理、指令遵循、多語言理解等多個維度。更重要的是,STAR直接將硬件約束納入優化目標,實時測量模型在高通驍龍等邊緣處理器上的峰值內存使用和推理延遲。
這種端到端的優化方法避免了傳統流程中"先設計架構,再適配硬件"的脫節問題。STAR能夠在數百種可能的架構配置中,自動找到在性能、效率和硬件兼容性之間取得最佳平衡的方案。對于LFM2,STAR探索的搜索空間包括:卷積核大小、門控機制類型、注意力頭數量、層的堆疊順序等數十個設計維度。
最終,STAR找到的最優架構正是前文所述的混合結構:具有乘法門控的短卷積與分組查詢注意力的組合。這個結果并非人類直覺能夠輕易預測,它是算法在海量實驗中發現的最優解。更重要的是,STAR的自動化流程使得架構優化不再依賴少數專家的經驗,大大加速了AI技術的迭代速度。
4.多模態智能的高效實現
在語言模型的基礎上構建視覺理解能力,需要解決幾個關鍵挑戰:如何高效地編碼圖像信息、如何將視覺特征與文本表示對齊、如何在增加視覺能力的同時保持語言能力。LFM2-VL-3B通過精心設計的多模態架構優雅地解決了這些問題。

視覺編碼部分采用SigLIP2 NaFlex 400M編碼器。SigLIP是Google開發的對比學習視覺模型,以其出色的零樣本分類能力著稱。NaFlex(Native Flexibility)擴展使其能夠處理原生分辨率和可變寬高比的圖像,這在實際應用中極為重要。
傳統視覺編碼器通常將所有圖像縮放到固定尺寸(如224×224),這會導致信息損失或變形。NaFlex則根據圖像的實際尺寸動態調整token數量:小圖像用較少token表示以節省計算,大圖像用更多token保留細節。
具體來說,對于512×512像素以內的圖像,編碼器直接在原生分辨率下處理。對于更大的圖像,系統將其分割成不重疊的512×512方形補丁,每個補丁獨立編碼后再整合。這種方案既保證了細節的完整性,又避免了token數量的爆炸式增長。
舉例而言,一張256×384的豎版照片會被映射為96個視覺token,而一張1000×3000的全景圖則產生1,020個token。開發者可以根據應用場景的需求,在速度和質量之間靈活權衡。
視覺和語言信息的融合通過一個兩層MLP投影器實現。投影器的作用是將視覺編碼器輸出的特征向量映射到語言模型的語義空間。為了進一步提升效率,系統使用了像素重排(pixel unshuffle)技術。這個技術源自圖像超分辨率領域,它通過重新組織像素數據的空間排列,在不損失信息的前提下壓縮token數量。這種設計使得模型能夠用更少的計算處理更多的視覺信息。
訓練過程采用漸進式策略,分為三個階段。首先是預訓練階段,模型在約100億個多模態token上學習基礎的圖像-文本關聯。數據來源包括網頁抓取的圖文對、學術數據集和精心篩選的高質量配對。第二階段是聯合中期訓練,系統逐步調整數據混合比例,從95%文本降至30%文本,使模型在保持語言能力的同時增強視覺理解。這種漸進式的比例調整至關重要,避免了突然引入大量視覺數據可能導致的"災難性遺忘"。第三階段是監督微調,使用高質量的指令-響應對訓練模型遵循用戶指令的能力。
值得特別強調的是LFM2-VL-3B的多語言能力擴展。模型不僅支持英語,還能理解和處理日語、法語、西班牙語、德語、意大利語、葡萄牙語、阿拉伯語、中文和韓語的視覺內容。這意味著模型可以識別中文菜單、閱讀日文路標、理解阿拉伯語文檔等。實現這種多語言視覺理解需要精心構建訓練數據集,包括各語言的OCR數據、文檔圖像、場景文字等。這種能力對于開發面向全球市場的應用至關重要。
5.小模型的大能量
LFM2-VL-3B在多項標準基準測試中的表現令人印象深刻,充分證明了小參數量模型同樣可以實現高水平的多模態理解。在MM-IFEval測試中,模型達到51.8%的準確率。這個基準專門評估模型的多模態指令遵循能力,要求模型不僅理解圖像和文本,還要準確執行復雜的多步驟指令。相比同規模的開源模型,這個成績處于領先水平。

在RealWorldQA基準上,LFM2-VL-3B取得71.4%的正確率。這個測試包含大量真實世界場景的問答任務,如"這個路標是什么意思"、"照片中的建筑是什么風格"等,更貼近實際應用場景。高達71.4%的準確率表明模型不僅在學術數據集上表現良好,在真實世界任務中同樣可靠。
MMBench是一個綜合性的多模態理解基準,涵蓋物體識別、空間關系理解、文字閱讀等多個維度。LFM2-VL-3B在英文測試集上獲得79.81分,展現了全面的視覺理解能力。在OCRBench測試中,模型在英文文字識別任務上表現出色,能夠準確讀取圖像中的文本信息,這對于文檔分析、票據識別等應用至關重要。
特別值得關注的是POPE基準的結果。POPE(Polling-based Object Probing Evaluation)專門測試視覺語言模型的幻覺率——即模型是否會聲稱看到圖像中不存在的物體。LFM2-VL-3B在這項測試中獲得89.01%的高分,意味著低幻覺率。這個特性對于實際部署極其重要,因為在醫療診斷、自動駕駛等安全關鍵領域,錯誤的視覺判斷可能帶來嚴重后果。
在語言能力方面,模型基本保持了其骨干LFM2-2.6B的水平。在GPQA(一個需要研究生水平知識的問答基準)上達到30%,在MMLU(大規模多任務語言理解)上達到63%。這些數據表明,增加視覺理解能力并未顯著損害模型的語言推理能力,這得益于精心設計的訓練策略。
LFM2-VL-3B真正的價值在于其邊緣部署能力。在實際測試中,模型在高通驍龍處理器上運行流暢,推理延遲可以控制在毫秒級。以一個典型場景為例:處理一張1024×1024的照片配合100字的提示,生成100個token的響應,在驍龍8 Gen 2處理器上僅需幾秒鐘。這種速度使得實時視覺問答、即時翻譯等應用成為可能。
內存占用方面的優勢同樣顯著。采用4位量化后,LFM2-VL-3B模型大小約為2GB,可以輕松裝入現代智能手機的內存。根據Liquid AI的數據,LFM2系列模型在推理能效上比Transformer基礎模型高10到1000倍,在訓練能效上高10到20倍。這種能效優勢源于架構的根本性改進:更少的計算量、更小的內存帶寬需求、更少的數據移動。在實際應用中,這意味著設備發熱更少、電池消耗更低、用戶體驗更好。
模型的靈活部署能力也值得關注。LFM2-VL-3B已被適配到多個推理框架,包括PyTorch的ExecuTorch(專為移動和嵌入式設備優化)和廣受歡迎的llama.cpp(支持CPU高效推理)。開發者可以根據目標平臺選擇合適的框架,并通過量化、剪枝等技術進一步優化性能。模型在CPU、GPU、NPU等不同硬件上都能高效運行,這種通用性大大簡化了部署流程。
在自動駕駛領域,邊緣AI的價值更加明顯。車載計算平臺需要實時處理來自多個攝像頭的視頻流,識別車輛、行人、交通標志、道路標線等關鍵信息,并在毫秒級做出決策。云端推理的延遲和可靠性問題在這種場景下是不可接受的。LFM2-VL的輕量級架構使其能夠在車載處理器上高效運行。據Liquid AI披露,一家汽車制造商通過部署他們的本地模型,將云計算成本降低了70%,同時提升了系統的可靠性和響應速度。
Liquid AI在開源策略上采取了務實的平衡。LFM2-VL-3B在Hugging Face上以LFM Open License v1.0發布,這是一個基于Apache 2.0原則的定制許可證。許可證的核心條款包括:學術和研究使用完全免費,年收入低于1000萬美元的公司可以免費商用,大型企業需要聯系Liquid AI獲取商業許可。這種分層策略既保護了公司的商業利益,又最大程度地促進了技術創新和知識傳播。
盡管LFM2-VL-3B展現了諸多優勢,但仍面臨一些技術挑戰。首先是長依賴建模能力。雖然混合架構在效率上具有優勢,但在處理極長序列時,其性能可能不如純Transformer架構。對于需要理解大量上下文的任務,如長文檔分析或多輪復雜對話,模型的能力仍有提升空間。
本文轉載自??魯班模錘??,作者:祝融

















