Liquid AI 推出 LFM2-VL-3B:3B 參數多模態模型,讓視覺語言推理落地邊緣設備 原創
在大模型的競爭中,一個鮮明趨勢正在出現——“越大”不再是唯一目標,“越高效”才是新的制勝關鍵。最近,Liquid AI 發布了 LFM2-VL-3B,這是一款 參數量 30 億(3B)的視覺語言模型(VLM),不僅性能亮眼,更令人驚訝的是:它能在邊緣設備上流暢運行。
這意味著什么?簡單來說,圖像理解、視覺問答、圖文生成等復雜任務,將不再只是云端的特權,而是可以直接在手機、機器人或工業設備中完成。
一、什么是 LFM2-VL-3B?
主關鍵詞:LFM2-VL-3B輔關鍵詞:Liquid AI、視覺語言模型、SigLIP2 NaFlex、邊緣計算、3B 參數
LFM2-VL-3B 是 Liquid AI 的最新一代視覺語言模型,屬于 LFM2-VL 系列 的進階版本。此前的兩個版本參數分別為 4.5 億(450M)和 16 億(1.6B),而這次直接躍升至 30 億參數,性能提升的同時,卻依然保持了輕量、低延遲的特性。
模型支持 圖像 + 文本輸入,輸出文本結果,適合各種圖文對話、描述生成、視覺問答等任務。它的接口采用類似 ChatML 的格式,可以在文本流中插入 ??<image>?? 標簽,模型會自動將圖片編碼為 Token 進行處理。這種設計讓多模態調用非常自然,也方便與現有的多模態管線集成。
在上下文長度上,LFM2-VL-3B 支持 高達 32,768 個 Token,這意味著它可以處理長文檔、多圖片場景,非常適合多輪對話或復雜視覺任務。
二、架構亮點:語言塔 + 視覺塔 + 投影器

如果說 LFM2-VL-3B 是一座“橋”,那它連接的就是文字與視覺的世界。
1. 語言塔:LFM2-2.6B 核心語言模型
語言部分來自 LFM2-2.6B 架構,它采用 卷積 + 注意力混合結構(Hybrid Conv-Attention),在語言理解和生成上兼具效率與語義深度。這讓 LFM2-VL-3B 在面對帶知識背景的視覺問題時,仍能保持較強的語言能力。
2. 視覺塔:SigLIP2 NaFlex 編碼器
視覺部分采用了 SigLIP2 NaFlex 編碼器,參數量 4 億(400M),這是目前最節能但仍能保持高感知精度的方案之一。 SigLIP2 的一大特點是保持原始圖像比例,不會因為強制縮放導致物體變形,從而大幅提升細粒度識別的準確性。
3. 投影器:兩層 MLP + Pixel Unshuffle
語言與視覺如何融合?答案是一個精巧的“連接器”——一個 兩層 MLP 投影器,配合 Pixel Unshuffle 算法,在融合前壓縮圖像 Token 數量,從而實現更高的 Token 吞吐率(tokens per second)。 這意味著模型可以在不犧牲視覺質量的前提下顯著提高速度,尤其適合算力受限的設備。
三、圖像處理機制:智能分塊 + 自適應 Token 控制
LFM2-VL-3B 對分辨率的處理非常靈活:
- 原生支持最大512×512 像素;
- 對超過該尺寸的圖像,會自動分割為不重疊的 512×512 圖塊;
- 同時保留縮略路徑(thumbnail pathway),為整體場景提供全局上下文。
這種設計既保證了細節,又避免了算力浪費。官方文檔甚至給出了具體映射示例:
圖像尺寸 | Token 數量 |
256×384 | 96 Tokens |
1000×3000 | 1020 Tokens |
更妙的是,用戶可以通過參數直接控制最小 / 最大 Token 數和分塊開關。比如在 Hugging Face 上的默認推薦是:
- 最小圖像 Token 數:64
- 最大圖像 Token 數:256
- 圖像分割:啟用
這些控制選項讓開發者能在“速度與質量”之間靈活取舍,非常實用。
四、推理與集成:開箱即用的多模態接口
Liquid AI 在 Hugging Face 提供了完整的推理接口與推薦配置。開發者只需幾行代碼即可上手:
from transformers import AutoModelForImageTextToText, AutoProcessor
import torch
model = AutoModelForImageTextToText.from_pretrained("liquidai/LFM2-VL-3B", torch_dtype=torch.bfloat16)
processor = AutoProcessor.from_pretrained("liquidai/LFM2-VL-3B")
inputs = processor(text="Describe this image:", images=image, return_tensors="pt")
outputs = model.generate(**inputs, temperature=0.1, repetition_penalty=1.05)
print(processor.decode(outputs[0]))這里使用了 bfloat16 精度,在性能與顯存占用間取得平衡。 系統自動處理 ??<image>?? 模板、圖像分塊與編碼流程,無需手動調整。對多模態開發者而言,這個“即插即用”的體驗非常友好。
五、訓練策略:分階段混合學習
Liquid AI 在訓練方法上采用了分階段策略(staged approach):
- 聯合中期訓練(Joint Mid-Training)逐步調整文本與圖像數據的比例,讓模型在理解圖像的同時保留語言能力;
- 監督微調(Supervised Fine-Tuning)專注于圖像理解任務,通過大規模開源數據集 + 自研合成視覺數據進行增強;
- 多語言擴展(Multilingual Visual Understanding)支持包括中文、英文、日語、法語、西班牙語、德語、意大利語、葡萄牙語、阿拉伯語和韓語在內的多語言視覺理解。
這種混合式訓練策略讓模型既能看圖、又能“看懂問題”,在跨語言的視覺任務上也有優異表現。
六、性能評測:輕量級 VLM 中的優等生
根據 Liquid AI 公布的數據,LFM2-VL-3B 在多項標準測試中表現突出:
測試項目 | 得分 |
MM-IFEval | 51.83 |
RealWorldQA | 71.37 |
MMBench-dev-en | 79.81 |
POPE | 89.01 |
相比同類輕量模型,它的分數相當有競爭力。語言層面上,LFM2-VL-3B 的語言塔性能接近 LFM2-2.6B,在 GPQA 上約為 30%,MMLU 上為 63%,說明它在需要結合知識推理的視覺任務中仍具備扎實的理解能力。
七、為什么說它是“為邊緣設備而生”的多模態模型?
在移動終端、機器人或工業場景中,模型部署的最大痛點是——算力受限 + 隱私要求高。
LFM2-VL-3B 的設計恰好針對這兩點:
- 計算與內存占用可控:圖像 Token 可壓縮、可限制;
- 吞吐率可預測:MLP 投影器減少 Token 數量;
- 視覺細節保真:SigLIP2 NaFlex 保持原始比例;
- 部署靈活:提供GGUF 格式,支持本地推理;
- 隱私友好:無需云端上傳圖像,數據在設備上完成推理。
這使得它非常適合 邊緣 AI 場景——比如智能攝像頭、工廠視覺檢測、移動端 AI 助手等。企業既能享受多模態理解能力,又能保障數據安全。
八、趨勢洞察:從“更大”到“更近”
LFM2-VL-3B 的意義不止在性能,而在方向。 在過去幾年,AI 模型一味追求參數規模的“登天運動”,但 Liquid AI 的路線恰恰相反——讓多模態智能“落地”。
通過架構壓縮、Token 優化與可控推理,他們讓圖像語言理解從云端“搬回地面”。 這意味著未來企業不再依賴云計算巨頭,也能自己部署強大的視覺語言模型。
換句話說,LFM2-VL-3B 是一條信號:
“AI 的智能,正在回到你手里。”
結語
Liquid AI 的 LFM2-VL-3B,既是性能的突破,也是部署思維的轉變。 它證明了——高精度多模態推理,不一定要依賴海量算力。 對于想在本地部署視覺語言模型的團隊而言,這無疑是一個值得關注的里程碑。
你怎么看? 你更看好“云端超大模型”,還是“本地高效模型”的路線?
本文轉載自??Halo咯咯?? 作者:基咯咯

















