Liquid AI 推出 LFM2-VL-3B：3B 參數多模態模型，讓視覺語言推理落地邊緣設備原創

發布于 2025-10-31 07:34

瀏覽

0收藏

在大模型的競爭中，一個鮮明趨勢正在出現——“越大”不再是唯一目標，“越高效”才是新的制勝關鍵。最近，Liquid AI 發布了 LFM2-VL-3B，這是一款參數量 30 億（3B）的視覺語言模型（VLM），不僅性能亮眼，更令人驚訝的是：它能在邊緣設備上流暢運行。

這意味著什么？簡單來說，圖像理解、視覺問答、圖文生成等復雜任務，將不再只是云端的特權，而是可以直接在手機、機器人或工業設備中完成。

一、什么是 LFM2-VL-3B？

主關鍵詞：LFM2-VL-3B輔關鍵詞：Liquid AI、視覺語言模型、SigLIP2 NaFlex、邊緣計算、3B 參數

LFM2-VL-3B 是 Liquid AI 的最新一代視覺語言模型，屬于 LFM2-VL 系列 的進階版本。此前的兩個版本參數分別為 4.5 億（450M）和 16 億（1.6B），而這次直接躍升至 30 億參數，性能提升的同時，卻依然保持了輕量、低延遲的特性。

模型支持 圖像 + 文本輸入，輸出文本結果，適合各種圖文對話、描述生成、視覺問答等任務。它的接口采用類似 ChatML 的格式，可以在文本流中插入 ??<image>?? 標簽，模型會自動將圖片編碼為 Token 進行處理。這種設計讓多模態調用非常自然，也方便與現有的多模態管線集成。

在上下文長度上，LFM2-VL-3B 支持 高達 32,768 個 Token，這意味著它可以處理長文檔、多圖片場景，非常適合多輪對話或復雜視覺任務。

二、架構亮點：語言塔 + 視覺塔 + 投影器

Liquid AI 推出 LFM2-VL-3B：3B 參數多模態模型，讓視覺語言推理落地邊緣設備-AI.x社區

如果說 LFM2-VL-3B 是一座“橋”，那它連接的就是文字與視覺的世界。

1. 語言塔：LFM2-2.6B 核心語言模型

語言部分來自 LFM2-2.6B 架構，它采用 卷積 + 注意力混合結構（Hybrid Conv-Attention），在語言理解和生成上兼具效率與語義深度。這讓 LFM2-VL-3B 在面對帶知識背景的視覺問題時，仍能保持較強的語言能力。

2. 視覺塔：SigLIP2 NaFlex 編碼器

視覺部分采用了 SigLIP2 NaFlex 編碼器，參數量 4 億（400M），這是目前最節能但仍能保持高感知精度的方案之一。 SigLIP2 的一大特點是保持原始圖像比例，不會因為強制縮放導致物體變形，從而大幅提升細粒度識別的準確性。

3. 投影器：兩層 MLP + Pixel Unshuffle

語言與視覺如何融合？答案是一個精巧的“連接器”——一個 兩層 MLP 投影器，配合 Pixel Unshuffle 算法，在融合前壓縮圖像 Token 數量，從而實現更高的 Token 吞吐率（tokens per second）。這意味著模型可以在不犧牲視覺質量的前提下顯著提高速度，尤其適合算力受限的設備。

三、圖像處理機制：智能分塊 + 自適應 Token 控制

LFM2-VL-3B 對分辨率的處理非常靈活：

原生支持最大512×512 像素；
對超過該尺寸的圖像，會自動分割為不重疊的 512×512 圖塊；
同時保留縮略路徑（thumbnail pathway），為整體場景提供全局上下文。

這種設計既保證了細節，又避免了算力浪費。官方文檔甚至給出了具體映射示例：

圖像尺寸	Token 數量
256×384	96 Tokens
1000×3000	1020 Tokens

更妙的是，用戶可以通過參數直接控制最小 / 最大 Token 數和分塊開關。比如在 Hugging Face 上的默認推薦是：

最小圖像 Token 數：64
最大圖像 Token 數：256
圖像分割：啟用

這些控制選項讓開發者能在“速度與質量”之間靈活取舍，非常實用。

四、推理與集成：開箱即用的多模態接口

Liquid AI 在 Hugging Face 提供了完整的推理接口與推薦配置。開發者只需幾行代碼即可上手：

from transformers import AutoModelForImageTextToText, AutoProcessor
import torch

model = AutoModelForImageTextToText.from_pretrained("liquidai/LFM2-VL-3B", torch_dtype=torch.bfloat16)
processor = AutoProcessor.from_pretrained("liquidai/LFM2-VL-3B")

inputs = processor(text="Describe this image:", images=image, return_tensors="pt")
outputs = model.generate(**inputs, temperature=0.1, repetition_penalty=1.05)
print(processor.decode(outputs[0]))

這里使用了 bfloat16 精度，在性能與顯存占用間取得平衡。系統自動處理 ??<image>?? 模板、圖像分塊與編碼流程，無需手動調整。對多模態開發者而言，這個“即插即用”的體驗非常友好。

五、訓練策略：分階段混合學習

Liquid AI 在訓練方法上采用了分階段策略（staged approach）：

聯合中期訓練（Joint Mid-Training）逐步調整文本與圖像數據的比例，讓模型在理解圖像的同時保留語言能力；
監督微調（Supervised Fine-Tuning）專注于圖像理解任務，通過大規模開源數據集 + 自研合成視覺數據進行增強；
多語言擴展（Multilingual Visual Understanding）支持包括中文、英文、日語、法語、西班牙語、德語、意大利語、葡萄牙語、阿拉伯語和韓語在內的多語言視覺理解。

這種混合式訓練策略讓模型既能看圖、又能“看懂問題”，在跨語言的視覺任務上也有優異表現。