GLM-4.1V-Thinking:價值月薪5萬的AI助理來了! 原創
對不少用戶來說,使用市面主流大模型的最大痛點,是AI的智能化程度不夠高,做不到像人一樣理解給定素材(尤其是圖像、視頻、文檔等多模態素材),導致許多任務承載不了,所謂的AI助理秒變雞肋。
然而,智譜最新推出的多模態大模型??GLM-4.1V-Thinking??(以下簡稱“GLM”),其性能之強大,或將完全顛覆這種局面。今天appmall.ai就帶大家來測評一下,這款剛剛推出就成功登頂HuggingFaceTrending榜單的AI大模型,是否真的不輸月薪5萬私人助理。
GLM因何“能扛能打”?
首先看出身。??GLM??是“AI六小虎”智譜AI最新發布的視覺語言大模型,它是一款支持圖像、視頻、文檔等多模態輸入的通用推理型大模型,專為復雜認知任務設計。
其次看跑分。這款模型尺寸只有9B,在MMStar、MMMU-Pro、ChartQAPro、OSWorld等28項權威評測中,有23項達成10B級模型的最佳成績,其中18項更是持平或超越參數量高達72B的Qwen-2.5-VL。
最后看能力。GLM在內容理解(分析圖像與文本信息)、解題推理(數學與科學題目分析演繹)、主體錨定(識別并指出語言指令里提到的主體)等方面都表現出了高度穩定的性能。

GLM實測效果如何?
??GLM??現已上線??appmall.ai??,低至2.3元/小時,就可以收獲超越Qwen-2.5等市面主流大模型的多模態AI助理體驗,妥妥不輸月入5萬的私人助理。
今天AppMall就帶著大家來實測一下GLM最能打的核心競爭力吧:
(1)Easy模式:圖片理解、主體識別
首先上傳一張圖片,測試GLM能否識別出這是哪個成語典故。GLM很好地完成了任務,同時展現出了深度思考的過程,包括常見成語檢索、典故解釋、其他成語排除、組織語言。


指定主體的識別和定位方面,GLM表現如何?比如問GLM:下面這張圖片中,紅衣女士的位置在哪里?

可以看到,AI經過分析精準地識別出prompt里指定的主體,并且對其位置有正確的描述。

(2)Normal模式:細節分析、常識測試
繼續測試GLM是否能在圖片理解過程中體現像人一樣的思考。比如問??GLM??:在這個唐朝宴飲畫面中,有哪些不符合常識的地方?

GLM也識別出來,可口可樂、智能手機不應該出現在當時的朝代。

再看看GLM對于一些精細化的內容分析能力如何。比如我們拋出一個典型的“找不同”場景,交給GLM進行分析。

從答案來看,整體表現還是可以的,但是在顏色的識別上還是出現了明顯錯誤(比如最右側的花朵顏色有差別,但是GLM沒有識別出來),基本可以認定??GLM??的分析勝任度和內容細節的豐富度成反比。

(3)Hard模式:解題推理
從前面的使用場景,GLM在文科領域的整體表現可以在95/100分以上,那么理科場景的勝任度如何呢?我們選擇了一道2025高考數學題,來測試??GLM??包含基本文字理解(題目語義)、公式記憶、圖像識別、邏輯解答等能力。

可以看到,GLM很快就開始了思考過程,最終給出了與標準答案一致的回答,證明其在數學科學推理領域的跑分實至名歸。

對于更復雜的任務,比如對多頁、多語言ppt或pdf理解分析方面,雖然GLM目前支持圖片、視頻、PPT和PDF格式的文檔上傳,但AppMall實測下來,現有的9B小版本在視頻和文檔分析方面比較受限,表現并不好。妥協方式是復制大段文本發送到對話框中,讓GLM進行分析。
總而言之,目前appmall.ai上線的??GLM??小版本,更適合主流高頻日常場景的使用,基本可以達成文理雙料學霸的AI助理水準,不輸月入5萬私人助理。如果AI深度玩家需要將GLM應用在更復雜的場景,那么更適合自行部署完整版本進行探索。
還在等什么?快來??appmall.ai??試用GLM吧~

















