告別“模型軍備競賽”:專業化小模型正成為企業AI落地的務實之選

但規模大并不總是意味著更好,因為規模大通常意味著復雜度增加、靈活性降低。漸漸地,企業開始意識到,萬億參數模型并不總是其業務的最佳解決方案,并非所有AI解決方案都需要一個巨型大語言模型,更專注的方法有望帶來更好的成果。
針對相關數據的特定任務進行調整的小型專用模型正日益受到青睞。這些模型資源消耗更少,且定制化和可控性更強,有何理由不喜歡呢?然而,實際有益成果與科技巨頭們的承諾之間似乎存在錯位。
科技巨頭的“大”問題
自2022年11月ChatGPT發布以來,模型規模不斷增大。盡管大型模型的訓練、開發和推理成本高昂,但它們仍能給出結果。其中的邏輯很簡單:選擇一個參數更多的大型模型,將其部署在更多的GPU上,花費一些時間,就能看到成果。簡單來說,就是“投入”更多的資金,就能獲得更好的結果。投入的資金越多,成果就越好。過去5到7年里,所有科技巨頭(OpenAI、谷歌、Anthropic、Meta)都在玩這場游戲。
? 2018年:GPT-1和BERT——參數均少于10億
? 2019年:GPT-2——15億參數
? 2020年:GPT-3——1750億參數
? 2023年:GPT-4、Claude、Gemini Ultra——均為巨型模型
? 2024-2025年:Llama——4050億參數,DeepSeek——6710億參數
這一趨勢顯而易見,且行之有效。澳大利亞機器學習研究所的研究表明,“增加參數數量對于訓練大型模型的重要性,是擴大訓練集規模的三倍”。
但這種方法存在一個大問題。
需要明確的是:大語言模型是通才。雖然大型模型能給出良好的結果,但小型模型在特定任務上能以更少的時間和成本達到相同或略好的效果。
更糟糕的是,大語言模型運行緩慢。更多的神經元需要激活,這意味著執行時間更長,基礎設施成本更高,而這并非所有人都能承受。
但大型模型有何優點呢?它們就像一把瑞士軍刀,幾乎能完成任何任務并給出結果。但許多企業根本無法大規模負擔這種成本。此外,企業的日常運營并非科學探索,更多的是重復性、中級水平的任務,如總結會議內容、分析Jira工單或起草報告。
大多數企業都有需要簡化的實際業務流程和需要解決的業務問題,對于這些問題,你不需要一把瑞士軍刀,而需要一把外科醫生的手術刀——一種鋒利、精準的工具,只能執行一項任務,但精度極高。而非一刀切式的解決方案。
與龐大的大語言模型不同,小型語言模型更為精簡、精準且專注于特定領域。它們成本更低、速度更快,且在其專業領域內準確無誤。例如,一家合規公司可能會部署一個針對法規和內部政策進行訓練的輕量級模型。一家醫療服務提供商可以微調一個較小的系統,以極高的準確性解讀實驗室結果和患者病歷。
OpenAI在其官方文檔中提供了一個很好的現實案例,該案例指出,通過使用1000個示例對GPT-4o-mini進行微調以執行一項非常具體的任務,人們只需花費大版本4o 2%的成本,就能達到91.5%的準確率(與大版本4o相當)。別忘了,推理速度也會快得多。
對于日常業務任務,如監控亞馬遜、Reddit、YouTube或X上的客戶評論,運行巨型模型很快就被證明效率低下。當更精簡、針對特定任務的模型能更快、更可靠且以更低的成本完成任務時,為何還要使用十億參數的瑞士軍刀來總結簡單的評論呢?
被炒作蒙蔽雙眼
那么,為何企業仍然熱衷于大語言模型呢?原因有二:營銷炒作和人類心理。
營銷炒作
科技巨頭們在通用AI的競賽中展開角逐,而根據定義,通用AI不會是小語言模型。這場競賽風險極高,回報也更為豐厚。他們推銷自己最大、最炫目的產品,兜售通用大腦的夢想,以吸引更多關注、投資和人才。他們正在打造一個數字版的阿爾伯特·愛因斯坦。但作為客戶,你不會聘請阿爾伯特·愛因斯坦來解決五年級的數學問題,對吧?
人類心理
我們將智能擬人化,并傾向于將AI人性化。就像大多數人傾向于認為真正聰明的人什么都擅長一樣,我們認為最聰明的模型對任何工作都是最佳選擇。但事實并非如此。有時,經過適當訓練的小型模型在訓練領域內能取得更好的成果。以微軟的Phi-4為例,該模型在數學推理領域占據主導地位,卻“只有”140億參數。另一個例子是Med-PaLM,該模型在美國醫學執照考試中得分超過60%,且在現實醫療領域具有極高的適用性。
科技巨頭們熱衷于制造轟動效應:他們的模型越大、越炫目,吸引的媒體關注就越多。他們占據的新聞頭條越多,積累的聲望就越高。對于不深入參與AI開發的高管來說,這種地位象征的承諾極具吸引力——投資于一個知名且聲音最大的品牌會讓人感到安全(盡管出于錯誤的原因),特別是當所有競爭對手都在或多或少地做同樣的事情時。隨波逐流,最終卻迷失其中。
的確,我不得不承認,營銷炒作與人類偏見相結合,會產生一種強大的錯覺,仿佛通用的AI大腦突然觸手可及。然而,這往往會導致過度支出和表現不佳。當你可以有目的地選擇一個手持堅果鉗來敲開幾顆核桃時,使用大錘既非最佳也非最明智的決定。這不僅是浪費,更是一種糟糕的策略。
特別是,AI實際上并不能解決問題。恰恰相反,它會放大問題。
AI是放大器,而非救世主
如果你的流程糟糕,AI會讓其糟糕10倍。如果你的流程良好,它會讓其優秀10倍,更快且更高效。以客戶支持為例:公司急于將大語言模型集成到聊天機器人中,卻只發現效果不佳。真正的罪魁禍首是什么?過時、不完整或依賴人工的知識庫。
銀行和保險公司正選擇在私有云上托管小型模型,以優先保障安全和合規性。零售商則使用中型AI來掃描產品評論和社交媒體上的動態,以尋找趨勢,與運行GPT級系統相比,成本大幅降低。
我并不是說完全放棄大型模型是值得考慮的。它們在廣泛推理和創新方面具有價值。但根據我的經驗,企業往往喜歡從優化入手。首先,你應該不惜一切代價實現結果。學會如何正確完成任務。然后再進行優化。換句話說,先大后小。首先在大型模型上測試你的任務,不是為了長期使用,而是為了明確對你和你的企業來說,成功是什么樣的。一旦你定義了清晰的提示、輸出和期望,就過渡到小型模型并進行微調。此外,查看AIMultiple對專用語言模型的分析也將很有用。
如果我們必須做一個簡單的觀察,我會說,大型基礎模型適用于廣泛訓練和提供背景信息(這是你首先應該具備的)。更小的特定領域模型則適用于執行(一旦你縮小了問題范圍)。工業(實用)AI的未來并非云端的一個巨型大腦,而是一個由專業模型共同組成的生態系統。
這并不意味著巨型模型會消失。它們仍然重要,可用于探索、前沿分析和創造性問題解決。但它們不會成為企業的主力軍。AI只是錦上添花之物。它可以是蛋糕上的櫻桃,也可以是垃圾堆上的櫻桃。沒有適當的流程和數據治理,即使是最先進的模型也無法神奇地解決你的問題。
那么,要點是什么呢?在購買“重炮”之前,問問自己:“你的企業真的面臨一個前沿問題,還是只是試圖總結一次會議?你真的需要愛因斯坦來解決你的問題嗎?”




























