所謂"廉價"的開源AI模型 正在吞噬你的算力預算

一項全新的綜合研究表明,在執行相同任務時,開源AI模型比閉源競爭對手消耗的計算資源要多得多,這可能會削弱其成本優勢,并重塑企業評估AI部署策略的方式。
該研究由AI公司Nous Research開展,發現開放權重模型使用的token(AI計算的基本單位)數量是OpenAI和Anthropic等閉源模型的1.5到4倍,對于簡單的知識問答,差距會大幅擴大,某些開源模型使用的token數量最多可達閉源模型的10倍。
研究人員在周三發布的報告中寫道:“開放權重模型使用的token數量是閉源模型的1.5至4倍(對于簡單的知識問答,這一差距可達10倍),因此盡管每個token的成本較低,但每次查詢的成本有時反而更高。”
這些發現對AI行業的一個普遍假設提出了挑戰,即開源模型比專有替代方案具有明顯的經濟優勢,雖然開源模型的每個token運行成本通常較低,但研究表明,如果解決特定問題需要更多token,那么這一優勢很容易被抵消。
AI的真正成本:為何“更便宜”的模型可能超出你的預算
該研究對19種不同的AI模型進行了評估,任務分為三類:基礎知識問答、數學問題和邏輯謎題。研究團隊測量了“token效率”,即模型相對于解決方案復雜度所使用的計算單元數量,盡管這一指標對成本影響重大,但此前很少得到系統性研究。
研究人員指出:“出于多種實際原因,token效率是一個關鍵指標。雖然托管開放權重模型的成本可能較低,但如果解決特定問題需要更多token,那么這一成本優勢很容易被抵消。”
對于使用擴展“思維鏈”來解決復雜問題的大型推理模型(LRM),這種低效性尤為明顯,這些模型旨在逐步思考問題,可能會在思考本應只需極少量計算的簡單問題時消耗數千個token。
對于“澳大利亞的首都是哪里?”等基礎知識問題,研究發現推理模型會“耗費數百個token來思考本可單字回答的簡單知識問題”。
哪些AI模型真正物有所值
該研究揭示了不同模型供應商之間的顯著差異。OpenAI的模型,特別是其o4-mini和新發布的開源gpt-oss變體,在數學問題上展現出了卓越的token效率。研究發現,OpenAI的模型“在解決數學問題時token效率極高”,使用的token數量比其他商業模型少三倍。
在開源選項中,英偉達的llama-3.3-nemotron-super-49b-v1成為“所有領域中token效率最高的開放權重模型”,而Mistral等公司的新模型則“token使用量異常高”,成為例外。
效率差距因任務類型而異。雖然開源模型在解決數學和邏輯問題時使用的token數量大約是閉源模型的兩倍,但對于本不需要高效推理的簡單知識問答,差距則進一步拉大。
企業領導者需要了解的AI計算成本
這些發現對企業采用AI具有直接影響,因為計算成本會隨著使用量的增加而迅速上升。企業在評估AI模型時,往往關注準確度基準和每個token的價格,但可能會忽視實際任務所需的總計算量。
研究人員在分析總推理成本時發現:“閉源模型更好的token效率往往能彌補其較高的API定價。”
該研究還揭示,閉源模型供應商似乎在積極優化效率。“閉源模型經過迭代優化,減少了推理成本所需的token數量”,而開源模型“新版本的token使用量有所增加,這可能反映了其更注重提升推理性能”。
研究人員如何破解AI效率測量難題
研究團隊在衡量不同模型架構的效率時面臨獨特挑戰。許多閉源模型不公開其原始推理過程,而是提供內部計算的壓縮摘要,以防止競爭對手模仿其技術。
為解決這一問題,研究人員使用完成token(即每次查詢所計費的總計算單元)作為推理工作量的替代指標,他們發現,“大多數最新的閉源模型不會共享其原始推理軌跡”,而是“使用較小的語言模型將思維鏈轉錄為摘要或壓縮表示”。
該研究的方法包括使用修改后的知名問題進行測試,以盡量減少記憶解決方案的影響,例如改變美國數學邀請賽(AIME)數學競賽問題中的變量。
AI效率的未來:接下來會發生什么
研究人員建議,在未來的模型開發中,token效率應與準確度一起成為主要的優化目標。他們寫道:“更密集的思維鏈(CoT)也將允許更高效地利用上下文,并可能在對抗挑戰性推理任務期間的上下文退化。”
OpenAI開源的gpt-oss模型展示了“可自由訪問的思維鏈”的先進效率,可作為優化其他開源模型的參考點。
完整的研究數據集和評估代碼可在GitHub上獲取,其他研究人員可借此驗證并擴展這些發現。隨著AI行業競相提升推理能力,這項研究表明,真正的競爭可能不在于誰能打造最聰明的AI,而在于誰能打造最高效的AI。
畢竟,在每個token都至關重要的世界里,最浪費的模型無論思考能力有多強,都可能因價格過高而被市場淘汰。































