突破多語言視覺-語言模型的全球化之路 原創
在人工智能的多模態學習領域,CLIP(Contrastive Language-Image Pretraining)模型自2021年發布以來,已經成為連接視覺和語言理解的重要基礎模型。從零樣本圖像分類到多模態大語言模型的視覺編碼器,CLIP的應用范圍不斷擴大,深刻影響了整個AI生態系統。然而,現有的CLIP模型及其變體主要專注于英語數據,這意味著全球互聯網上超過50%的非英語內容被忽視了。Meta公司最新發布的Meta CLIP 2論文,首次提出了從全球網絡數據從頭訓練CLIP模型的完整方案,為多模態AI的全球化發展開辟了新的道路。
1.傳統CLIP的局限性
傳統的CLIP模型面臨著兩個根本性挑戰。首先是數據處理方面的局限:現有的數據篩選方法主要針對英語內容設計,缺乏處理非英語數據的有效算法。無論是OpenAI的原版CLIP還是Meta CLIP,都主要依賴英語元數據和篩選機制,導致大量有價值的非英語圖像-文本對被丟棄。
其次是"多語言詛咒"現象:當模型嘗試處理多語言數據時,英語性能往往會下降。這種現象在大語言模型中也廣泛存在。例如,mSigLIP模型在ImageNet數據集上的表現比其純英語版本SigLIP差1.5%,這迫使研究者必須為英語和非英語任務分別維護不同的模型。
目前CLIP數據處理主要分為兩種方法:從頭篩選和基于外部資源的蒸餾。從頭篩選方法雖然能夠提供可控的數據分布,但傳統方法僅適用于英語數據。而蒸餾方法雖然性能良好且節省計算資源,但依賴于黑盒外部系統,引入了不可避免的偏差。例如,LAION數據集依賴OpenAI CLIP進行過濾,而DFN使用在私有高質量數據上訓練的過濾器模型。
2.三項核心創新
第一,全球化元數據構建研究團隊將原本僅限于英語的元數據擴展到了31種語言的WordNet同義詞集和329種語言的維基百科語料。

這種設計保持了每種語言獨立的元數據結構,不僅在直覺上更合理(例如"mit"在英語和德語中含義不同),性能也更優越,同時為未來添加新語言提供了靈活性。
第二,基于語言的篩選算法Meta CLIP 2開發了針對全球數據的篩選算法,采用逐語言的子串匹配和平衡機制。關鍵創新在于為每種語言設定特定的閾值參數,而不是使用統一標準。這種方法確保了不同語言數據中頭部概念和尾部概念的平衡比例保持一致。
第三, 全球化訓練框架訓練框架包含三個重要組件:多語言文本分詞器、擴展訓練數據量,以及對最小可行模型容量的研究。特別是在訓練數據量方面,將全局批次大小擴大2.3倍,確保英語數據的訓練量不會因為加入非英語數據而減少。
3.技術實現細節
Meta CLIP 2的元數據來源與原版CLIP相同,但擴展到了全球范圍:
- 多語言WordNet:包含31種語言的所有同義詞集
- 維基百科單詞和雙詞:處理2024年5月的維基百科轉儲數據,覆蓋329種語言
- 維基百科標題:使用40個隨機日期的維基百科快照,按各語言的點擊流量排名
- 對于沒有空格分隔的亞洲語言(如中文、日語、泰語等),研究團隊采用了當地社區開發的開源分詞器,以正確分割文本并保持語義完整性。
篩選算法優化為了高效處理數百種語言的大規模數據,研究團隊采用了多項優化策略:
- 使用Aho-Corasick算法進行高效字符串匹配,速度比原始暴力實現快2000倍
- 惰性元數據加載技術,為每種語言單獨預建并存儲元數據到自動機中,僅在遇到新語言時動態加載
- 使用內存映射文件加載來管理概率計算時的內存約束
4.性能突破

Meta CLIP 2在多個基準測試中展現了卓越的性能。在零樣本ImageNet分類任務中,ViT-H/14模型相比純英語版本提升了0.8%,相比mSigLIP提升了0.7%。更令人印象深刻的是,該模型在多語言基準測試中創下了新的最佳記錄:
- CVQA數據集:57.4%
- Babel-ImageNet:50.2%
- XM3600圖像到文本檢索:64.3%
研究團隊的一個重要發現是模型容量對打破"多語言詛咒"的關鍵作用。實驗表明,即使是OpenAI使用的最大模型ViT-L/14仍然受到多語言詛咒的影響,而ViT-H/14成為了打破這一詛咒的拐點。這一發現為未來多語言模型的設計提供了重要指導。
Meta CLIP 2在文化多樣性方面也表現出色。在Dollar Street、GeoDE和GLDv2等地理多樣性基準測試中,該模型顯著優于現有方法。這表明通過保留全球圖像分布,Meta CLIP 2繼承了更全面的文化和社會經濟覆蓋范圍,提高了地理定位和區域特定識別能力。
本文轉載自??魯班模錘??,作者:龐德公

















