300 億參數大模型上線,Tilde 要在歐洲 AI 版圖立下一面旗 原創
在當今的人工智能浪潮里,大模型似乎越來越趨向于“巨無霸”。從 GPT-4 到 Gemini,從 Claude 到 Llama,模型規模越來越大,參數動輒數百億甚至上千億。但在熱鬧的背后,有一個不容忽視的現實:這些模型大多偏向英語和少數幾種主流語言。
對于拉脫維亞語、立陶宛語、冰島語、斯洛文尼亞語這樣的“小語種”而言,即便是號稱多語言的開源大模型,在實際應用中也會表現不佳——語法錯誤、表達生硬、甚至完全無法理解。
而就在 2025 年 9 月,來自拉脫維亞的語言科技公司 Tilde 發布了一個頗具突破性的項目:TildeOpen LLM。它是一款 300 億參數的開源大模型,專門為歐洲語言而生,尤其關注那些在主流模型中長期被忽視的“小語種”。
這不僅僅是一個技術事件,更是一次關于 語言公平(Linguistic Equity) 與 數字主權(Digital Sovereignty) 的戰略布局。
1. 技術底座:300億參數的歐洲大模型
架構與訓練
TildeOpen LLM 的核心是一套 30B 參數的 dense decoder-only transformer 架構,設計上與主流開源模型(如 GPT-NeoX、LLaMA)類似,但在訓練和優化上做了不少“本地化”處理。
- 訓練算力:使用歐洲的兩臺頂級超算 ——LUMI(芬蘭)和JUPITER,總共消耗了200 萬 GPU 小時。
- 數據規模:大約2 萬億 tokens,涵蓋多種歐洲語言,并采用“三階段采樣策略”:
a.均勻采樣:保證小語種有足夠的曝光;
b.自然分布采樣:照顧到大語種的數據體量;
c.再次均勻采樣:平衡結果,避免極端偏差。
- 超參數:
a.60 層
b.Embedding size:6144
c.48 個 attention heads
d.上下文窗口:8192 tokens
e.激活函數:SwiGLU
f.位置編碼:RoPE
g.Layer Norm:RMSNorm
開源與許可
TildeOpen LLM 在 Hugging Face 上開放下載,采用 CC-BY-4.0 許可。這意味著研究機構、企業甚至政府部門都可以 自由使用、修改、部署。
2. 語言公平:小語種的逆襲
在 NLP 世界里,語言分布高度不均衡。英語、西班牙語、中文、法語、德語,占據了絕大多數訓練數據。而像 拉脫維亞語、立陶宛語、冰島語 這些人口千萬以下的語言,往往被淹沒。
這種失衡帶來的直接后果就是:AI 在小語種上表現極差。
TildeOpen LLM 在設計上引入了一個關鍵創新:公平分詞器(Equitable Tokenizer)。
- 它能保證同一段文字,不論是用英語還是拉脫維亞語寫,都會被拆分成大致相同數量的 tokens。
- 這樣不僅減少了“小語種”的 token 數量(提高推理效率),還避免了語法被割裂成不自然的碎片。
這意味著,當你用愛沙尼亞語或斯洛伐克語與模型對話時,它的表現不會比英語差太多。
3. 數據主權:GDPR 之下的自我掌控
在歐美的數據競爭中,歐洲一直強調 數據主權。特別是在 GDPR(通用數據保護條例) 的框架下,很多組織對使用美國或亞洲托管的模型心存顧慮。
TildeOpen LLM 的另一個亮點就是:完全支持自托管(Self-hosting)。
- 你可以在本地數據中心運行它;
- 也可以在符合歐盟合規要求的云環境中部署;
- 甚至可以在專屬的私有集群里搭建,避免數據流出歐洲。
這對于政府部門、金融機構、醫療體系等 高敏感領域,無疑是一個重大優勢。
4. 應用前景:不僅是科研,更是基礎設施
TildeOpen LLM 并不是一款“完工”的應用模型,而是一個 基礎大模型(Foundational Model)。它的使命是為歐洲 AI 基礎設施打下地基。
未來 Tilde 團隊會在它之上,開發更專業的版本:
- 翻譯模型:支持高質量的跨語言翻譯;
- 語音助手:支持多語言對話;
- 教育工具:覆蓋從大語種到小語種的教學;
- 政府與公共服務:保證小語種群體在數字世界中的平等權利。
更重要的是,這個項目也讓 拉脫維亞 成為歐洲 AI 地圖上的一個新興亮點。
5. 實測代碼:如何調用 TildeOpen LLM
如果你想在本地或云端跑 TildeOpen LLM,可以直接通過 Hugging Face Transformers 加載。需要注意的一點是:**必須設置 ??use_fast=False??**。
from transformers import AutoTokenizer, AutoModelForCausalLM
# 加載 tokenizer + 模型
tokenizer = AutoTokenizer.from_pretrained("TildeAI/TildeOpen-30b", use_fast=False)
model = AutoModelForCausalLM.from_pretrained(
"TildeAI/TildeOpen-30b",
torch_dtype=torch.bfloat16,
device_map="auto"
)
# 輸入文本
inputs = tokenizer("你好,TildeOpen!", return_tensors="pt").to(model.device)
# 生成(貪心解碼)
outputs = model.generate(
**inputs,
max_new_tokens=512,
repetition_penalty=1.2,
do_sample=False,
)運行后,你就能直接體驗到這個模型在不同歐洲語言下的表現。
6. 評測結果:小語種的全面提升
官方在 WMT24++ 多語言評測集 上對比了 TildeOpen LLM 與其他開源模型(如 Gemma 2 27B、EuroLLM 22B、ALIA 40B)。
結果顯示:
- 在德語、法語、西班牙語等主流語言上,TildeOpen 與其他模型相差不大;
- 在立陶宛語、愛沙尼亞語、冰島語、克羅地亞語等小語種上,TildeOpen 的Perplexity(困惑度)顯著更低;
- 簡單來說,它更懂小語種。
例如:
語言 | TildeOpen 30B | Gemma 2 27B | EuroLLM 22B | ALIA 40B |
冰島語 | 2.0873 | 3.0329 | 4.7908 | 3.957 |
拉脫維亞語 | 2.1439 | 2.5355 | 2.3141 | 2.3276 |
愛沙尼亞語 | 2.1711 | 2.5747 | 2.3852 | 2.325 |
這讓 TildeOpen 成為目前 最強的小語種大模型之一。
7. 戰略意義:歐洲的 AI 自主之路
TildeOpen LLM 的發布,不僅是一個技術成果,更是歐洲在 AI 戰略上的一次 “立旗”行動。
它告訴世界:歐洲不僅僅是 AI 的“監管者”,更是 AI 的 建設者。
- 它強調技術公平:不讓小語種被遺忘;
- 它強調數據主權:不依賴美國、中國的云服務;
- 它強調開源精神:讓研究者、開發者、企業都能參與其中。
對 1.65 億說著小語種的歐洲人來說,這不只是一個模型,而是 數字世界中的平等權利。
結語:歐洲的“語言基建時刻”
過去幾年,AI 的話語權幾乎被硅谷和中國瓜分。而 TildeOpen LLM 的出現,給歐洲帶來了一種新的可能性:
它不是要做“更大的 GPT-4”,而是要做 更公平的 GPT。
當未來的教育、醫療、公共服務系統接入 AI 時,那些說著小語種的群體,終于可以用自己的語言與機器平等對話。
而這,或許才是 AI 的終極意義。
本文轉載自??Halo咯咯?? 作者:基咯咯

















