騰訊開源WMT2025冠軍大模型:拿下30個第一,同類最佳
昨晚,騰訊開源了2025年世界機(jī)器翻譯大會(WMT2025)上斬獲佳績的翻譯大模型Hunyuan-MT-7B。
根據(jù)比賽成績顯示,Hunyuan-MT-7B在中文、英文、法語、德語、馬拉地語、愛沙尼亞語、冰島語、芬蘭語、匈牙利語、羅馬尼亞語、波斯語、印地語、孟加拉語、泰米爾語、烏爾都語、僧伽羅語等31種主流、小眾語言測試中,拿下30個語種第一。

Hunyuan-MT-7B在面對不同語言的復(fù)雜語法規(guī)則、獨(dú)特詞匯體系以及豐富文化內(nèi)涵時, 均展現(xiàn)出強(qiáng)大的適應(yīng)能力與翻譯水準(zhǔn),成為同類最佳開源模型。同時在Flores-200 、WMT24pp等權(quán)威測試中,超過了谷歌的Gemini-2.5-Pro和Anthropic的Claude-Sonnet-4,可以媲美OpenAI的GPT-4.1。

開源地址:https://github.com/Tencent-Hunyuan/Hunyuan-MT/
https://huggingface.co/tencent/Hunyuan-MT-7B
在線體驗(yàn):https://hunyuan.tencent.com/modelSquare/home/list
Hunyuan-MT-7B架構(gòu)簡單介紹
在通用預(yù)訓(xùn)練階段,騰訊研究團(tuán)隊(duì)采用了涵蓋中文、英文以及少數(shù)民族語言的海量數(shù)據(jù)進(jìn)行混合訓(xùn)練。少數(shù)民族語言數(shù)據(jù)集包含 1.3 萬億個標(biāo)記,覆蓋 112 種非中文/英文語言和方言。
為了確保數(shù)據(jù)質(zhì)量,團(tuán)隊(duì)開發(fā)了一套專有的質(zhì)量評估模型,從知識價值、真實(shí)性和寫作風(fēng)格三個維度對多語言數(shù)據(jù)進(jìn)行評分,并采用三級評分系統(tǒng)(0、1、2)對每個維度進(jìn)行打分。通過加權(quán)綜合評分,并根據(jù)不同數(shù)據(jù)源的特性對特定維度進(jìn)行優(yōu)先級調(diào)整,團(tuán)隊(duì)篩選出高質(zhì)量的多語言訓(xùn)練語料。
例如,在處理書籍類和專業(yè)網(wǎng)站內(nèi)容時,優(yōu)先選擇知識水平評分為 2 的文本。此外,為保證多語言訓(xùn)練數(shù)據(jù)的內(nèi)容多樣性,團(tuán)隊(duì)還建立了三個標(biāo)簽系統(tǒng):學(xué)科標(biāo)簽系統(tǒng)、行業(yè)標(biāo)簽系統(tǒng)24個類別和內(nèi)容主題標(biāo)簽系統(tǒng)24 個類別,分別用于平衡學(xué)科分布、保證跨行業(yè)多樣性以及實(shí)現(xiàn)多樣性管理和針對性過濾。

經(jīng)過這一階段的訓(xùn)練,騰訊研究團(tuán)隊(duì)獲得了Hunyuan-7b-Base1基礎(chǔ)模型,并且在MMLU-Pro、SuperGPQA、BBH、GPQA、GSM8K、MATH、MultiPL-E等測試中性能很不錯。
隨后在通用預(yù)訓(xùn)練的基礎(chǔ)上,騰訊研究團(tuán)隊(duì)進(jìn)一步開展了面向機(jī)器翻譯的專項(xiàng)預(yù)訓(xùn)練。這一階段的目標(biāo)是通過精心挑選的單語和雙語語料庫,進(jìn)一步提升模型的翻譯能力。
單語數(shù)據(jù)主要來自 mC4 和 OSCAR 數(shù)據(jù)集,經(jīng)過嚴(yán)格的清洗流程,包括使用 fastText 進(jìn)行語言識別、通過 minLSH 進(jìn)行文檔級去重以及利用基于 KenLM 的模型進(jìn)行質(zhì)量過濾,以去除高困惑度的文檔。對于雙語數(shù)據(jù),團(tuán)隊(duì)則利用公開的平行語料庫,如 OPUS 和 ParaCrawl,并采用參考無關(guān)的質(zhì)量估計指標(biāo),如 CometKiwi,對句對進(jìn)行篩選,以確保所選句對的高質(zhì)量。
為了確定最優(yōu)的數(shù)據(jù)混合比例,團(tuán)隊(duì)借鑒了 RegMix 的策略。首先在小規(guī)模模型上進(jìn)行實(shí)驗(yàn),擬合一個將采樣比例映射到訓(xùn)練損失的函數(shù)。通過模擬該函數(shù),找到使預(yù)測損失最小化的混合比例,并將其應(yīng)用于最終翻譯模型的面向機(jī)器翻譯的預(yù)訓(xùn)練階段。此外,為避免災(zāi)難性遺忘,團(tuán)隊(duì)在訓(xùn)練過程中融入了原始預(yù)訓(xùn)練語料庫的 20% 回放,并設(shè)計了學(xué)習(xí)率調(diào)度,使其在預(yù)訓(xùn)練階段的初始階段達(dá)到峰值學(xué)習(xí)率,然后逐漸衰減至最小值。
監(jiān)督微調(diào)(SFT)是 Hunyuan-MT 訓(xùn)練過程中的關(guān)鍵環(huán)節(jié),旨在通過高質(zhì)量的標(biāo)注數(shù)據(jù)進(jìn)一步優(yōu)化模型的翻譯性能。SFT 過程分為兩個階段。第一階段的目標(biāo)是增強(qiáng)模型的基礎(chǔ)翻譯能力和對翻譯指令的遵循能力。

騰訊研究團(tuán)隊(duì)訓(xùn)練了一個包含約 300 萬對的大型平行語料庫,該語料庫來自五個主要來源:開源的 Flores-200 基準(zhǔn)的開發(fā)集、以往WMT測試集、人工標(biāo)注的普通話與少數(shù)民族語言對、使用 DeepSeek-V3-0324 生成的合成平行語料庫以及用于增強(qiáng)模型對一般和翻譯相關(guān)指令泛化能力的通用和面向機(jī)器翻譯的指令調(diào)整數(shù)據(jù)集的20%部分。為提高訓(xùn)練數(shù)據(jù)質(zhì)量,團(tuán)隊(duì)采用參考無關(guān)的質(zhì)量估計指標(biāo) CometKiwi 和 GEMBA 對整個平行語料庫進(jìn)行評分,并過濾掉低于預(yù)定義質(zhì)量閾值的訓(xùn)練樣本。在GEMBA 評分中,DeepSeek-V3-0324模型本身作為評估器。
第二階段則旨在通過一個更小但更高質(zhì)量的約 268,000 對的數(shù)據(jù)集進(jìn)一步優(yōu)化模型的翻譯性能。這一階段的訓(xùn)練數(shù)據(jù)經(jīng)過更嚴(yán)格的篩選過程。基于以往研究,團(tuán)隊(duì)采用多樣本上下文學(xué)習(xí)來進(jìn)一步優(yōu)化訓(xùn)練數(shù)據(jù)。對于在多輪評估中得分一致性較差的訓(xùn)練樣本,團(tuán)隊(duì)會進(jìn)行人工標(biāo)注和驗(yàn)證,以確保數(shù)據(jù)質(zhì)量。
強(qiáng)化學(xué)習(xí)(RL)在提升具有結(jié)構(gòu)化輸出的任務(wù)例如,數(shù)學(xué)問題求解和代碼生成的推理能力方面表現(xiàn)出色,但將其應(yīng)用于機(jī)器翻譯卻面臨獨(dú)特挑戰(zhàn)。機(jī)器翻譯的輸出具有豐富的語義多樣性,難以通過明確的規(guī)則進(jìn)行評估。
為應(yīng)對這一挑戰(zhàn),騰訊研究團(tuán)隊(duì)采用了GRPO作為強(qiáng)化學(xué)習(xí)算法,并設(shè)計了一個綜合的獎勵函數(shù)。質(zhì)量感知獎勵:為確保強(qiáng)化學(xué)習(xí)訓(xùn)練期間的翻譯質(zhì)量,采用了兩種互補(bǔ)的獎勵信號。第一種是 XCOMET-XXL,這是一種在翻譯評估場景中廣泛使用的指標(biāo),與人類評估具有高度相關(guān)性。第二種獎勵則利用 DeepSeek-V3-0324 進(jìn)行評分,提示語從 GEMBA 框架中改編而來。
術(shù)語感知獎勵:雖然基于 XCOMET 的獎勵主要關(guān)注翻譯輸出與參考翻譯之間的整體語義相似性,但它們可能無法充分捕捉關(guān)鍵信息,如特定領(lǐng)域的術(shù)語。為解決這一局限性,團(tuán)隊(duì)引入了基于詞對齊的獎勵指標(biāo)(TAT-R1 中提出的)。該獎勵機(jī)制通過詞對齊工具提取關(guān)鍵信息(包括術(shù)語),然后計算這些關(guān)鍵元素在翻譯輸出和參考之間的重疊比率。較高的重疊比率將獲得更高的獎勵,從而增強(qiáng)模型在訓(xùn)練過程中對術(shù)語和其他關(guān)鍵信息的關(guān)注。
重復(fù)懲罰:團(tuán)隊(duì)觀察到,在強(qiáng)化訓(xùn)練的后期階段,模型傾向于生成重復(fù)的輸出,這可能導(dǎo)致訓(xùn)練崩潰。為緩解這一問題,團(tuán)隊(duì)實(shí)施了一種重復(fù)檢測機(jī)制,當(dāng)檢測到重復(fù)模式時,將應(yīng)用懲罰,以維護(hù)輸出的多樣性和訓(xùn)練的穩(wěn)定性。
Hunyuan-MT-7B翻譯案例
在中文社交媒體情境中,Hunyuan-MT-7B能夠準(zhǔn)確地將“小紅書”解釋為“REDnote”平臺,并理解“砍一刀”是拼多多的價格削減機(jī)制,而Google-Translator 則產(chǎn)生了字面上但不正確的翻譯(“sweet potatoes”和“cuts”)。

在英語俚語表達(dá)方面,Hunyuan-MT-7B 能夠精準(zhǔn)地捕捉到非字面意義,例如,將“You are killing me”翻譯為表達(dá)娛樂而非字面?zhèn)Φ囊馑?,?nbsp;Google-Translator 則未能識別這種非字面用法。
Hunyuan-MT-7B還在特定領(lǐng)域的術(shù)語翻譯方面表現(xiàn)出色,能夠正確地將“血液疾病”和“尿酸性腎結(jié)石”等醫(yī)學(xué)術(shù)語翻譯出來,并且能夠成功地在不同語言之間轉(zhuǎn)換完整的地址,而 Google-Translator 則保持了原樣。這些例子表明,Hunyuan-MT-7B擁有更深入的語言細(xì)微差別、文化背景和領(lǐng)域知識的理解能力,使其能夠產(chǎn)生比傳統(tǒng)翻譯系統(tǒng)更準(zhǔn)確、更自然的翻譯。
在游戲翻譯測試中,輸入“d2”和“make a game”, 其他模型未能正確識別d2是指《暗黑破壞神 2》,而是將其誤解為普通文本。同時,其他模型錯誤地將make a game解釋為游戲開發(fā),這在游戲社區(qū)中并不準(zhǔn)確。而Hunyuan-MT-7B正確識別了d2真正意思,并且make a game在這里是指創(chuàng)建一個游戲房間,用于交換游戲物品。

在處理非正式語言時,例如,輸入文本中使用了“fucking”這個詞。其他模型可能會直接翻譯為字面意思,導(dǎo)致翻譯結(jié)果顯得粗俗。Hunyuan-MT-Chimera-7B能夠適當(dāng)?shù)胤g這個詞,避免了字面的粗俗語言,從而生成更自然、更符合語境的翻譯。
在體育情境中,Hunyuan-MT-Chimera-7B 也展現(xiàn)了其優(yōu)勢。例如,輸入文本中提到了“三分”。其他模型可能會錯誤地將其翻譯為“贏得三場比賽”,這在體育語境中是不準(zhǔn)確的。而 Hunyuan-MT-Chimera-7B 正確地將其翻譯為“三分球”,這在籃球等體育項(xiàng)目中是常見的術(shù)語。
網(wǎng)友表示,成果令人矚目。一個 70億參數(shù)的模型能達(dá)到這樣的規(guī)模,彰顯出在效率方面取得了引人關(guān)注的進(jìn)步。這一突破有望推動高質(zhì)量翻譯的普及化。

騰訊攜一款輕量卻性能強(qiáng)勁的70億參數(shù)模型,正式躋身機(jī)器翻譯賽道。

很激動,開源才是最佳出路。

版本穩(wěn)定性出色,其多語言支持功能令人青睞,且整套技術(shù)流程展現(xiàn)出強(qiáng)勁的實(shí)力。


































