被曝蒸餾DeepSeek還造假!歐版OpenAI塌房了
離職掀桌!Mistral被曝“蒸餾”DeepSeek。
網(wǎng)友在推特上爆料,一位Mistral離職女員工群發(fā)郵件,直指公司多項(xiàng)黑幕。
其中最勁爆的就是:Mistral最新模型疑似直接蒸餾自DeepSeek,卻對(duì)外包裝成RL成功案例,并刻意歪曲基準(zhǔn)測(cè)試結(jié)果。
說(shuō)到Mistral,這家公司被譽(yù)為歐洲版OpenAI,是全球開(kāi)源明星玩家之一,模型性能一直備受好評(píng)。
也正因?yàn)槁曌u(yù)突出,這次爆料才顯得格外震撼。

早在今年6月,就有博主通過(guò)“語(yǔ)言指紋”分析,發(fā)現(xiàn)Mistral-small-3.2和DeepSeek-v3很像。

有意思的是——今年2月,還有網(wǎng)友調(diào)侃DeepSeek是“中國(guó)的Mistral”。

結(jié)果半年過(guò)去,劇情反轉(zhuǎn):Mistral不僅沒(méi)跑贏(yíng)DeepSeek,還被曝“借”了人家的成果。
這波啊,這波叫回旋鏢自帶GPS,繞半圈又精準(zhǔn)扎回自己身上。
Mistral蒸餾DeepSeek實(shí)錘
就像我們開(kāi)頭提到的,推特博主Sam Peach通過(guò)分析模型輸出中過(guò)度使用的詞匯模式(Slop),發(fā)現(xiàn)了Mistral-small-3.2與DeepSeek-v3之間令人驚訝的高度相似性。
這種相似性通常很難通過(guò)獨(dú)立訓(xùn)練偶然出現(xiàn),所以很可能就是蒸餾(distillation)的結(jié)果:
Mistral-small-3.2“學(xué)習(xí)”了DeepSeek-v3的輸出風(fēng)格。
具體來(lái)說(shuō),Sam Peach是這樣做的。
他先統(tǒng)計(jì)了模型在創(chuàng)意寫(xiě)作(creativewriting)的輸出中,比人類(lèi)文本更常出現(xiàn)的詞和n-gram(詞組)。
然后他把這些把數(shù)據(jù)整合起來(lái),形成一個(gè)特征集。
最后把這些高頻特征進(jìn)行層次聚類(lèi)(hierarchicalclustering),生成了一張“相似性圖”。
通過(guò)比較相似性圖中模型的遠(yuǎn)近位置,就可以發(fā)現(xiàn)Mistral-small-3.2和DeepSeek-v3在圖中非常接近,這就表明了它們的輸出模式高度相似。
最新的爆料則進(jìn)一步指明,Mistral模型和DeepSeek相似不是巧合,而是可能使用了蒸餾。
由于爆料人Susan Zhang的推特設(shè)置可見(jiàn)范圍,更多爆料信息暫時(shí)無(wú)從得知。
但這里需要說(shuō)明,蒸餾并不是一件違規(guī)的事,現(xiàn)在很多模型都是通過(guò)這一方法快速提升能力。

Mistral的問(wèn)題在于,可能隱藏了這部分事實(shí)。
離職員工說(shuō),Mistral這樣做是在假裝自家模型的強(qiáng)化學(xué)習(xí)有效,這不僅歪曲了基準(zhǔn)測(cè)試結(jié)果,而且誤導(dǎo)公眾。
不少人也認(rèn)同這一觀(guān)點(diǎn):蒸餾模型必須標(biāo)注,保持透明性才是關(guān)鍵。

此外還有網(wǎng)友表示,蒸餾實(shí)際上為模型開(kāi)發(fā)開(kāi)辟了一條捷徑,好讓大家不用再重復(fù)造輪子。

官方暫無(wú)回應(yīng)
這事兒頗具爭(zhēng)議,除了事件本身,主要還在于Mistral在開(kāi)源AI圈的地位不低。
它成立于2023年,base法國(guó)巴黎,一直被稱(chēng)為歐洲版OpenAI。由前Google DeepMind的Arthur Mensch和前Meta的Guillaume Lample與Timothée Lacroix聯(lián)合創(chuàng)立。
在今年8月,Mistral被曝估值達(dá)到100億美元,且正在籌集新一輪10億美元融資。
而在上一輪融資中(2024年6月),Mistral完成了一輪由General Catalyst領(lǐng)投的6億歐元(6.45億美元)的融資,這使其估值上升至58億歐元(62億美元),排名全球第四(美國(guó)灣區(qū)外排名第一)。

從公司成立以來(lái),Mistral一直保持開(kāi)源路線(xiàn),今年開(kāi)源的模型就包括輕量級(jí)模型Mistral Small和主打編程的Mistral Code等。
相較于主流的大語(yǔ)言模型,主打開(kāi)源、小快靈的Mistral,在多語(yǔ)言處理和推理能力方面具備相當(dāng)?shù)母?jìng)爭(zhēng)力,在大模型市場(chǎng)中占據(jù)著獨(dú)特的地位。
同時(shí)他們也推出了自家聊天機(jī)器人LeChat,對(duì)標(biāo)ChatGPT,內(nèi)置深度研究模式、原生多語(yǔ)言推理和高級(jí)圖像編輯等功能。
截至目前,Mistral官方還沒(méi)有回應(yīng),就在昨天他們還發(fā)布了新模型Mistral Medium V3.1。




































