「納米香蕉」LMArena兩周500萬投票,引爆10倍流量!谷歌、OpenAI扎堆打擂臺
今年8月,一款名為「納米香蕉」的神秘AI圖像編輯器輕松登頂Image Edit Arena榜首,直接把LMArena8月份的平臺流量拉爆:
流量暴增10倍,月活300萬+。

該模型自在LMArena啟動盲測以來,短短兩周便吸引了超過500萬次總投票,并單獨贏得了250萬+直接投票,創下歷史最高參與度。

nano?banana的神秘身份,也在LMArena社區引發廣泛猜測。
在谷歌認領「納米香蕉」,將其正式定名為Gemini 2.5 Flash Image之前,已不少網友猜到谷歌是Nano Banana的真正主人。


還有網友貼出了在LMArena上使用正版「納米香蕉」的方法,該方法不僅免費,而且不需要登錄。

不僅能讓用戶「近距離」接觸各種最新模型,LMArena還為大模型比拼,提供了一個真實的「羅馬競技場」,它讓谷歌、OpenAI等公司的最新模型,在這里真刀真槍對決,接受成千上萬用戶的檢閱。
用戶的投票和反饋,決定了這些大模型的排名,也為大模型廠商迭代模型,提供了真實的用例數據,使他們能夠更加有的放矢地改進模型。
nano?banana爆紅,讓LMArena流量狂漲10倍,據LMArena首席技術官Wei-Lin Chiang證實,該站月活躍用戶已超過300萬。
無論谷歌,還是LMArena都成為這場流量盛宴中的最大贏家。
從Chatbot Arena到LMArena

LMArena聯合創始人Wei-Lin Chiang和Anastasios Angelopoulos
LMArena前身叫Chatbot Arena,最初起源于2023年伯克利的一項研究項目,后來更名為LMArena。
Chatbot Arena像一個用戶社區評測中心,它改變了通過學科測試來評測AI技術的傳統方式,將評價權交給了社區用戶,并且采用匿名、眾包的成對比較,來評估大模型。
用戶還可以選擇模型進行自我測試。
ChatGPT、Llama 1等大模型的發布,為Chatbot Arena的出現提供了一個契機。
因為,當時人們還沒有一個評測大模型的有效方法,于是Chiang就與伯克利研究人員Anastasios Angelopoulos,以及Ion Stoica共同創辦了Chatbot Arena,也就是后來的LMArena。

他們的想法,是做一個以社區為中心的公開的、基于網絡的平臺,邀請所有人來參與評測。
很快,Chatbot Arena就引起了許多關注,成千上萬的人前來投票,他們就利用這些用戶投票數據,整理出了第一版排行榜。
最初上榜的,多是一些開源模型,唯一商用模型只有Claude和GPT。
隨著更多模型的不斷加入,Chatbot Arena的關注度也越來越高。各AI大廠紛紛請求將自己產品排名,并試圖登上這個排行榜的榜首。
Chatbot Arena的走紅,也讓眾多科技公司將之視為AI技術的風向標,他們像華爾街交易員盯盤一樣,密切關注著Chatbot Arena榜單的變化。
這一切都讓Meta AI產品管理總監Joseph Spisak感到十分驚訝,他驚嘆于幾個學生竟能產生如此重大的影響力。
Chiang希望LMArena能夠成為一個對所有人都開放可及的平臺,希望更多的用戶來測試這些模型,表達他們的看法和偏好,以此幫助社區以及模型提供方,能夠更好地基于這些真實用例來評估AI。
正如Chiang所言,在LMArena社區中,最受歡迎、增長最快的模型,往往來自于真實場景中的用例。「納米香蕉」就是最成功的例子之一。
匿名登場和盲測機制,讓nano-banana在LMArena自然爆紅,當時普通用戶無法手動挑選nano-banana,只有在 Battle里隨機遇到它,社區里大量帖子討論「刷很多局才等到香蕉」的體驗。
目前,Gemini 2.5 Flash Image成為LMArena的「雙料冠軍」,獲得了Image Edit Arena、Text-to-Image兩個榜單的第一名。


從LMArena排名上,還可以看出各個領域表現最佳的模型。
比如,在編碼領域,Claude排名最佳。在創意領域,Gemini位居前列。
也許是Meta內部AI團隊調整的緣故,Chiang并沒有聽到太多Llama 4的消息。但他認為Meta正在構建的「全模型」,也許代表著未來行業的一大趨勢。
大模型廠商為何鐘情「屠榜」?
OpenAI、谷歌、Anthorpic等大模型廠商,為什么都喜歡將它們的模型放到LMArena等排行榜上?
是為了建立品牌曝光度,還是獲得用戶反饋來改進他們的模型?
顯然,曝光與背書,是一個最直觀的短期效應。
LMArena是業內關注度最高的公開榜之一,累計投票已達數百萬次。而且科技媒體也喜歡頻繁引用LMArena的數據,這些都可以為大模型品牌帶來顯著的口碑與流量紅利。
其次,是更貼近「真實使用」的用戶反饋。
LMArena采用匿名、隨機配對的投票方式,并用Elo計分,這樣做減少了「品牌光環」「位置偏置」等主觀影響,能真實反映用戶對模型回答質量的評價。
Elo系統最初用于國際象棋計分,也是LMArena排行榜背后的核心機制。在該規則下,每個選手(或模型)都有一個實力分數(Elo 分),每場對戰后,會根據結果和預期,更新雙方的Elo分。
這讓每次用戶投票都成為一場對戰,模型Elo分經過成千上萬次對戰收斂,排名就可以更真實地反映用戶偏好。
此外,LMArena提供了一個跨廠商、跨開源/閉源的同臺競技舞臺,這天然就會帶來更高流量的曝光,也為用戶提供了更豐富的選型信息。
正如Chiang所言,希望將LMArena打造成一個人人都能參與、都能表達自己觀點的開放空間。
這里的一切都是社區機制來驅動,鼓勵大家提問和投票,表達自己對不同模型的評價。
對于大模型廠商來說,LMArena提供了一個很好的「照鏡子」的機會。
大模型廠商可以看清自己在所在領域的排行情況,以及獲得LMArena根據社區反饋提供的報告和分析,詳細評估自己模型的表現,對癥下藥提升模型能力。
需要新的LLM基準測試嗎?
當所有模型,都非常接近基準測試了,還需要新的基準測試嗎?
Chiang認為這一點是非常必要的。但是其中一個核心原則,是這些基準要扎根于真實世界用例。
比如,能夠超越傳統的基準測試,轉向更貼近真實用戶場景的基準測試,尤其是善于使用AI工具完成任務的專業人士所驅動的基準。
以LMArena最新推出的WebDev基準測試為例,用戶可以用提示詞讓一個模型搭建網站。這種基準測試,可以更好地將AI技術與真實世界用例緊密相連,使其更快在實際應用場景落地。
針對MIT關于「大多數投資AI的公司都沒有看到投資回報」的報告,Chiang認為這是一項很有意思的研究。
他認為該研究反映了「將AI與真實世界用例緊密相連尤為重要」,這也正是他要將LMArena平臺擴展到更多行業的原因。
希望通過更多扎根于真實用例的基準測試,去彌合技術與實用場景的鴻溝,并為之提供可衡量的標準。
Chiang表示,LMArena的目標是利用平臺數據來理解模型的局限性,保持數據研究流程的透明,并將數據發布出來,以此推動社區平臺的持續建設。
對于大模型廠商和「用戶觀眾」來說,這里是一個永不落幕的競技場。























