“日本版OpenAI”創下估值新高!Transformer八子之一創辦,老黃也投了
剛剛,創下日本估值新高的AI初創公司誕生了!
它就是Sakana AI,由Transformer論文八子之一創辦,老黃的英偉達也投了。

幫大家快速回憶一下,這家公司其實就是史上首位“AI科學家”背后的出品方——
當時他們發布的The AI Scientist,一登場就一口氣生成了十篇完整學術論文,而且每篇成本才15美元左右(約107.62元),一時吸引大量關注。

根據Sakana AI公告,最新B輪融資籌集了200億日元(約合1.35億美元、9億多人民幣),總估值來到約4000億日元(約合26.35億美元、184億人民幣),創下日本非上市初創企業的估值紀錄。
而且它的投資方陣容也堪稱豪華——除英偉達(參與A輪)之外,還有一眾美國頂級風投(如Khosla Ventures、NEA)和日本產業與金融巨頭(如三菱日聯、四國電力)等。
所以,Sakana AI為什么能獲得如此高估值?
Transformer八子之一創辦、要做基于自然啟發的AI模型
Sakana AI成立于2023年7月,至今不過短短兩年。
之所以一開始就受到巨大關注,毫無疑問離不開它的兩位明星創始人。
聯創兼CTO Llion Jones,大名鼎鼎的Transformer論文8位作者之一。

他本碩畢業于伯明翰大學,在Delcam、油管、谷歌都工作過,創辦Sakana AI之前在谷歌工作了8年之久。
據FourWeekMBA介紹稱,在他之前的工作經歷中,“曾兩度與谷歌的工作擦肩而過”。
第一次是他剛畢業找工作時,雖然投了谷歌倫敦軟件工程師的簡歷,并通過了兩輪電話面試,但最終相比谷歌,他選擇了位于英國的CAD/CAM軟件公司Delcam。
第二次是工作18個月后,他又接到了谷歌的招聘電話,詢問他是否想重新申請,但他依舊沒去谷歌,而是隨后加入了YouTube。
在Youtube做軟件工程師的三年期間,他對人工智能產生興趣,于是自學了Coursera的機器學習課程,并終于在2015年的時候加入谷歌研究院,擔任里面的高級軟件工程師。
也正是在此期間,他與其他七名作者一起發表了那篇著名的Transformer論文《Attention Is All You Need》。

而之所以選擇離開谷歌,是因為公司目前已經發展到一定規模,使得他無法繼續進行自己想做的工作。
按他自己的話來說就是,谷歌確實讓他有種“被困住的感覺”。
于是瀟灑一轉身,他選擇聯合另一位谷歌前員工開始創業,而這位谷歌前員工就是如今身為Sakana AI聯創兼CEO的David Ha。
David Ha(右圖)曾是谷歌大腦的高級科學家,也曾領導過圖像生成模型獨角獸公司Stability AI的研究部門。
今年8月,他還入選了《時代》雜志評選的2025年人工智能領域百大人物榜單。

有了這二人,base東京的Sakana AI可謂自帶光環。
(注:之所以選擇東京,是因為北美那邊的生成式AI研究人員競爭非常激烈(手動狗頭),而在日本這邊競爭相對小一點而且也不乏高質量AI人才。)
而且比較新奇的是,Sakana AI并不是要在日本再造一個OpenAI或Anthropic,而是一開始就要走一條“不一樣的路”——
他們希望放棄Transformer架構,并從自然進化中汲取靈感,以降低模型的計算成本并提升其性能 。
概括而言,他們的想法可以基本歸納為:
1)日本是個資源有限的國家,AI發展到后面肯定會受到電力等資源的限制,所以從一開始就要考慮如何提效;
2)通過從自然進化中汲取靈感,他們能夠實現這一目的。
至于究竟是怎樣的自然靈感,這可以從他們給公司起的名字“Sakana AI”(sakana是日語“魚”(さかな)的羅馬讀音)一窺。

就像大自然中的魚會基于某種簡單的規則成群活動。因此,AI們也能借鑒它們的思想,無需更大的體積就能完成很復雜的任務。
具體來說,Sakana AI計劃開發一種基于自然啟發智能(nature-inspired intelligence)的基礎模型,借鑒自然領域中的“進化”和“集體智慧”思想,讓一群AI協作,類似于當前AI領域的生物啟發計算方向。
據《金融時報》介紹稱,Llion Jones認為,當前的AI模型之所以存在局限性,是因為它們被設計成無法改變的結構,這種結構往往是脆弱的。
相比之下,發揮“集體智慧”的自然系統,對于周圍的變化非常敏感。基于此原理搭建的AI也會具有更好的安全性、更低的搭建成本。
等等,這不就是AI科學家嗎?
造出史上首個AI科學家、各項研究庫庫發
2024年8月,Sakana AI以造出首個“AI科學家”走紅一時。
他們推出了第一個用于自動化科學研究和開放式發現的綜合AI系統——The AI Scientist。
這個系統能夠一口氣自動完成從提出研究想法、檢查創新性、設計實驗、編寫代碼,到在GPU上執行實驗并收集結果,最后完成論文撰寫等全過程(一般會交由不同模型分工負責)。
而且當時還放出了由它撰寫的十篇完整學術論文,一時令無數網友驚嘆“是時候讓AI幫我們寫論文了”。
p.s.:后來有研究員受其中一篇論文想法的啟發,還真的寫出了一篇論文并在arXiv上公開了~

實際上,The AI Scientist的出現并非偶然,而是Sakana AI對更早之前的一項研究的驗證。
當時他們想出了一個進化合并模型的妙招——
把Huggingface上的現成模型拿來“攢一攢”,直接就能組合出新的強大模型。
具體來說,他們受自然界的自然選擇啟發,引入“進化模型合并”(Evolutionary Model Merge)的概念,提出一種可以發現最佳模型組合的通用方法。
采用相關方法,他們得到的一個70億參數的日語數學大模型,直接在相關基準測試上取得了SOTA,打敗了700億參數的Llama-2等前輩。
而且關鍵是,得出這樣的模型不需要任何梯度訓練,因此需要的計算資源大大減少。

基于此,他們后來在The AI Scientist研究里想到,是否能用大模型發現新的目標函數來調整其他模型。
而這,正是“首位AI科學家”能夠成功運行的根本原理。
再到后來,Sakana AI的AI科學家不斷進化,其AI Scientist 2.0版本所生成的論文甚至通過了頂會ICLR workshop評審。
今年4月,Sakana AI向ICLR提交了三篇完全由AI Scientist v2生成的論文。(僅告知43篇評審論文中有3篇出自AI,但不告訴具體是哪一篇)。
結果,其中一篇論文《組合正則化:增強神經網絡泛化的意外障礙》獲得了6/7/6評審分數,超過平均人類接收門檻。

再之后,圍繞“AI協作”這一核心命題,Sakana AI基本以“一月一發”的快節奏推出多項研究:
- 今年5月,為考驗大模型創造性推理能力,推出一個包含從簡單4x4到復雜9x9現代數獨問題的全新基準Sudoku-Bench;
- 6月,推出Text-to-LoRA (T2L),徹底簡化了模型適配流程;
- 同在6月,帶來旨在讓教師模型學會“啟發式”教學的新方法,使用新方法訓練出的7B小模型,在傳授推理技能方面,比671B的DeepSeek-R1還要有效;
- 7月,提出新算法AB-MCTS,能讓多個人工智能模型同時處理問題;
- 9月,開源全新框架ShinkaEvolve,可以讓大模型在自己寫代碼優化自己的同時,還能同時兼顧效率;
- ……
至此,Sakana AI當下能夠斬獲日本AI創企最高估值也就不難理解了——創始人自帶光環、AI科學家研究出圈、各種研究一月一發。
即使創始人無意再造一個日本版OpenAI,但就其估值和成長軌跡而言,它已然是最接近“日本版OpenAI”的存在。

好好好,美國有OpenAI、日本有Sakana AI,那咱中國呢?
這里我們快速看一下國內主要明星大模型公司的最新估值情況:
智譜AI,“AI六小虎”中首家啟動IPO的企業,據中關村雜志9月報道其最新估值已超400億元RMB;
MiniMax,傳聞計劃今年赴港IPO,據晚點7月報道其投后估值超過40億美元(約284億人民幣);
月之暗面,10月傳出數億美元新融資,若屬實估值有望突破33億美元(約234億人民幣);
……
對比起OpenAI的千億美元估值,看來大家還得繼續加油(手動狗頭)。

































