MIT、OpenAI等震撼力作:AI首次自主發現人工生命!人類窺見上帝造物
就在剛剛,由Transformer八子創立的Sakana AI,聯合來自MIT、OpenAI、瑞士AI實驗室IDSIA等機構的研究人員,提出了「自動搜索人工生命」的新算法!

論文地址:https://arxiv.org/abs/2412.17799
值得一提的是,世界上首個「AI科學家」便是由Sakana AI提出的——就是可以獨立搞科研,完全不需要人類插手的那種。不僅如此,它當時還直接一口氣肝出了10篇論文。
言歸正傳,ALife,即「人工生命」,是一門跨學科研究,旨在通過模擬生命的行為、特性和演化過程來理解生命的本質,通常結合了計算科學、生物學、復雜系統科學以及物理學等領域。
人工生命(ALife)的研究中,蘊含著能夠推動和加速人工智能進步的重要洞見。
如果能用AI加速人工生命的發現,人類就會加深對涌現現象、進化機制和智能本質的理解,而這些核心原則,可以為下一代AI系統提供靈感!

而這次研究者們提出的算法,可以使用視覺-語言基礎模型自動發現人工生命。
以往,人工生命模擬的每一個微小細節規則,往往都需要繁瑣的手工設計;但現在,只需要描述要搜索的模擬空間,ASAL就可以自動發現最有趣、具有開放式的人造生命體了!
由于基礎模型的廣泛通用性,ASAL可以在各種經典的人工生命模擬中發現新的生命形式,包括 Boids、Particle Life、生命游戲(Game of Life)、Lenia和神經元胞自動機(Neural Cellular Automata)。

已發現的生命形式的例子
甚至,ASAL還發現了一些全新的元胞自動機規則,比原始的康威生命游戲更具開放式和表現力。
研究者相信,這種全新的范式能夠克服手動設計模擬的瓶頸,重新激發人工生命研究的熱情,從而突破人類創造力的極限,讓這一領域再上一層樓。
研究一出,網友們就炸翻了。
有人說,這項驚人的工作,是釋放AI的力量,重新定義人工生命。

有研究者表示,自己多年以來一直在嘗試類似的事,用隨機數學運算符作為基因,來模擬行為進化。但他們的這項研究,是一個更精彩的版本。


自主智能創造人工生命,聽起來,我們似乎在扮演上帝的角色。

更有趣的是,這項研究是否可以用來觀察意識的誕生?

AI自動搜索「可能的生命」
生命是什么?
這個看似簡單的問題,卻蘊含著無盡的探索空間。
現實世界中,我們只能去觀察和研究已知的生命形式。但是,通過計算機模擬,科學家們正在探索一個更宏大命題——可能存在的生命。
這也是人工生命(ALife)研究的核心。
通過計算機來研究生命,便意味著需要搜索、繪制整個可能的模擬空間,而非是單一的模擬。
它能夠讓研究人員弄清,為什么以及如何通過不同模擬配置,會產生不同涌現的行為。
ALife在模擬中進化和學習機制豐富多樣,但其基礎性突破一個主要障礙是缺乏系統性方法來搜索所有可能的模擬配置。
傳統上,研究人員主要依靠直覺和經驗,去設計猜測這些「人工虛擬世界」的基本規則。
另一個挑戰便是,在復雜系統中,簡單部件大規模相互作用,可能會產生完全意想不到的涌現結果。
最最重要的是,這些現象很難,甚至不可能提前預測。
這種不可預測性使得設計出,能自我復制、生態系統動態等特性的模擬變得極其困難。
也正因此,當前ALife領域的研究往往通過手動設計模擬,而且這些模擬也僅針對簡單、可預測的結果,從而限制了意外發現的可能性。
那么,什么才是最好的解決辦法?
Sakana AI、MIT、OpenAI等人認為,自動化搜索模擬的方法,能夠擴大探索范圍,從根本上改變ALife研究方式。
當前,也有很多團隊嘗試通過復雜生命度量、復雜性、有趣程度去量化ALife,但這些指標幾乎總是無法完全捕捉人類對這些概念的細微理解。
ASAL開創性框架
對此,新研究中提出了一個創新方案:利用基礎模型(FM)來自動化搜索合適的模擬。
基礎模型們基于大量自然界數據完成訓練,形成了與人類形式的表征能力,甚至可能正在趨向于真實世界統計特征的「柏拉圖式」表征。
正是這一特性,使得FM成為量化人工生命復雜性的理想工具。
基于這個思路,團隊提出了自動化人工生命搜索(ASAL)全新框架,如下圖所示。

研究人員首先定義一組感興趣的模擬,稱為「基質」(substrate)。
基質S包含任何感興趣的人工生命模擬集合(例如所有Lenia模擬的集合)。這些模擬可能在初始狀態、轉換規則或兩者都有所不同。
S由參數θ定義,該參數確定了一個包含三個組件的單一模擬:
- 初始狀態分布Init_θ
- 前向動態階躍函數Step_θ
- 渲染函數(將狀態轉換為圖像)Render_θ
這里,需要說明的是,渲染函數的參數化和搜索并非是必要的,但在處理先驗不可解釋的狀態值時,才是必要的。
將這些項連接在一起,定義一個函數θ,它對初始狀態 S_0 進行采樣,運行模擬T步,并將最終狀態渲染為圖像:

最后,兩個附加函數VLM_img(?) 和VLM_txt(?) 通過視覺語言FM嵌入圖像和自然語言文本,應用相應的內積運算 <?,?>,以便實現該嵌入空間的相似度測量。
與此同時,ASAL包含了三個基于視覺-語言基礎模型(FM)的算法,它們通過不同類型自動化搜索發現人工生命。具體包括:

監督目標搜索
——針對能夠產生特定目標事件或事件序列的模擬進行搜索,從而促進各種可能世界或與我們自身相似世界的發現。
在ALife研究中,尋找能夠實現特定事件或事件序列的模擬是一個重要目標。
這種發現可以幫助研究人員識別,與人類世界相似的模擬世界,或者測試某些反事實的進化軌跡在給定基底中是否可能,從而洞察某些生命形式的可行性。
為此,ASAL系統搜索能夠產生與目標自然語言提示在基礎模型表示空間中匹配的圖像的模擬。
研究人員可以控制在每個時間步是否使用提示,以及使用什么樣的提示。

開放式搜索
——針對能夠在基礎模型(FM)表示空間中產生時間上持續開放的新奇性的模擬進行搜索,從而發現對人類觀察者始終有趣的世界。
ALife研究的一個重大挑戰是尋找開放式模擬。
盡管開放性是主觀的,且難以定義,但在適當表示空間中的新穎性可以捕捉到開放性的一般概念。
這種方法將測量開放性的主觀性轉移到表示函數的構建上,該函數體現了觀察者的視角。
論文中,視覺-語言基礎模型的表示作為人類表示的智能體。
有了這種新的能力,ASAL可以搜索能夠在基礎模型表示空間中產生歷史性新穎圖像的模擬。
一些初步實驗表明,通過歷史最近鄰來評估新穎性,比基于方差的方法效果明顯更好。

啟迪式搜索(Illumination)
——針對一組具有趣味性和多樣性的模擬進行搜索,從而探索未知的世界
此外,ALife研究的另一個關鍵目標,是自動揭示基質中可能出現的所有多樣化現象。
這種理念,是源于對理解「可能存在的生命形式」的追求。這種揭示是繪制和分類整個基底的第一步。
為了實現這一目標,ASAL搜索一組模擬,使其產生的圖像在基礎模型的表示空間中,最近鄰距離最大。
研究人員發現,這種基于最近鄰的多樣性比基于方差的多樣性能夠產生更好的揭示效果。

總的來說,ASAL全新方法已經在多個人工生命系統中取得重要突破,包括Boids、粒子生命、生命游戲、Lenia和神經元元胞自動機等等。
ASAL發現了前所未見的生命形式,拓展了人工生命中涌現的結構邊界。
而且,這也是人類首次通過基礎模型驅動ALife模擬發現的研究。
實驗
研究者通過多種基質的實驗驗證了ASAL的有效性,隨后利用基礎模型(FM)對部分發現的模擬,進行了新穎的定量分析。
基礎模型
- CLIP(對比語言-圖像預訓練)
這是一種視覺-語言基礎模型,通過在大規模互聯網數據集上進行對比預訓練,將圖像和文本的潛在空間對齊,從而學習通用的圖像和文本表示。
CLIP明確提供了 VLM_img(?) 和 VLM_txt(?) 兩種功能。
- DINOv2(無標簽蒸餾)
這是一種僅針對視覺的基礎模型,通過在大型圖像數據集上使用自監督的師生框架學習視覺表征。
DINOv2僅提供VLM_img(?),因此無法用于ASAL的監督目標搜索。
基質
- Boids
它模擬了N個「鳥群」(boids)在二維歐幾里得空間中的運動。
所有boids共享一個神經網絡的權重,該神經網絡根據局部參考框架中K個鄰近boids的情況,決定每個boid向左或向右轉向。
該基質是神經網絡的權重空間。

- Particle Life(或Clusters)
它模擬了N個粒子,每個粒子屬于K種類型之一,在二維歐幾里得空間中相互作用。
該基質是K×K交互矩陣和β參數的空間,用于確定粒子之間的接近程度。初始狀態是隨機采樣的,粒子自組織形成動態模式。

- 類生命元胞自動機(CA)
它將康威生命游戲推廣到所有二進制狀態的CA,這些CA在二維晶格中運行,其狀態轉換僅取決于活著的摩爾鄰居數量和單元當前狀態。
該基質有2^18=262,144種可能的模擬。

- Lenia
它將康威生命游戲推廣到連續的空間和時間,允許更高的維度、多種核和多通道。
研究者使用LeniaBreeder代碼庫,定義了動態的45維度和初始狀態的 32×32×3=3072維度。搜索空間以找到的解決方案為中心。

- 神經元胞自動機(NCA)
通過用神經網絡表示局部轉換函數,來參數化任何連續的元胞自動機。該基質是神經網絡的權重空間。

目標模擬的搜索
- 單一目標
團隊研究了在Lenia、Boids和Particle Life中,通過單個提示詞指定目標模擬的搜索效果。
監督目標方程在經過T個模擬時間步后,應用一次提示詞進行優化。其中,CLIP作為基礎模型,優化算法使用了Sep-CMA-ES。
下圖顯示,從定性角度看,在找到與指定提示詞匹配的模擬方面,優化過程的表現良好。
一些失敗模式表明,當優化失敗時,問題往往出在基質的表達能力不足,而非優化過程本身。

通過監督目標方程,ASAL發現了一些模擬,它們的最終狀態與指定的提示詞相匹配。結果展示了三種不同基質的情況
- 時間序列目標
團隊研究了使用NCA基質搜索,生成一系列目標事件的模擬的有效性。
通過一個提示詞列表,研究者優化了監督目標方程,每個提示詞在模擬展開過程中按均勻的時間間隔依次應用。
研究者使用CLIP作為基礎模型。按照原始NCA論文的方法,使用了時間反向傳播和梯度下降算法,并采用Adam優化器進行優化。
下圖展示了ASAL可以找到生成符合提示詞序列軌跡的模擬。
通過指定期望的進化軌跡并結合約束基質,ASAL能夠識別出體現所需進化過程本質的更新規則。
例如,當提示詞序列為「一個細胞」然后是「兩個細胞」時,相應的更新規則會自然地支持自我復制的能力。

通過監督目標方程,ASAL發現了一些模擬,它們生成的事件序列與提示詞列表相匹配。第二行展示了第一個模擬如何推廣到不同的初始狀態。結果展示了NCA基質的情況
搜索開放式模擬
為了研究搜索開放式模擬的有效性,研究者使用了類生命元胞自動機(Life-Like CAs)基質,并優化了開放式評分。
CLIP作為基礎模型。由于搜索空間相對較小,僅包含262,144種模擬,因此采用了窮舉搜索方法。
下圖揭示了類生命元胞自動機中開放式的潛力。
根據開放式指標,著名的康威生命游戲(Conway’s Game of Life)在開放式評分中排名前5%。
頂部子圖顯示,最開放的元胞自動機表現出位于混沌邊緣的非平凡動態模式,因為它們既不會停滯,也不會爆炸。
左下方子圖描繪了三個元胞自動機在CLIP空間中的軌跡隨模擬時間的變化情況。
基礎模型的表示與人類的認知表示相關,通過基礎模型表示空間中的軌跡生成新穎性,也會為人類觀察者帶來一系列新奇體驗。
右下方子圖使用UMAP圖對所有類生命元胞自動機的CLIP嵌入進行了可視化,并按開放式評分著色,顯示出有意義的結構:最開放的元胞自動機集中在模擬主島外的小島上。

開放式模擬的發現
通過開放式方程,ASAL在類生命元胞自動機基質中發現了開放式模擬。這些模擬使用Golly表示法標記,表示出生和存活所需的活鄰居數量。
- 展示了發現的元胞自動機在模擬展開過程中的渲染結果
- 描繪了三個模擬在CLIP空間中的時間軌跡。像素空間模擬(紅色)表現出收斂軌跡,而基礎模型空間模擬(綠色)表現出更具發散性的軌跡,甚至超過了康威生命游戲(藍色)的軌跡
- 所有類生命元胞自動機基于其最終狀態的CLIP嵌入的UMAP投影繪制,并按開放式評分著色。結果揭示了類似模擬的獨特島嶼結構,其中最開放的元胞自動機集中在底部附近的小島上
啟迪整片基質(Illuminating Entire Substrates)
研究者使用Lenia和Boids基質,來研究啟迪式算法的有效性,其中CLIP作為基礎模型。
他們使用一種自定義的遺傳算法執行搜索:在每一代中,隨機選擇父代,生成帶有變異的子代,然后保留解決方案中最具多樣性的子集。
結果模擬集被展示在下圖的「模擬圖譜」中。這種可視化突出了按視覺相似性組織的發現行為的多樣性。
可以看到圖譜以一種有序的方式映射了所有發現的模擬。其中,左上方的插圖顯示了未使用啟迪式算法進行隨機采樣的結果。
在Lenia中,ASAL發現了許多以前未曾見過的生命形式,這些生命形式類似于按顏色和形狀分類的細胞和細菌。

在Boids中,ASAL不僅重新發現了經典的群體行為,還探索出了其他行為模式,例如蛇形運動、聚集、繞圈以及其他變體。

這些模擬的最終狀態,會通過CLIP嵌入并使用UMAP投影到二維空間中。然后對該空間進行網格采樣,并展示每個網格內最近的模擬。
量化人工生命
基礎模型(FM)不僅可以對有趣現象進行搜索,還能夠對之前僅能進行定性分析的現象進行定量化分析。
在下圖中,研究人員對兩個Boids模擬之間的參數進行線性插值。中間的模擬缺乏任何一個原始模擬的特性,表現為無序狀態,這清楚地表明Boids參數空間具有非線性和混沌特性。
更重要的是,通過測量中間模擬最終狀態與兩個原始模擬的CLIP相似性,這一定性觀察現在可以通過定量數據得以支持。

模擬最終狀態隨參數從一個模擬線性插值到另一個模擬的變化
下圖評估了粒子生命(Particle Life)中粒子數量對其表現特定生命形式能力的影響。
在這個案例中,搜索「毛毛蟲」,發現只有當模擬中至少有1,000個粒子時才能找到毛毛蟲,這與科學觀察中「數量決定差異」(more is different)的理念一致。

隨粒子數量增加,在粒子生命中涌現「毛毛蟲」的變化
接下來的圖表通過逐一調整粒子生命模擬的各個參數,并測量CLIP提示詞對齊評分的標準差,來量化每個參數對模擬行為的重要性。
在確定最重要的參數后,發現其對應于綠色和黃色粒子之間的交互強度,而這種交互對毛毛蟲的形成至關重要。

按對模擬行為的重要性對粒子生命模擬參數進行排序
下圖展示了Lenia模擬中CLIP向量隨模擬時間變化的速度。該指標在模擬看起來已經定性靜止時精確達到平臺期,為模擬提供了一個有用的停止條件。

繪制Lenia中CLIP嵌入隨模擬時間變化的圖表,量化平臺信號
獨立于基礎模型
為了研究使用適當表示空間的重要性,研究人員對Lenia和Boids的啟迪式過程所使用的FM進行了消融實驗。
在實驗中,他們分別使用了CLIP、DINOv2以及低級像素表示作為對比。
如下圖所示,在生成與人類認知一致的多樣性方面,CLIP的表現似乎略優于DINOv2,但兩者在質量上都顯著優于基于像素的表示。
這一結果強調了在衡量人類對多樣性概念的認知時,深度基礎模型表示(如CLIP和DINOv2)相比低級指標(如像素表示)的重要性。

基礎模型的重要性
在啟迪式實驗中,通過對基礎模型進行了消融分析,結果顯示,CLIP在創建與人類認知一致的多樣性方面表現略優于DINOv2,但兩者均顯著優于基于像素的表示。

































