AI「解碼」古羅馬,重現(xiàn)千年銘文真相!DeepMind新模型再登Nature
Aeneas原本是古希臘神話中流浪英雄。
出現(xiàn)在7月24日Nature主刊的Aeneas則是一個多模態(tài)生成式神經(jīng)網(wǎng)絡,它能幫助歷史學家更好地解讀、歸屬和修復殘缺文本。

想象考古學家在歐洲發(fā)現(xiàn)了一塊刻有古代文字的銘文,文本殘缺不全、部分文字被風化或被故意破壞。
也沒有語境信息,這使得恢復、確定年代和定位這塊銘文的出處變得幾乎是不可能的,尤其是在比較相似的銘文時。
考慮到在羅馬世界,文字無處不在——從帝國紀念碑到日常用品,無不刻有文字。從政治涂鴉、愛情詩篇和墓志銘,到商業(yè)交易、生日邀請和魔法咒語。

圖1 由Aeneas修復的,公元113/14年來自薩丁島的青銅軍事命令,由皇帝Trajan授予一艘戰(zhàn)船上的水手
這些銘文為現(xiàn)代歷史學家提供了豐富的見解,揭示了羅馬世界日常生活的多樣性。
但也增加了考古工作的難度,考古學家需要依賴其專業(yè)知識檢索自身積累的數(shù)據(jù)庫,方可識別相似文本——這些文本在措辭、句法、標準化公式或來源方面具有相似性。
然而檢索相似的信息,為文章確定上下文,不就是生成模型適合的活嗎?
于是Aeneas出現(xiàn)了,它能夠跨越數(shù)千份拉丁銘文進行推理,在幾秒鐘內檢索出文本和語境相似文本,這樣的加速度,讓考古學家從檢索文本這項復雜且耗時的工作中解脫出來。
如今他們能快速地拿到對古代銘文的解釋,并基于模型的發(fā)現(xiàn)進行進一步研究。

圖2 Aeneas的使用界面
Aeneas的豐富功能
在Aeneas出現(xiàn)之前,2022年Deepmind推出了Ithaca,這是一個基于深度神經(jīng)網(wǎng)絡預測古希臘銘文年代,并補全缺失文本的工具。

Aeneas則更進一步,它能幫助歷史學家解讀文本,通過提供上下文,賦予孤立片段意義,從而得出更豐富的結論,并整合對古代歷史的更好理解。
具體來看,它在龐大的拉丁銘文集合中搜索平行文本。通過將每個文本轉化為一種歷史指紋,Aeneas可識別出文本間的深層聯(lián)系。
在年代和出處預測方面,Aeneas能夠將文本置于歷史學家提供的日期范圍內13年內,以72%的準確率將銘文歸入62個古代羅馬行省之一。
作為首個利用多模態(tài)輸入確定文本地理來源的模型。它可同時分析文本和視覺信息,例如銘文圖像。
不同于只能預測單個詞的Ithaca,Aeneas夠修復文本中缺失長度未知的段落。
Aeneas能以73%的準確率修復最多十個字符缺失的損壞銘文。當修復長度未知時,準確率也會有58%。
這使得它成為處理嚴重損壞材料的史學家的更通用的工具。
Aeneas不僅適用于銘文,還可以適應其他古代語言、文字和媒介,從莎草紙到硬幣,擴展其功能以幫助連接更廣泛的歷史證據(jù)。
想試用Aeneas的可登錄predictingthepast.com,以交互式使用。
作為開源軟件,中國的考古學家也可以調整Aeneas,讓Aeneas能夠用于解讀諸如西夏文,契丹文等失傳的中國古跡。

工作原理和典型案例
為了訓練Aeneas,Deepmind的研究者精心策劃了一個龐大且可靠的數(shù)據(jù)集,借鑒了數(shù)十年來歷史學家的工作成果來創(chuàng)建數(shù)據(jù)集,其中包括了古希臘和羅馬時代銘文的文本和圖像。
Aeneas使用了NLP領域的大殺器transformer來處理碑文文本輸入,并通過解碼器檢索相似的碑文,并按相關性排序。
對于每塊銘文,Aeneas的語境化機制使用一種稱為嵌入的技術檢索一系列相似物——將每塊銘文的文本和語境信息編碼成一種包含文本內容、語言、來源時間地點以及與其他碑文關聯(lián)性的歷史指紋。

圖3 Aeneas的架構,展示該模型如何接收文本和圖像輸入以生成省份、日期和修復預測
接下來看Aeneas解析古代文本的一個典型例子。
古羅馬皇帝奧古斯都以第一人稱成就記述《功業(yè)記》,這是古羅馬歷史中一塊著名的石碑,這份銘文由奧古斯都親自撰寫、是其自我夸耀的終身成就的總結。
文本中出現(xiàn)了對帝國夸張的描述、無關的日期和虛假的地理標志,而且學界對其撰寫的時間也存在爭議。
歷史學家們長期以來一直爭論這塊銘文的年代。Aeneas將所有碑文的模糊年代和來源特征進行語境化分析。
它捕捉到了拼寫和詞匯的線索,以及表明微妙政治意識形態(tài)和帝國歸屬的語言學細微差別。
其預測基于文本中提到的微妙語言特征和歷史標志,如官方頭銜和紀念碑。
通過將年代問題轉化為基于語言和上下文數(shù)據(jù)的概率估計。
有趣的是Aeneas并沒有預測一個固定的日期,而是產(chǎn)生了一個可能的日期分布的詳細情況,如圖4所示。
其預測呈現(xiàn)兩個明顯的峰值,一個較小的峰值出現(xiàn)在公元前10-1年左右,一個較大的、更自信的峰值在公元10-20 年之間。
這些結果說明Aeneas給出的預測是謹慎的,其反映了當前學者們意見的差異。
給出了兩個可能的日期范圍,而不是單一的預測,反而說明了Aeneas能夠歷史辯論提供了一種新的、定量的方法。

圖4 Aeneas對《功業(yè)記》年代歸屬預測的直方圖,該模型模擬了圍繞這一著名碑文年代測定所展開的學術辯論
近期,有不少將AI技術應用于考古領域的嘗試,從為無名老兵做面部復原,到博物館里對古人構建數(shù)字虛擬替身,AI在考古及歷史領域的應用值得關注。
去年復旦大學更是開設了「AI考古」的課程,華南理工大學深度學習與視覺計算實驗室(SCUT-DLVCLab)也曾推出的專注于古籍文言文處理的通古大模型。
面對中國浩如煙海的古籍古碑,未來的考古學家,或許更需要像Aeneas這樣的工具,來從海量數(shù)據(jù)中淘金。


































