Cephalo:專門用于仿生設計的多模態視覺大型語言模型 原創 精華

材料科學側重于研究和開發具有特定性能和應用的材料。該領域的研究人員旨在了解材料的結構、性能和性能,以創新和改進現有技術,并為各種應用創造新材料。該學科結合了化學、物理和工程原理,以應對挑戰并改進航空航天、汽車、電子和醫療保健中使用的材料。
材料科學面臨的一個重大挑戰是整合來自科學文獻的大量視覺和文本數據,傳統方法通常無法有效地組合這些數據類型,從而限制了生成全面見解和解決方案的能力。難點在于從圖像中提取相關信息并將其與文本數據相關聯,這對于推進該領域的研究和應用至關重要。
1.Cephalo
麻省理工學院(MIT)的研究人員推出了Cephalo,這是一系列專為材料科學應用設計的多模態視覺語言模型(V-LLMs)。Cephalo旨在彌合視覺感知和語言理解之間的差距,以分析和設計仿生材料。
Cephalo 利用復雜的算法從科學文獻中檢測和分離圖像及其相應的文本描述。它使用視覺編碼器和自回歸轉換器集成這些數據,使模型能夠解釋復雜的視覺場景,生成準確的語言描述,并有效地回答查詢。

該模型使用來自數千篇科學論文和以科學為重點的維基百科頁面的集成圖像和文本數據進行訓練。它展示了其處理復雜數據和提供有見地的分析的能力。

如上圖所示,Cephalo推出的模型在4B和12B之間,基座模型有Phi-3和Idefics-2,分別采用GPT-40和Idefics-2針對原始數據進行提煉。當然本項目還利用層合并技術形成更大規模的大模型以及嘗試采用MoE的方式進行實驗。緊接著來看看本次項目的成果,在各個領域的影響力還是巨大的。

2.特色1:語料構成

圖像文本數據集的Token記長度記數直方圖,a代表來至示來自維基百科,b代表來之論文語料庫,原始說明。c-e顯示了使用不同視覺文本模型處理的結果。c顯示了Idefics-2處理維基百科后的圖像描述的Token長度。面板d和e顯示了使用Idefics-2和GPT-4o處理的論文語料庫數據集的結果。
GPT-4o數據集通常會產生更長的描述,對內容的詳細分析讓它提供了增強的推理能力和對圖像內容的細致解釋的能力。所有Token均使用 Phi-3-Vision標記器(tokenizer)完成。

上圖為從wiki和論文中獲取圖像分辨率的直方統計圖。相對而言,論文的圖片質量普遍高一點。
為了開發一種強大的數據集生成方法,研究人員使用PyMuPDF中的 fitz 庫從0到1實現全新的算法。該過程首先識別PDF中每頁的所有圖像。隨后找到以“Fig”或類似標識符開頭的文本塊。然后該算法將這些文本塊與位于其下方的最近圖像進行匹配。
匹配過程通過幾個清理步驟進行改進,包括處理不同的圖像顏色圖和格式,以及刪除特定符號,例如期刊添加到文檔中的符號。一些 PDF 產生了分割的圖形,需要額外的處理才能確保數據集的完整性。
通過與通用V-LLM(視覺大模型)共享圖像和原始標題,并讓模型開發圖像的全面描述,可以開發用于訓練的圖像文本對。研究人員同時使用開源 V-LLM、Idefics2和GPT-4o來完成針對圖的信息提煉。作為替代方案,我們還探索了使用純文本的 LLM(例如,Phi-3-Bioinspired,它提供了另一種選擇。具有視覺功能的 LLM 來處理和提煉數據集通常更好,并提供更詳細和合理的描述。

上圖中的數據集的字段既包含原始的Caption,也有經過vLLM綜合內容生成的QA字段,更加豐滿了(例如下圖的a重新生成b的描述。)

3.特色2:層合并
混合模型Cephalo-Idefics-2-vision-10b-alpha通過有效地將特定領域的專業知識與一般的對話能力相結合,表現出卓越的性能。這是通過將lamm-mit/Cephalo-Idefics-2-vision-8b-beta模型的解碼器的前32層與聊天/指令調整的HuggingFaceM4/idefics2-8b-chatty模型的最后N層合并。在針對合并模型的最后N層進行微調。若N=8,則產生10b的模型。

a顯示了使用低秩自適應對第一個模型進行微調。
b講述了合并的過程,這個過程使用兩個模型,模型A和模型B,來構建更大的模型。模型A是一個領域特定的微調模型,模型B是一個通用的聊天/指令調整模型。研究人員選擇一組層(來自模型 A 的所有層,模型 B 的深層)。這遵循使用領域特定模型的早期層和通用模型的后期層的策略。然后將選定的層合并為一個新的組合模型,該模型經過微調。
c新模型的微調是通過凍結源模型A的所有層并對源自模型B的層進行全面微調來完成的。生成的模型可以實現圖像字幕、視覺問答和多模態內容生成等任務。

給它一張雞蛋的圖,讓它描述,同時問它要是摔了會如何。從物理的角度還是回答得有模有樣的!
當然本次的研究還順手訓練了基于原來模型的MoE,3*4B的LLM。

Cephalo可以生成精確的圖像到文本和文本到圖像的翻譯,提供高質量、上下文相關的訓練數據。此功能顯著增強了人類 AI和多智能體AI框架內的理解和交互。研究人員已經在各種用例中測試了Cephalo,包括分析斷裂力學、蛋白質結構和仿生設計,展示了其多功能性和有效性。
在性能和結果方面,Cephalo的模型范圍從 4B到 12B不等,可適應不同的計算需求和應用。這些模型在各種用例中進行了測試,例如生物材料、斷裂和工程分析以及仿生設計。例如,Cephalo展示了其解釋復雜視覺場景和生成精確語言描述的能力,增強了對失效和斷裂等物質現象的理解。這種視覺和語言的整合可以進行更準確和詳細的分析,支持材料科學創新解決方案的開發。
此外,這些模型在特定應用中顯示出顯著改進。例如,Cephalo可以在分析生物材料時生成微觀結構的詳細描述,這對于理解材料特性和性能至關重要。在斷裂分析中,該模型準確描述裂紋擴展并提出提高材料韌性的方法的能力尤為重要。這些結果凸顯了Cephalo在推進材料研究和為現實世界挑戰提供實用解決方案方面的潛力。
本文轉載自 ??魯班模錘??,作者: 龐德公

















