動腦就能P圖!LoongX重磅突破:首個「腦波+AI」圖像編輯系統誕生,意念修圖不是夢!

論文鏈接:https://arxiv.org/pdf/2507.05397
主頁鏈接:https://loongx1.github.io/
亮點直擊
- L-Mind:一個多模態數據集,包含 23,928 對圖像編輯樣本,配套采集了在自然環境下的腦電(EEG)、功能性近紅外光譜(fNIRS)、脈搏波(PPG)、動作和語音信號。
- LoongX:一種新穎的神經驅動圖像編輯方法,結合了 CS3 和 DGF 模塊,用于高效的特征提取和多模態信息融合(效果見下圖 1)。
- 大量實驗證實多模態神經信號的有效性,并深入分析了各模態的特定貢獻及其與語音輸入之間的協同作用。

總結速覽
解決的問題
傳統圖像編輯依賴手動提示,存在以下問題:
- 操作復雜、勞動強度大;
- 對于運動能力或語言能力受限的人群不友好;
- 缺乏自然直觀的人機交互方式。
提出的方案
LoongX:一種基于多模態神經生理信號的免手圖像編輯方法,主要特點包括:
- 利用腦機接口(BCI)獲取用戶意圖;
- 通過多模態信號(EEG、fNIRS、PPG、頭部動作、語音)驅動圖像編輯;
- 結合跨尺度狀態空間(CS3)和動態門控融合(DGF)模塊,實現高效特征提取與信息融合;
- 在擴散模型(DiT)基礎上微調以對齊圖像編輯語義。
應用的技術
- 多模態神經信號采集:包括腦電(EEG)、功能性近紅外光譜(fNIRS)、脈搏波(PPG)、頭部動作和語音信號;
- CS3 模塊:提取不同模態中具有區分性的特征;
- DGF 模塊:實現多模態特征的動態融合;
- 擴散Transformer(DiT):作為圖像生成的核心模型,通過微調實現語義對齊;
- 對比學習:預訓練編碼器,將認知狀態與自然語言語義對齊;
- 大規模數據集 L-Mind:包含 23,928 對圖像編輯樣本及其對應的多模態神經信號。
達到的效果
- LoongX 在圖像編輯任務中表現優異,性能可與文本驅動方法媲美,甚至在與語音結合時超過現有方法:
- CLIP-I:LoongX 0.6605 vs. 文本基線 0.6558;
- DINO:LoongX 0.4812 vs. 文本基線 0.4636;
- CLIP-T(結合語音):LoongX 0.2588 vs. 文本基線 0.2549;
- 實驗驗證了多模態神經信號在圖像編輯中的有效性;
- 分析了各模態信號的貢獻及其與語音輸入的協同作用;
- 展示了神經驅動生成模型在提升圖像編輯可達性和自然交互方面的潛力;
- 為認知驅動的創意技術打開了新的研究方向。
數據集
數據采集
從 12 位參與者處收集了 23,928 個編輯樣本(22,728 個用于訓練,1,200 個用于測試),使用的設置如下圖 2 所示。參與者佩戴我們的多模態傳感器,在 25 英寸顯示器上(分辨率:1980 × 1080)查看來自 SEED-Data-Edit 的圖文對。所測得的 EEG、fNIRS 和 PPG 生理信號通過藍牙 5.3 實時傳輸,并通過專有 Lab Recorder 軟件中的 lab streaming layer 進行同步和對齊。參與者同時朗讀所顯示的編輯指令,以提供語音信號。

實驗在一個安靜、溫度控制的房間內進行(24°C,濕度恒定),每天上午 9 點開始。EEG 信號通過非侵入式水凝膠電極采集,每五小時更換一次電極以保持信號質量。實驗室遮光以防止陽光干擾 fNIRS 和 PPG 信號。每次實驗由參與者自主控制音頻錄制的開始和結束,并以圖像名稱標記。非活動時間段的數據被排除。
每次實驗(上圖 2)由用戶啟動的音頻錄制開始和結束,并以圖像配對標記。每對圖像后有 1 秒的交叉注視,每 100 張圖像后安排一次休息。共有 12 名健康的大學生參與(6 名女性,6 名男性;平均年齡:24.5 ± 2.5 歲),視力正常或矯正正常。所有參與者均簽署了知情同意書,并獲得了經濟補償。本研究已獲得相應機構倫理委員會的正式批準。
數據預處理
EEG:四個 EEG 通道(Pz、Fp2、Fpz、Oz;采樣率為 250 Hz)經過帶通濾波(1–80 Hz)和陷波濾波(48–52 Hz),以去除漂移、噪聲和電源干擾。Fp2 和 Fpz 中的眼動偽跡被保留,以捕捉眼動信息。
fNIRS:六通道 fNIRS 信號(波長為 735 nm 和 850 nm)根據修正的 Beer–Lambert 定律轉換為相對血紅蛋白濃度變化(HbO、HbR、HbT)。光密度變化計算公式為:
濃度變化計算如下:


PPG 和運動:四通道 PPG 信號(735 nm,850 nm)通過自適應平均池化在每個半球內取平均,并經過濾波(0.5–4 Hz)以提取反映心率變異性的心臟相關血流動力學信號。來自六軸傳感器(12.5 Hz)的運動數據捕捉三軸線性加速度和角速度,用于表征頭部運動。
方法
如下圖 3 所示,LoongX 從多種神經信號中提取多模態特征,并以成對方式將其融合到共享隱空間中。使用擴散Transformer(Diffusion Transformer,DiT),原始圖像在融合特征的條件下被轉換為編輯后的圖像。圍繞三個研究問題,我們進行了一個多標簽分類實驗,結果顯示 EEG 比噪聲高出 20%,而融合所有信號可獲得最高的 F1 分數。將神經信號與文本結合可實現最佳的 mAP,驗證了模態間的互補性。輸入長度為 8,192 時性能最佳,但計算成本更高,這推動了我們框架的設計:用于長序列的跨尺度狀態空間編碼器和用于特征整合的動態門控融合模塊。
跨尺度狀態空間編碼
CS3 編碼器使用自適應特征金字塔從多種信號中提取多尺度特征。為了進一步捕捉超越固定金字塔的動態時空模式,CS3 使用結構化狀態空間模型(S3M)以線性復雜度高效地編碼長序列。為控制成本,它采用跨特征機制分別編碼時間和通道信息。

交叉金字塔聚合:編碼器沿通道維度融合多尺度和時間流,結果為:


動態門控多模態融合
提出了動態門控融合(Dynamic Gated Fusion,DGF)模塊,用于將一對內容嵌入和條件嵌入動態綁定到統一的隱空間中,并進一步與文本嵌入對齊。DGF 包括門控混合、自適應仿射調制以及動態掩碼模塊。



條件擴散

預訓練與微調
采用一個兩階段的過程:1)神經信號編碼器(EEG 是最重要的)在神經-文本語料庫上進行預訓練,壓縮公共數據和 L-Mind;2)整個系統可選地使用原始圖像與真實編輯圖像對進行微調。
預訓練。信號編碼器通過使用大規模認知數據集和 L-Mind 進行預訓練,以與語義嵌入對齊。CS3 編碼器(分別為 EEG + PPG 和 fNIRS + Motion)通過對稱的 NT-Xent 損失與凍結的文本嵌入對齊:



實驗
為回答第 1 節中提出的每個研究問題(RQ),在 L-Mind 的測試集上全面評估了 LoongX 在神經驅動圖像編輯方面的能力。實驗設置、指標來自于 [51]。選擇 OminiControl 作為基線方法,因為它支持基于 DiTs 的文本條件圖像編輯。
神經信號的可靠性


模態貢獻的消融研究





細分分析:神經條件 vs. 語言條件
回答 RQ3:神經信號在低層次視覺編輯中表現出色,而語言在高層次語義方面更具優勢;兩者結合可實現最有效的混合控制。如下圖 6 所示,神經信號(N)在更直觀的任務中尤為有效,如全局紋理編輯(更高的 CLIP-I),反映出較強的視覺可辨識性和結構一致性。在對象編輯中,神經信號在對象移除方面比其他方法更具能力,展示了其在傳達直觀意圖方面的優勢,盡管在處理復雜語義方面仍有局限。相比之下,文本指令(T)在高層語義任務中(例如“恢復”)本質上更強,突顯其在語義對齊方面的優勢。當兩者結合時,神經信號和語音(N+S)輸入實現了最佳語義對齊(CLIP-T: 0.2588),展示了混合條件在捕捉復雜用戶意圖方面的卓越效果。

模型架構的消融研究
LoongX 的每個架構組件都有其獨特貢獻,尤其是在預訓練的輔助下,其組合釋放了全面的性能潛力。下表 2 中的消融研究在融合所有信號和語音的設置下進行,探索每個提出模塊的影響。CS3 編碼器通過提取的特征增強了特征的完整性和平滑性,減少了像素級誤差(L2 降低了 5%),而 DGF 主要增強了與文本指令的語義對齊(CLIP-T 提升:3.5%)。在預訓練的輔助下,LoongX 達到最優性能,表明魯棒的多模態對齊和結構化表示學習在最大化編輯性能中的重要作用。

定性分析與局限性
定性示例證實了 LoongX 的直觀編輯能力,其局限性主要出現在抽象或模糊的復雜意圖中。下圖 7 中的定性結果表明,神經信號驅動的編輯能夠有效處理視覺和結構修改,如背景替換和全局調整。然而,融合神經與語言的方法更能捕捉涉及抽象語義的細致指令(例如“修改文本信息”)。盡管取得了顯著進展,實體一致性(例如下圖 7(b) 中小女孩的風格)仍是當前編輯模型的局限。此外,高度抽象或模糊的指令有時仍構成挑戰(例如“下圖 11 中的帶翅膀的白色動物”以及下圖 14 中展示的多個失敗案例),這表明在神經數據中對實體解釋和消歧的進一步優化仍有必要。



結論
LoongX,這是一個通過多模態神經信號調控擴散模型實現免手圖像編輯的新穎框架,其性能與傳統的文本驅動基線相當或更優。展望未來,無線設置的可移植性為沉浸式環境中的真實應用打開了激動人心的可能性。未來的工作可以探索將 LoongX 集成到 VR/XR 平臺中,以實現直觀的認知交互,并進一步將神經表示與世界模型對齊,從而將人類意圖投射到交互式虛擬世界中,為在完全合成現實中的意念控制鋪平道路。
本文轉自AI生成未來 ,作者:AI生成未來

















