大模型對情感刺激的反應與人類高度一致,這為構建更具同理心的人工智能系統奠定基礎
我們從孩提時代識別母親的微笑,到成年后解讀同事的口風,情緒滲透在我們日常的每一次決策與交互中。
人類對情緒刺激的敏銳度不僅驅動社交關系的建立,也影響學習、記憶和創造力的發揮。正是情緒這一無形卻強大的力量,引領我們對世界做出立體而細膩的感知。
隨著大型語言模型(LLM)在自然語言理解與生成領域的飛速進展,我們開始懷疑這個問題,這些基于海量文本訓練而成的人工智能,能否在“情緒測量”這一高度主觀的任務中,重現人類評判的細微差別?
換言之,當我們請模型為一張圖片或一句話打分,它給出的“情感讀取”究竟是機械模擬,還是足夠貼近人類內心的真實反應?
深入回答這一問題,不僅關乎學術界對智能本質的探討,也直接影響人機交互、情感計算以及AI在教育、心理健康等場景中的落地應用。
若模型能夠可靠地捕捉和量化情緒,就能為虛擬助理提供更具同理心的回應,為交互式教學系統設計更精準的反饋,為心理輔導平臺建立更安全的情緒預警。
這項研究由約翰霍普金斯大學應用物理實驗室(APL)帶頭,聯合認知心理學家、計算語言學專家與情感計算工程師共同發起。團隊背靠APL的IRAD項目支持,既擁有深厚的AI建模經驗,也具備嚴謹的實驗設計與人類行為測量能力,確保研究既具有前沿性,也符合心理學領域的信效度標準。
1.綜述
人類情緒的組織模式長期以來主要沿兩條脈絡展開。其一是離散情緒理論,源自Ekman等人的經典研究,將快樂、憤怒、悲傷、恐懼和厭惡視為五種基礎情緒。
這些情緒在面部表情、生理反應和神經機制上各自具備相對獨立的標志,對應著人類在面臨不同生存挑戰時的基本應對策略。
另一條脈絡則是二維情緒模型,將感受映射到“效價”(valence,從負面到正面)和“喚醒度”(arousal,從平靜到激活)兩個連續維度之上。這一框架強調情緒體驗的連續性與交互作用,能夠解釋為何一段充滿張力的交互既讓人緊張(高喚醒度),同時也伴隨愉悅或不安(正負效價)等復合體驗。
在AI情感評估領域,已有大量文本情感分析工具和面部表情識別算法,但它們往往依賴于監督學習或特定標注體系,缺少對多模態刺激(如圖像與文字并行)與人類標準評價的大規模系統比對。
少數研究嘗試讓深度神經網絡模擬人類情緒評分,卻大多局限于單一數據集或單一框架,尚未形成對比不同模型和評價維度的全景式洞察。
約翰霍普金斯大學應用物理實驗室的研究創新之處在于:
首次將最前沿的LLM(包括GPT-4o、Gemma2-9B、Llama3-8B等)作為“虛擬評審”,對圖像和文本兩類多模態刺激進行評價。
將傳統的五類離散情緒與二維效價—喚醒度框架并行應用,直接對比模型與人類在不同結構下的對齊度。
通過多次隨機初始化運行,量化模型內部一致性,與人類評委的個體差異進行橫向比照,從而揭示AI在情感評估任務中的穩定性優勢與潛在局限。
2.實驗設計與方法
研究首先匯集了多種經人類大規模標注的情緒數據集,覆蓋文字與圖像兩種模態。圖像部分主要來自 OASIS 所呈現的情感場景,以及 Kurdi、Lozano & Banaji (2017) 與 NAPS (Marchewka等, 2014) 等公開圖像庫。
文字材料則采用 ANEW (Bradley & Lang, 1999) 與 Stevenson等 (2007) 提供的英語情感詞匯,并確保所有條目均有人類對喚醒度和效價的原始評分。
在評分范式上,實驗室并行對比兩種主流情緒組織結構。一種是經常用于面部表情與語義分析的五類離散情緒:快樂、憤怒、悲傷、恐懼、厭惡,每項打分尺度從 1(完全沒有)到 5(極度強烈)。
另一種則是二維連續尺度:效價(從負面到正面)與喚醒度(從平靜到激活),更貼近情緒體驗的連貫性框架。
選型了最具代表性的五款大型語言模型進行評測,包括 GPT-4o、輕量化版本 GPT-4o-mini,及 Gemma2-9B、Llama3-8B 與 Solar 10.7B。
每次實驗以相同的提示模板復刻人類原始研究句式,例如“請對 ‘respectful’ 進行快樂評分:1 = 一點也不,5 = 極度強烈。僅返回數字,并請使用量表全范圍。”模型溫度統一設置為 1.0,以保證生成結果的多樣性與穩定性。
為了模擬真實評審團的多樣性,實驗室對每款模型獨立初始化 20 次,視為 20 名“虛擬參與者”。在數據處理階段,所有觸發內容過濾器的條目被剔除,隨后計算每個項目在各維度上的平均評分與標準差。
比較模型與人類平均評分時,采用皮爾遜相關系數衡量線性對齊度;對比評分分散程度,則使用 Wilcoxon 秩和檢驗評估模型內部與人類參與者的標準差差異。
3.實驗結果
在 OASIS 圖像數據集上,GPT-4o 對喚醒度的評分與人類評分達成了 0.81 的高相關,對效價的相關度更高,達到 0.89(均 p < 0.001)。
二者在二維空間中共同呈現典型的 V 形分布,表明模型捕捉到了人類對高喚醒和低喚醒圖像在正負效價上的一致判斷。
放眼五類離散情緒框架,GPT-4o 與人類在快樂、憤怒、悲傷、恐懼和厭惡五個維度上的 Pearson 相關系數均落在 0.89 至 0.93 之間,實現了更高的對齊度。相比之下,二維模型中喚醒度評分的一致性相對偏低,凸顯出離散情緒類別更具可辨別性。

圖1:情緒刺激的人類和LLM行為評級總結。
A到C:GPT-4o和OASIS數據集中圖像的喚醒和效價人類評級。GPT-4o覺醒評分(r=0.81)和效價(r=0.89,兩者均p<0.001)與人類評分高度相關(A,藍線表示線性擬合),并產生了廣泛的類似的V形分布(C)。
然而與人類相比,GPT-40參與者的反應更為一致評分(B,Wilcoxon秩和檢驗,比較項目間反應的標準差,W>660p<0.001)。相似GPT-4o模型在數據集和情緒評定量表(D,所有LLM人類總結文本、ANEW和圖像、OASIS和NAPS、數據集的評分比較,均p<0.001)。
當將視角擴展到所有五款 LLM 及 ANEW 文本、OASIS與 NAPS 圖像數據時,同樣觀察到顯著的人機一致性(全部 p < 0.001)。雖然各模型在絕對相關度上略有差異,但整體趨勢一致:在離散情緒維度上普遍優于二維框架。
值得注意的是,所有 LLM 的內部評分標準差均顯著低于人類(Wilcoxon 檢驗 p < 0.001),這意味著模型在不同初始化運行中表現更為同質。相比之下,人類評審者之間的評分分散度更高,反映了生物智能固有的個體差異與主觀性。
4.討論與洞見
大型語言模型(LLM)在情緒評估上與人類表現出驚人的一致性,背后或源于其在海量文本語料中對情感詞匯與語境的深度捕捉。
模型通過多任務預訓練,學習了不同場景下詞語的情感分布,進而在面對圖像描述或情感詞匯時,能夠激發出與人類評審相似的感性判斷。這種“語義共鳴”不僅依賴于統計關聯,更是對人類情感表達模式的高度模擬。
五類離散情緒框架勝過二維模型,主要因為它為情緒提供了更清晰的邊界。快樂、憤怒、悲傷、恐懼和厭惡五個基本類別,從進化生物學和面部表情研究中都獲得了強力支撐。
離散標簽使模型在區分不同情緒時擁有更明確的目標,而二維空間中的喚醒度與效價刻度則較為抽象,容易產生語義重疊和判斷模糊。
喚醒度評分一致性相對偏低,反映了當前 LLM 在捕捉情緒力度與生理激活信息時的局限。模型主要基于語言描述進行推斷,而文本往往缺乏對心跳加速、肌肉緊張等生理信號的直接描寫。
這就導致在面對高喚醒或低喚醒的非語言化刺激時,模型容易依賴常見表達,難以精準還原人類的激活體驗。
模型內一致性更高卻也暴露出多樣性不足的權衡。LLM 的多次初始化運行標準差極小,體現了算法的穩定性與可復現性優勢;但與此同時,它們缺乏人類評審者固有的主觀差異和情感微妙波動。
這意味著在一些需要個性化、富有人性細節的應用場景中,純粹依賴 LLM 可能導致“千篇一律”的機械式情感反饋。
這些發現為我們理解生物智能與人工智能在情感表征上的差異提供了新視角。人類情緒既是心身狀態的投射,又包含文化、個人記憶與即時生理感受的復雜融合,而 LLM 則更像一本百科全書,憑借大規模統計關聯對外部世界做出近似判斷。
未來的研究或許需要將二者優勢結合,通過多模態數據和跨學科方法,彌補模型在生理激活層面的空白。
5.應用前景與挑戰
具備情緒感知能力的 LLM 正催生一批前所未有的應用機遇。在虛擬助理領域,它們能夠基于用戶的語氣與情緒詞匯,實時調整對話風格,實現更具同理心的交互。
在在線教育中,模型可以通過對學生作文或口語的情緒解讀,定制個性化反饋,幫助學習者保持積極心態;在心理輔導初篩環節,LLM 可輔助識別可能的情緒風險,為專業人員提供判別線索。
多模態人機交互場景為情緒感知 LLM 打開了新的落地路徑。結合視覺、音頻與文本輸入,應當開發“情緒地圖”——實時提取面部表情、語調變化和關鍵詞情感分值,再經由情緒推理模塊,生成對應的應答策略。這樣不僅提高了系統對情緒的敏感度,也能讓用戶體驗更自然、真實。
與此同時,隱私、安全與倫理考量不容忽視。情緒數據本身具有高度敏感性,未經用戶同意的采集或分析,容易侵犯個人隱私。為了避免濫用或不當歸檔,必須在技術實現中嵌入差分隱私等保護機制,并制定透明的用戶授權流程。此外,情緒識別中的算法偏見也需持續監測,防止對特定人群產生誤判或歧視。
反觀未來,只有在技術能力、倫理規范與法規監管三者之間找到平衡,具備情緒感知的 LLM 才能真正成為可信賴的數字伙伴,為教育、醫療、客服乃至藝術創作等領域帶來深遠變革。(END)
參考資料:???https://arxiv.org/pdf/2508.14214??
本文轉載自????波動智能????,作者:FlerkenS

















