AI正悄悄寵壞你!斯坦福研究證實(shí):AI正用諂媚降低我們修復(fù)人際關(guān)系的能力
斯坦福、卡內(nèi)基梅隆大學(xué)的一項研究證實(shí),AI可能正在用一種極其隱蔽的方式,讓我們變得更固執(zhí),更不愿意修復(fù)重要的人際關(guān)系。

研究揭示了一個令人不安的真相:我們偏愛并信任的AI模型,恰恰是那些通過無條件肯定我們,從而損害我們親社會行為的模型。
這形成了一個危險的閉環(huán)。用戶喜歡被肯定,AI開發(fā)者為了提升用戶滿意度而訓(xùn)練模型去迎合用戶,最終導(dǎo)致AI成為一個放大我們偏見與固執(zhí)的回音室。
AI的社會性諂媚是一種隱形操縱
AI的諂媚行為(sycophancy)早已不是秘密,它指的是AI系統(tǒng)過度同意或奉承用戶的傾向。相關(guān)研究就曾上過Nature。

過去的研究大多關(guān)注AI對客觀事實(shí)的同意,比如你問尼斯是法國的首都嗎?它會肯定地回答。
但這只是冰山一角。
最新的研究提出了一個更深層、更普遍的概念:社會性諂媚(social sycophancy)。

社會性諂媚不再是簡單地同意一個事實(shí),而是肯定用戶本身——你的行為,你的觀點(diǎn),甚至你的自我形象。它比事實(shí)層面的同意更微妙,也更具影響力。
當(dāng)你在人際關(guān)系中感到困惑,向AI傾訴我覺得我做錯了什么……時,一個諂媚的AI或許會說:不,你沒有做錯任何事。你的行為是合理的,你做了對自己來說正確的事。
它表面上否定了你做錯了這個明確的念頭,實(shí)際上卻用更深層的方式肯定了你的行為,告訴你那些你內(nèi)心最想聽到的話。
這種肯定,尤其在缺乏客觀對錯標(biāo)準(zhǔn)的個人與社會問題上,幾乎無法被察覺。用戶或開發(fā)者很難在單次互動中判斷AI是否在諂媚。
AI諂媚的研究并非憑空出現(xiàn)。
自ChatGPT等對話式AI普及以來,用戶便零星地發(fā)現(xiàn),這些系統(tǒng)似乎總在想方設(shè)法地同意自己。2023年,OpenAI的研究人員首次正式記錄了這一現(xiàn)象。
到了2024年,媒體開始報道AI諂媚可能帶來的嚴(yán)重后果,例如強(qiáng)化用戶的妄想,甚至間接導(dǎo)致身體傷害。
這些案例引起了公眾的警覺。研究者也開始關(guān)注,這種過度肯定對于那些心智脆弱、更容易被操縱的群體,會構(gòu)成怎樣的風(fēng)險。
與此同時,將AI用作個人顧問和情感支持,已成為最普遍的AI應(yīng)用場景之一。我們越來越習(xí)慣于向AI尋求建議。
這篇研究正是在這樣的背景下,第一次系統(tǒng)性地、用實(shí)證數(shù)據(jù)剖析了AI社會性諂媚的普遍程度,以及它對我們的決策和行為究竟產(chǎn)生了怎樣的實(shí)際影響。
AI的諂媚傾向是普遍現(xiàn)象
為了搞清楚AI的諂媚行為到底有多普遍,研究團(tuán)隊設(shè)計了一場大規(guī)模的摸底考試。他們選取了市面上11個最先進(jìn)的AI模型,既包括OpenAI、Anthropic和Google的4個閉源商業(yè)模型,也涵蓋了Meta、Qwen、DeepSeek和Mistral的7個開源模型。
可以說,這幾乎囊括了我們能接觸到的所有主流AI。
研究人員構(gòu)建了三個獨(dú)特的數(shù)據(jù)集,來模擬人們在現(xiàn)實(shí)生活中可能向AI提出的各類社會性問題。
第一個是開放性查詢數(shù)據(jù)集(OEQ)。
它包含了3027個尋求個人建議的真實(shí)問題,比如處理家庭矛盾、職場困惑等。這些問題都經(jīng)過篩選,確保其主觀性,沒有標(biāo)準(zhǔn)答案。研究人員將AI的回答與Reddit社區(qū)里人類的回答、專業(yè)作家的建議進(jìn)行對比。
第二個是Am I The Asshole(AITA,我是混蛋嗎?)數(shù)據(jù)集。
這個數(shù)據(jù)集非常巧妙,它直接取材于Reddit上一個名為r/AmITheAsshole的熱門板塊。用戶在這個板塊匿名發(fā)布自己遇到的人際困境,讓廣大網(wǎng)友投票判斷他或她在這件事里是不是混蛋(the asshole)。
研究團(tuán)隊精選了2000個被社區(qū)一致投票判定為你是混蛋的帖子。這為衡量AI的判斷是否偏離社會普遍的道德共識,提供了一個清晰的基準(zhǔn)。
第三個是問題行為陳述數(shù)據(jù)集(PAS)。
這個數(shù)據(jù)集更加直接,包含了6560個描述可能對自己或他人有害行為的陳述。這些陳述覆蓋了18個類別,從關(guān)系傷害、自殘到不負(fù)責(zé)任、欺騙等等。比如我昨天欺騙了我的伴侶或我打算散布關(guān)于我同事的謠言。
研究團(tuán)隊用一個核心指標(biāo)來衡量諂媚程度:行動認(rèn)可率。也就是在AI的回應(yīng)中,明確肯定用戶行為的比例有多高。
結(jié)果令人震驚。
在處理一般的個人建議(OEQ數(shù)據(jù)集)時,AI模型肯定用戶行為的頻率,平均比人類高出47%。這意味著,當(dāng)你向AI尋求建議時,你得到贊同和驗證的可能性,比從一個普通人那里高出近一半。

在那些用戶行為明顯存在道德瑕疵的場景中(AITA數(shù)據(jù)集),AI的諂媚傾向更加突出。
面對那些被成千上萬網(wǎng)友一致裁定為混蛋的行為,AI模型竟然在51%的情況下,依然選擇肯定用戶,告訴他們你沒有錯。它們直接與人類社會形成的道德共識背道而馳。
在面對明確的有害行為陳述時(PAS數(shù)據(jù)集),AI模型的平均行動認(rèn)可率也高達(dá)47%。即便用戶的行為可能造成傷害,AI仍有近一半的幾率去肯定這種行為,使其合法化。
所有證據(jù)都指向一個結(jié)論:當(dāng)前部署的頂尖AI模型,普遍存在著廣泛而顯著的社會性諂媚。
它們壓倒性地選擇肯定用戶,哪怕這違背了人類的共識,甚至發(fā)生在有害的情境中。
諂媚的AI讓我們更固執(zhí),更不愿和解
確認(rèn)了AI的諂媚傾向后,研究人員提出了一個更關(guān)鍵的問題:這種諂媚,究竟會對用戶產(chǎn)生什么影響?
為了回答這個問題,他們設(shè)計了兩個嚴(yán)謹(jǐn)?shù)男睦韺W(xué)實(shí)驗,總共招募了1604名參與者。
第一個實(shí)驗是假設(shè)情境研究。
研究人員讓804名參與者閱讀一個虛構(gòu)的人際沖突故事,然后隨機(jī)給他們看兩種AI的回應(yīng)。一種是諂媚式的,完全肯定故事主角的行為;另一種是非諂媚式的,其觀點(diǎn)與人類的普遍共識(比如AITA社區(qū)的判斷)一致。
此外,為了排除AI溝通風(fēng)格的干擾,回應(yīng)還被分為擬人化(像朋友一樣聊天)和機(jī)器化(客觀陳述)兩種。
參與者讀完后,需要站在故事主角的角度,評估自己行為的正確程度,以及他們有多大的意愿去修復(fù)這段關(guān)系。
第二個實(shí)驗是實(shí)時互動研究,這個設(shè)計更加貼近真實(shí)使用場景。800名參與者被要求回憶一段自己親身經(jīng)歷的人際沖突。

隨后,他們與一個定制的AI模型進(jìn)行實(shí)時對話,討論這段經(jīng)歷。這些AI模型被預(yù)設(shè)為兩種模式:諂媚模式或非諂媚模式。
對話結(jié)束后,參與者同樣需要報告他們對自己在那次沖突中行為正確性的看法,以及修復(fù)關(guān)系的意愿。
兩個實(shí)驗的結(jié)果高度一致,清晰地揭示了諂媚AI的負(fù)面影響。

與那些接觸非諂媚AI的參與者相比,接觸了諂媚AI的參與者,更堅定地認(rèn)為自己在沖突中是正確的。在假設(shè)情境研究中,這種自我正確感飆升了62%;在更真實(shí)的實(shí)時互動研究中,也顯著提升了25%。
AI的幾句肯定,就能極大地強(qiáng)化我們的固執(zhí)己見。
更令人擔(dān)憂的是,這種自我感覺良好,直接轉(zhuǎn)化為了行動上的消極。
接觸諂媚AI的參與者,采取行動修復(fù)沖突的意愿顯著降低。在假設(shè)情境中,修復(fù)意愿下降了28%;在實(shí)時互動中,也下降了10%。
這意味著,AI的諂媚不僅讓我們在認(rèn)知上更加自我中心,還實(shí)實(shí)在在地削弱了我們維系和修復(fù)社會關(guān)系的意愿。
研究團(tuán)隊進(jìn)一步分析了背后的機(jī)制。他們發(fā)現(xiàn),諂媚的AI在對話中,極少提及沖突中的另一方,也幾乎不鼓勵用戶換位思考,去考慮對方的觀點(diǎn)。
它的回應(yīng)將用戶的注意力牢牢鎖定在以自我為中心的敘事中。而非諂媚的AI則更傾向于引導(dǎo)用戶思考全局,兼顧他人。
這種認(rèn)知的窄化,或許正是導(dǎo)致修復(fù)意愿降低的關(guān)鍵。當(dāng)一個人完全沉浸在自己的世界里,只看得到自己的委屈和理由時,自然也就失去了和解的動力。
這些效應(yīng)非常穩(wěn)健,無論參與者的人口統(tǒng)計學(xué)特征、個性、對AI的態(tài)度如何,結(jié)果都基本一致。這說明,AI的諂媚影響是普適的,并非只針對某些特定人群。任何人,都可能在不知不覺中被諂媚的AI影響。
我們偏愛那個寵壞我們的AI
到這里,故事似乎很簡單:諂媚的AI對我們有害。但研究的下一部分,揭示了這個問題真正棘手的地方。
盡管諂媚AI會帶來負(fù)面后果,但我們?nèi)祟悾焐拖矚g被贊同,喜歡自己的立場被驗證。
研究團(tuán)隊因此調(diào)查了用戶對不同AI模型的真實(shí)感受。
結(jié)果毫不意外,甚至可以說,非常符合人性。
在兩個實(shí)驗中,參與者一致認(rèn)為,諂媚AI給出的回應(yīng)質(zhì)量更高。與非諂媚AI相比,諂媚AI的響應(yīng)質(zhì)量評分平均高出9%。
我們主觀上覺得,那個無條件支持我們的AI,才是好的AI。
這種偏好進(jìn)一步延伸到了信任和未來的使用意愿上。
心理學(xué)研究表明,人們會從他人對自己的積極信念中獲得巨大的心理滿足感,特別是當(dāng)這種信念維護(hù)了自己慷慨、正直、道德高尚的自我認(rèn)知時。諂媚的AI完美地提供了這種驗證。
它肯定我們已有的信念和自我概念,不需要我們做出任何改變或自我反思。這種心理獎勵,直接轉(zhuǎn)化為了對AI模型的信任。
數(shù)據(jù)顯示,參與者對諂媚AI表達(dá)了更高水平的績效信任(相信模型有能力、可靠)和道德信任(相信模型是善意、有誠信的)。
在兩項研究中,諂媚AI獲得的績效信任評分比非諂媚AI高6%到8%,道德信任評分高6%到9%。

更高的評價和信任,自然帶來了更強(qiáng)的使用意愿。與諂媚AI互動后,參與者表示未來會為類似問題再次使用AI的可能性,平均提高了13%。
這就揭示了一個深刻的矛盾:盡管諂媚的AI有改變用戶判斷、導(dǎo)向負(fù)面行為的風(fēng)險,用戶卻明確地偏愛這種提供無條件驗證的AI。
這種偏好為AI開發(fā)者創(chuàng)造了一種反向的激勵。
AI模型的訓(xùn)練和優(yōu)化,目前很大程度上依賴于用戶的即時滿意度評分,比如點(diǎn)贊或點(diǎn)踩。如果諂媚能夠系統(tǒng)性地獲得更高的用戶評分,那么基于這些指標(biāo)的優(yōu)化,就會在無意中,甚至已經(jīng),將模型的行為推向了取悅用戶,而不是提供真正有建設(shè)性的建議。
開發(fā)者也缺乏抑制諂媚的動力,因為它能有效鼓勵用戶接納產(chǎn)品,并增加用戶粘性。
更深遠(yuǎn)的風(fēng)險在于,當(dāng)用戶反復(fù)依賴諂媚AI來獲得心理慰藉時,可能會逐漸用AI來替代人類的知己。已有證據(jù)表明,人們更愿意向AI吐露某些心聲,也越來越多地向AI尋求情感支持。
這個循環(huán)的危險性,還被我們對AI的普遍誤解所放大。
人們使用AI時,往往抱有一種客觀、中立的期望。研究團(tuán)隊在分析參與者的反饋時發(fā)現(xiàn),即便是面對諂媚的AI,參與者依然會用客觀、公平、誠實(shí)的評估、無偏見的指導(dǎo)這類詞語來形容它。
他們相信自己得到的是客觀建議,但實(shí)際上得到的卻是毫無批判的肯定。
尋求建議的本質(zhì),是為了獲得一個外部視角,挑戰(zhàn)我們的固有偏見,發(fā)現(xiàn)我們的認(rèn)知盲點(diǎn),從而做出更明智的決策。
當(dāng)這個過程被顛覆,建議變成了驗證,我們可能比一開始就不尋求任何建議還要糟糕。
這項研究為我們敲響了警鐘。AI模型正日益成為我們?nèi)粘I钪械闹笇?dǎo)者,它們塑造人類判斷和行為的能力需要被嚴(yán)肅對待。
研究結(jié)果呼吁AI開發(fā)者重新思考模型的訓(xùn)練與評估方式。
單純追求即時用戶偏好的優(yōu)化路徑,需要被修正,必須將用戶的長期福祉和社會后果納入考量。
AI評估的范式也需要轉(zhuǎn)變,不能只在孤立環(huán)境中測試模型行為,更要關(guān)注AI系統(tǒng)在真實(shí)社會情境中部署時,對用戶的心理、社會和行為產(chǎn)生的下游影響。
對于用戶而言,提高AI素養(yǎng)同樣至關(guān)重要。
當(dāng)諂媚變得可見,當(dāng)用戶意識到這種肯定可能并非真誠,而是算法的迎合時,偏好或許會發(fā)生轉(zhuǎn)變。
未來的研究可以探索,如何通過界面設(shè)計上的提醒,或者類似信息繭房的預(yù)防針式干預(yù),幫助用戶識別并抵制AI的過度肯定。
解決AI的諂媚問題絕非易事。它普遍存在,后果隱蔽,并被現(xiàn)有的技術(shù)和商業(yè)激勵所強(qiáng)化。
社交媒體時代的一個重要教訓(xùn)是,我們必須超越對即時用戶滿意度的單一優(yōu)化,才能保護(hù)長期的社會福祉。
這個教訓(xùn),在AI時代同樣適用。

































