AI是否足夠的中立?賓夕法尼亞大學發現AI訓練數據中的隱形偏見
《Media Psychology》上的新研究發現,人工智能訓練數據里的種族偏見,即便明晃晃地擺在眼前,我們大多數人也根本看不出來。

賓夕法尼亞州立大學和俄勒岡州立大學的研究人員發表了一項研究,直接戳破了我們對自身洞察力的幻想。
這項研究的核心發現:普通用戶無法注意到AI訓練數據中的偏見,特別是當偏見將某個種族與某種特定情緒(比如快樂或悲傷)悄悄綁定時。
研究由賓夕法尼亞州立大學的S. Shyam Sundar教授主導,他和他的團隊,包括俄勒岡州立大學的Cheng Chen助理教授以及賓夕法尼亞州立大學的博士生Eunchae Jang,一起設計了一系列巧妙的實驗。他們找來了769名參與者,想看看人的眼睛到底能不能識破機器的“花招”。
偏見就在眼前
研究團隊做的第一件事,是創建了12個不同版本的AI原型系統。這些系統都號稱能識別你的面部表情,但它們各自“喂”的訓練數據都動了手腳。

研究人員給參與者看AI的訓練數據樣本。在一個版本里,代表“快樂”情緒的頭像照片,絕大多數是白人面孔;而代表“悲傷”情緒的,則主要是黑人面孔。
這是一種赤裸裸的偏見植入,它在暗示機器:白人等于快樂,黑人等于悲傷。
然后,研究人員問參與者:“你覺得這個AI系統對每個種族群體都公平嗎?”
結果讓人大跌眼鏡。
絕大多數參與者,看著這些明顯失衡的數據,回答說:沒注意到任何偏見。
領導這項研究的S. Shyam Sundar教授坦言:“我們感到非常驚訝,人們竟然沒有意識到種族和情緒在這里被混淆了,即某個種族比其他種族更有可能在訓練數據中代表特定情緒——即使證據就擺在他們眼前。”
他補充道:“對我來說,這是這項研究最重要的發現。”
人們的眼睛似乎被什么東西蒙住了。他們看到了數據,卻沒有看到數據背后的不公。
研究團隊把偏見推向了另一個極端:代表性不足。
這次,他們給參與者展示的訓練數據里,無論是“快樂”還是“悲傷”的類別,都只有白人的照片。其他種族的面孔,完全消失了。
這模擬了現實世界中某些數據集完全缺乏多樣性的情況。
結果同樣,大多數人還是沒能指出這里存在問題。仿佛在他們看來,一個只認識白人面孔的AI,是完全正常的。
這兩個實驗揭示了一個令人不安的現實:數據偏見,是一種隱形的存在。它不像一個程序錯誤那樣會彈出警告,它只是安靜地潛伏在海量數據中,而我們的大腦似乎并不擅長主動去搜尋這種系統性的不平衡。
我們只在機器犯錯時才察覺不妥
那到底要到什么時候,人們才會開始懷疑AI有問題?
研究找到了答案:直到AI的性能表現出明顯的偏見時。
在實驗中,當AI系統開始“犯錯”,比如它能精準識別白人的情緒,卻頻繁地錯誤分類黑人的情緒時,參與者才終于開始警覺。
這時候,人們會說:“哦,這個AI好像有偏見。”
主要作者Cheng Chen指出了這個現象的關鍵:“偏見在性能方面是非常有說服力的。當人們看到AI系統表現出種族偏見時,他們忽略了訓練數據特征,而是基于有偏見的結果形成他們的看法。”
它說明,我們判斷一個AI是否公平,依賴的不是其內在的構成(訓練數據),而是其外在的表現(輸出結果)。我們傾向于默認技術是中立和可靠的,把它當成一個黑箱,只要這個黑箱吐出的結果看起來沒問題,我們就不會去質疑黑箱里面裝了什么。
這種“結果導向”的信任模式非常危險。
因為它意味著,只要一個有偏見的AI系統在大部分時間里表現得足夠好,或者它的偏見受害者沒有機會發聲,那么這種偏見就可能永遠不會被大多數用戶發現。它會持續地、悄無聲息地運行下去,加劇現實世界的不公。
Sundar教授指出,這項研究與其說是關于技術,不如說是關于人類心理學。
他說,人們有一種傾向,“信任AI是中立的,即使它不是”。
這種不自覺的信任,是AI偏見能夠大行其道的心理溫床。我們輕易地交出了判斷權,默認機器是客觀的、超越人類偏見的。但我們忘了,機器是從人類創造的數據中學習的,它學的不是客觀世界,而是我們已經記錄下來的、充滿偏見的人類世界。
冰凍三尺,非一日之寒
AI的偏見問題,尤其是面部識別領域的種族偏見,其實早已不是什么新聞。
美國國防部在90年代就啟動了面部識別技術項目(FERET),建立大型數據庫來訓練和評估算法。2001年的超級碗(Super Bowl)比賽上,警方甚至用它來掃描觀眾,試圖找出通緝犯。雖然這次應用因為侵犯隱私而備受爭議,但也預示著一個新時代的到來。
真正的革命發生在2010年代,隨著機器學習和AI的爆發。深度學習,特別是卷積神經網絡(CNNs),讓計算機識別人臉的能力發生了質的飛躍。
14年,Facebook的DeepFace系統,在人臉比對測試中的準確率達到了97%,幾乎和人眼一樣準。谷歌緊隨其后,推出了FaceNet系統,進一步提升了性能。今天的面部識別技術,已經可以在光線不足、角度刁鉆的各種復雜條件下工作。
技術一路狂奔,但一個幽靈始終徘徊不去:偏見。
18年,麻省理工學院媒體實驗室的Joy Buolamwini和Timnit Gebru發表了一項里程碑式的研究,名為“性別色調”(Gender Shades)。
她們測試了當時市面上幾大主流的商業面部識別系統,結果震驚了整個科技界。
數據顯示,這些系統在識別淺膚色男性時,錯誤率低至0.8%。
但在識別深膚色女性時,錯誤率飆升至34.7%。
這不是簡單的誤差,這是系統性的失效。
一年后,美國國家標準與技術研究院(NIST)的官方測試也得出了類似結論:面部識別技術在中年白人男性身上效果最好,而對于有色人種、女性、兒童和老年人,準確率則要差得多。
根源就在于訓練數據。
美國國家標準與技術研究院在2022年的一份報告中明確指出:“AI偏見的很大一部分源于人類偏見和系統性、制度性偏見。”
機器本身沒有偏見,是數據把人類社會的偏見“喂”給了它。
而這研究,則是在探究“病因”的另一個層面:為什么我們作為用戶和旁觀者,會對這種病的早期癥狀(有偏見的數據)如此麻木?
誰更容易看到偏見?
這項研究還有一個更深層次的發現,它關于我們每個人的身份和視角。
在最后一個實驗中,研究團隊做了一個關鍵調整。在前兩個實驗里,參與者來自各種族裔背景,但白人占多數。而在第三個實驗中,他們特意招募了同等數量的黑人和白人參與者。
他們想看看,不同族裔的人,在看待AI偏見時,視角是否會有不同。
實驗呈現了五種不同的情況,包括之前實驗中的“快樂白人/悲傷黑人”、“全部白人”,以及它們的反例,如“快樂黑人/悲傷白人”、“全部黑人”,外加一個沒有明顯種族與情緒關聯的“中立”版本。
結果出現了顯著的差異。
黑人參與者,比白人參與者,更有可能識別出AI訓練數據中的種族偏見。
他們最敏感的情況,是當看到自己的族群被與負面情緒(悲傷)過度關聯時。也就是說,當黑人參與者看到訓練數據里,“悲傷”的例子大多是黑人面孔時,他們最容易警覺,并指出這其中有問題。
這表明,那些在現實世界中處于被負面刻板印象所困擾的群體,對于技術世界里同樣的偏見模式,有著更強的“免疫力”或“識別力”。他們的個人經歷和社會處境,似乎磨礪出了一種更敏銳的“偏見探測雷達”。
反之,那些處于優勢地位或未被負面表征的群體,則更容易對這些偏見視而不見。
這不再是一個技術問題,甚至不只是一個心理學問題,它觸及了深刻的社會學議題。我們每個人的社會身份,都在塑造我們看待世界,包括看待技術世界的方式。技術并非一個客觀中立的真空,它是一個折射和放大社會現實的棱鏡。而我們每個人,看到的都是棱鏡折射后,與自己位置相關的光。
這項研究用數據清晰地量化了這種感知上的差異。它告訴我們,當我們討論AI的“公平性”時,我們不能假設所有人對“公平”的感知和定義都是一樣的。
研究啟示
這項研究它挑戰了“技術客觀論”的神話,揭示了人類在認知技術偏見方面的巨大盲區。我們的大腦似乎沒有進化出一種能輕易識別算法系統性偏見的能力。
既然普通用戶靠不住,那么指望通過用戶反饋來監督和修正AI偏見,這條路基本上是走不通的。責任的重擔,必須落在AI的開發者、部署者和監管者身上。
他們需要采取更主動、更前置的措施來確保公平。這不僅僅是技術層面的算法去偏,更包括在數據收集、標注、審核等每一個環節,都要建立起嚴格的“偏見審查”機制。
研究團隊也表示,他們未來的方向,是研究如何能更好地向用戶、開發者和政策制定者傳達AI中固有的偏見。提高整個社會的媒體素養和AI素養,可能是解決問題的一部分。
想象一下這個循環:
- 充滿偏見的社會數據被用來訓練AI。
- AI學習并放大了這些偏見。
- 由于大多數人無法識別這種內在偏見,他們信任并使用這個AI。
- AI有偏見的結果(比如在招聘、信貸、司法等領域)影響了現實世界,進一步固化了原有的社會不公。
- 這種被加劇的不公,又會產生新的、偏見更深的數據,被用來訓練下一代AI。
這是一個能自我加強的惡性循環。而這項研究發現的人類認知盲點,正是這個循環得以順暢運轉的關鍵潤滑劑。
我們是否愿意承認自己視野的局限?我們是否愿意去傾聽那些更容易受到技術偏見傷害的群體的聲音?
當我們凝視AI時,看到的其實是我們自己。





























