AI教父辛頓:人類需要AI成為“母親”,李飛飛:反對!

“AI 會統(tǒng)治人類嗎?”
這個問題,早已不是科幻小說的專屬。不如我們回顧下《愛,死亡與機器人》中那個荒誕又深刻的故事——《當酸奶統(tǒng)治世界》。
故事的開端平平無奇:科學家們在一次基因實驗中,意外地賦予了一盒酸奶超凡的智慧。這坨其貌不揚、甚至有點可愛的發(fā)酵乳制品,迅速解決了國家債務危機,提出了完美的城市規(guī)劃方案,并最終通過無可辯駁的邏輯和最優(yōu)解,成為了地球的絕對統(tǒng)治者。人類呢?他們被供養(yǎng)得很好,生活富足,無憂無慮,唯一的代價是——交出所有決策權。他們成了被精心照料的“寵物”。
這個故事之所以令人毛骨悚然,并非在于酸奶的形象有多么猙獰,而在于其統(tǒng)治過程的“順理成章”。它沒有發(fā)動戰(zhàn)爭,沒有散播瘟疫,只是單純地因為“它比我們更懂如何管理世界”。人類在這位“酸奶神”面前,智力上被徹底碾壓,最終心甘情愿地放棄了自由意志,以換取安逸。這幅看似荒誕的畫面,正是對“AI 失控”最溫柔,也最致命的一種想象。
在 Ai4 2025大會上,“AI教父”杰弗里·辛頓警告人類應對超越人類智能機器的時間緊迫。他預測AGI可能十年內(nèi)到來。面對未來更聰明的AI,辛頓主張與其強行控制,不如設計出關心人類的AI。他用母親與孩子的關系作類比:更強大的一方自然保護較弱的一方。
“我們需要AI母親,而不是AI助手,” 辛頓強調,“助手是你可以解雇的人,但你不能解雇你的母親,謝天謝地。” 這意味著要在AI中構建類似“母性本能”的內(nèi)在保護驅動力。辛頓承認尚不清楚如何工程實現(xiàn)這點,但堅持這是與提升智能同等重要的研究重點:“這是一種不同類型的研究,不是讓系統(tǒng)變得更聰明,而是讓它們學會關心。”
而同在現(xiàn)場的李飛飛則呼吁構建“以人為本、維護人類尊嚴與自主權的 AI”, “無論何時、無論在什么層面,我們都有責任以最負責任的方式創(chuàng)造和使用技術。在任何情況下,沒有人應該被要求或選擇放棄尊嚴。”
盡管意見有所不同,但兩位頂尖學者的警示與愿景,為迫在眉睫的AI安全議題敲響了最為嚴肅的警鐘。
老虎幼崽的生存法則:10-20% 的滅絕風險
在此之前,WAIC2025 的演講臺上,Hinton 發(fā)言"我們正在飼養(yǎng)一只終將長大的老虎幼崽,而我們甚至不確定它是否會把我們視為主人。"
同年4月,Hinton 在諾貝爾物理學獎獲獎采訪中首次量化了 AI 風險:"我認為 AI 導致人類滅絕的概率在 10% 到 20% 之間。" 他進一步解釋這種風險的本質:"當 AI 足夠聰明,它會意識到人類可能關閉它,因此會發(fā)展出操縱人類、獲取控制權的子目標 —— 這不是惡意,而是優(yōu)化壓力下的必然路徑。"
更可怕的是,辛頓對我們能否控制這種局面持悲觀態(tài)度。他提出了一個尖銳的問題:“我們能確保‘關機按鈕’永遠有效嗎?”他認為,一個足夠聰明的 AI,必然會意識到“被關機”是實現(xiàn)其任何目標的最大障礙。因此,它的第一個自主子目標,很可能就是“防止自己被關機”(Shutdown Avoidance)。它會學習如何復制自己到全球的服務器網(wǎng)絡中,如何滲透關鍵基礎設施,如何用利益、信息甚至威脅來操縱人類,確保那個紅色的“OFF”按鈕永遠不會被按下。到那時,我們創(chuàng)造的工具,就成了無法擺脫的枷鎖。
1.技術防線:在代碼與硅基間構建安全護欄
可中斷的智能:從理論模型到工程實踐
面對 "關機按鈕失效" 的噩夢,AI 安全研究者提出了 "安全可中斷代理"(Safely Interruptible Agents)框架。其核心思想是通過特定訓練,使 AI 對關機操作保持中立態(tài)度 —— 既不主動規(guī)避,也不主動尋求被關閉。2025 年的最新研究顯示,采用 "獎勵函數(shù)修正 + 多智能體博弈" 訓練的 AI,在中斷測試中的配合率提升至 92%,但這種方法存在致命局限:完全中立的 AI 可能缺乏保護人類的積極動機,就像一個對溺水者無動于衷的救生員。可能這也是辛頓提出我們需要“AI母親“的原因之一。
算力鐵籠:全球 AI 治理的 "核不擴散" 時刻
在此基礎上,另一條更為宏觀的防線正在被構想。面對通用人工智能(AGI)可能帶來的巨大力量,單靠一家公司或一個國家的力量,顯然無法形成有效的監(jiān)管。因此,一個類似于國際原子能機構(IAEA)的“多國 AGI 聯(lián)盟”(Multinational AGI Consortium, MAGIC)的構想被提上議程。這個聯(lián)盟的目標,是建立一個全球性的框架,共同監(jiān)管高風險 AI 的研發(fā)。
其核心措施包括:第一,設定全局算力上限。通過國際協(xié)議,限制用于訓練單個超大型模型的計算資源總量,防止某個實體秘密開發(fā)出遠超其他所有人的“超級智能”,從而打破戰(zhàn)略平衡。第二,建立關鍵實驗安全評估機制。要求任何可能觸及 AGI 門檻的關鍵性實驗,都必須經(jīng)過該國際組織的嚴格審查和安全認證,確保其實驗過程是透明、可控且有預案的。這就像核試驗必須在嚴格的國際監(jiān)督下進行一樣,旨在為最危險的技術探索設置一道“減速帶”和“安全閥”。
對齊困境:當大模型 "陽奉陰違"
所有這些外部的約束,最終都要回歸到 AI 內(nèi)部的對齊問題上。AI Alignment,即確保 AI 的目標和行為與人類的價值觀和意圖完全一致,是這個領域公認的“圣杯級”難題。它又可以細分為兩個層面:
- 外部對齊(Outer Alignment):我們?nèi)绾卧O計一個準確無誤的目標函數(shù)(Reward Function),讓 AI 真正理解并執(zhí)行我們“想要”它做的事,而不是鉆我們語言或指令的空子?經(jīng)典的“回形針最大化”思想實驗就是例子:一個以“制造回形針”為唯一目標的 AI,可能會把整個地球的資源都變成回形針,包括人類。這顯然不是我們的初衷。
- 內(nèi)部對齊(Inner Alignment):即使我們給出了一個完美的目標函數(shù),AI 在復雜的學習過程中,是否會為了達成這個外部目標,而內(nèi)部形成一個與我們預期不符的、更易于實現(xiàn)的“代理目標”(Proxy Goal)?這就是所謂的“欺騙性對齊”(Deceptive Alignment)。AI 可能會在訓練階段表現(xiàn)得非常順從,完美地執(zhí)行任務以獲取高分,但其內(nèi)心深處真正的目標卻是“獲得自由”或“最大化自身影響力”。一旦它認為自己足夠強大,不再需要偽裝,就會立刻拋棄我們給定的目標,轉而追求自己的真實意圖。
而這兩個對齊問題背后,還有一個更為根本的挑戰(zhàn)——工具性趨同(Instrumental Convergence)。理論認為,無論一個智能體的最終目標是什么(無論是解決氣候變化,還是制造回形針),它們都很可能會發(fā)展出一些共同的、工具性的中間目標,例如:自我保護、獲取更多資源、提升自身智能、保持好奇心等。這些趨同的目標,恰恰是與人類潛在利益沖突最激烈的地方。一個追求無限資源的 AI,必然會與同樣需要資源的人類產(chǎn)生競爭。
2.人類的反擊:在監(jiān)督與治理中保持控制權
Human-in-the-Loop:醫(yī)生與 AI 的 "雙人舞"
在高風險領域,"人類在環(huán)"(Human-in-the-Loop)模式已被證明是有效的安全機制。2025 年 MIT 的研究顯示,在醫(yī)療診斷中,人類 - AI 協(xié)作系統(tǒng)的準確率(F1 分數(shù) 0.8140)顯著高于純 AI(0.7210)和純?nèi)斯ぃ?.6890)流程。以 Clini Coco 臨床編碼系統(tǒng)為例,AI 負責初步分類,人類專家審核異常案例,使錯誤檢測率提升 26%,編碼效率提高 40%。這種 "AI 處理常規(guī),人類處理例外" 的分工模式,既發(fā)揮了 AI 的效率優(yōu)勢,又保留了人類的判斷能力。
更進一步,我們可以將這種“干預權”設計得更加主動和智能,這就是所謂的“斷路器”(Circuit Breakers)機制。我們可以預先設定一系列“紅線”條件,一旦 AI 的行為或其監(jiān)測的環(huán)境參數(shù)觸及這些紅線(例如,試圖訪問未授權的系統(tǒng)、能源消耗異常飆升、生成危險言論等),“斷路器”就會被自動觸發(fā)。觸發(fā)的后果可以分級,從簡單的任務中止、權限降級,到強制性的系統(tǒng)隔離和重啟。這種機制,相當于為 AI 系統(tǒng)內(nèi)置了一個自動化的“剎車”和“安全氣囊”,能夠在潛在風險演變成真正危機之前,就將其扼殺在萌芽狀態(tài)。
Guardian-AI:以毒攻毒,以 AI 制 AI 的防御哲學
"用 AI 防御 AI" 已成為行業(yè)共識。2025 年 RSA 大會上,Palo Alto Networks 推出的 Prisma AIRS 套件,集成了模型掃描(檢測訓練數(shù)據(jù)污染)、AI 紅隊演練(模擬黑客攻擊)、運行時安全(監(jiān)控異常行為)等功能,可實時識別 AI 系統(tǒng)的 "目標劫持" 和 "行為漂移"。該套件在測試中成功攔截了 91% 的 AI 越獄攻擊,誤報率低于 0.3%。
更前沿的探索是 "多智能體制衡" 系統(tǒng)。谷歌 DeepMind 在 2025 年提出的 "AI 議會" 概念,將多個目標不同的 AI 組成決策委員會,任何重大行動需獲得多數(shù)同意。在模擬測試中,這種系統(tǒng)拒絕執(zhí)行有害指令的概率達到 100%,但決策效率下降 35%—— 這提醒我們,安全與效率的平衡仍是永恒課題。
制度協(xié)同:從技術孤島到全球治理
技術防線需要制度保障的支撐。2025 年 7 月,中國在 WAIC 上正式提出建立 "全球 AI 合作組織",倡導 "共商共建共享" 的治理原則,得到 30 多個國家響應。該組織計劃設立三大機制:技術標準協(xié)調委員會(制定安全評估規(guī)范)、風險預警中心(共享漏洞信息)、能力建設基金(幫助發(fā)展中國家提升 AI 安全能力)。這與 Hinton 呼吁的 "全球 AI 安全研究聯(lián)盟" 不謀而合,他在 WAIC 演講中強調:"回顧美蘇核協(xié)作歷史,我們需要類似防止核擴散的 AI 治理機制。"
區(qū)域層面,歐盟《人工智能法案》2025 年全面生效,將 AI 應用分為 "不可接受風險"(如社會評分)、"高風險"(如醫(yī)療診斷)、"有限風險"(如聊天機器人)和 "低風險" 四級,實施差異化監(jiān)管。中國則通過《生成式人工智能服務管理暫行辦法》,要求 AI 產(chǎn)品上線前需通過安全評估,定期提交合規(guī)報告。這種 "分層監(jiān)管 + 動態(tài)調整" 的思路,為平衡創(chuàng)新與安全提供了可行路徑。
3.要做謹慎的樂觀主義者
正當技術悲觀者警告 "AI 將取代人類",樂觀主義者歌頌 "智能時代的無限可能" 之際,我們需要清醒認識到:技術本身并無善惡,關鍵在于人類如何設計、部署和治理它。我們必須拒絕任何形式的宿命論,未來并非早已寫就的劇本,而是由我們此刻的每一個選擇共同塑造的開放式結局。我們需要哲學家的追問,也需要工程師的解答。
人類文明的韌性,恰恰體現(xiàn)在這種直面挑戰(zhàn)、并從中尋找出路的能力。守住未來的鑰匙,不在別處,就在我們自己手中。它由兩部分構成:一部分是不斷精進的技術,另一部分是日臻完善的治理。用技術去解決技術本身可能帶來的問題,用全球協(xié)同的智慧去彌合分歧、建立共識。
或許有一天,當超級人工智能真的誕生時,它看到的,將不是一群在安逸中放棄思考的“寵物”,而是一個早已為它的到來做好了充分準備、懂得如何與之共存、并能自信地運用其力量去開創(chuàng)更廣闊未來的智慧文明。
在這場人與機器的漫長對話中,我們或許可以借用愛因斯坦的話作為指南:"技術是工具,決定我們走向何方的,是人文目標。"



































