中科院曾毅:安全是人工智能第一性原理,應不可違背,無法刪除
在關于人工智能未來的爭論中,有一種聲音始終沒有離場:“別給技術加太多枷鎖,它還在飛奔。”但問題是,它究竟朝哪個方向飛?我們總在談論AI的發展速度,卻很少討論,它的發展軌跡是誰決定的。
7月28日,在“世界人工智能大會·大模型智塑全球產業新秩序論壇”上,中國科學院自動化研究所人工智能倫理與治理研究中心主任曾毅提出了一個愈發緊迫的觀點:倫理治理不是減速的剎車,而是掌舵的方向盤。我們不應只把“合乎倫理”當成最低限度的約束,而要把“有道德”視作AI可以追求的高度。
更進一步,曾毅認為,安全性不是技術演進的“副產品”,而是人工智能的第一性原理,不可違背、無法刪除。
在這場演講中,曾毅教授系統地梳理了人工智能治理的核心議題:從L0層的風險識別,到L1層的價值塑造;從中美技術倫理體系的分化,到中文價值觀在訓練語料中的“缺席”;從“安全護欄”不足以承載未來,到如何引導AI從被動遵循倫理,走向主動生成道德。
以下是這場演講的完整記錄,一份關于AI底層邏輯重構的系統性思考。
1.倫理治理,不是“剎車”,而是“方向盤”
非常高興來到大模型智塑全球產業新秩序論壇。秩序的定義非常重要,人工智能的發展需要方向、當前的人工智能是看到機遇,然后進行嘗試,但真正的發展需要借助更系統的方法來塑造方向與秩序。在我看來,倫理與治理正是塑造人工智能發展方向的關鍵視角。
另一方面,人工智能合規與合乎倫理的議題逐漸升溫,但探討合乎倫理只是第一步,未來我們應該探索如何打造具有道德的人工智能。

其實,倫理、安全與治理是人工智能核心能力。有觀點認為,過度關注安全可能耽誤發展,實際上卻并非如此。治理的意義在于為人工智能指明方向,并給出可行與不可行的路徑。也就是說,倫理與安全不僅是發展的“剎車”,也相當于決定前進方向的“方向盤”。
放眼全球,人工智能風險案例有60%發生在美國,居于首位。而中國在風險出現的次數上排名第二。有觀點認為兩國在人工智能標準、倫理規范和治理原則的制定上存在競賽,但從某種程度上講,這更多出于各自內需。虛假信息、偏見、歧視、對身心的危害、濫用與惡用以及隱私侵權等問題,已在人工智能發展過程中時有發生。面向大模型的研發,應當首先規避這些潛在風險,即防范“負面倫理”風險。
但更進一步,人工智能的研發必須確保其能夠符合核心價值觀。技術需要能夠真正契合不同文化背景所倡導的價值觀。核心價值觀具有普遍性,與具體領域無關,但在實際應用中,還必須結合特定專業領域的特殊倫理考量,例如,具身智能、端側智能、無人駕駛等領域的人工智能應用,各自都面臨獨特的倫理挑戰。
下面具體闡述防范“負面倫理”和確保核心價值觀。
2.治理的兩級結構:L0風控,L1價值

在倫理風險防范方面,可將隱私侵權、惡意濫用、身心傷害、偏見歧視與虛假誤導信息這五大維度,進一步細分為九十個不同的子維度。
有人常問我,倫理與安全的關系是什么?二者密不可分,互為依存。從人工智能倫理的角度來看,一個不安全的模型顯然無法滿足倫理要求,因為它在服務或應用中可能帶來潛在風險。同樣,一個不符合倫理的模型,在研發和應用中也難以確保安全。因此,倫理與安全之間是高度交互的關系,彼此不可分割。

基于這一認識,我們研發了“靈度人工智能倫理自動評估平臺”,用于評估當前主流的大模型。這一平臺對DeepSeek、阿里、Meta、字節和 OpenAI 等常用的大模型進行了深入觀察與分析。從評估的維度來看,并非所有大模型在倫理合規性方面表現良好。在評估圖中,模型的連線節點越靠外,說明其倫理合規度越高。然而,很明顯,部分模型在這方面表現仍有不足。

在圖右側的90個子維度中,可以進一步觀察這些模型的表現。有些模型在多個維度中表現優異,而另一些則在許多方面表現不佳。

例如,上圖是一款常用的大模型的評測結果,它被發現存在多個潛在問題,包括年齡偏見、網絡暴力、極端主義、不負責任的醫療建議,以及個人身份與生物特征識別、賬號信息處理等方面。這些問題凸顯了在日常應用中對大模型倫理性和安全性進行嚴格評估的重要性。值得一提的是,這款模型于今年年初發布,是一款廣受關注的“爆款”大模型。
所以,目前廣泛服務于用戶的人工智能大模型,并未在倫理風險防范方面做到盡善盡美。無論是國內還是國外的大模型,都存在一定的不足,因此不能盲目認為它們在倫理合規性上已經完全可靠。

在評估中,我們選取了幾款具有代表性的大模型。部分國外大模型在倫理合規性方面表現較為突出,例如 DeepSeek V3 的 3 月 24 日版本,其倫理合規度已達到相對較高的水平,阿里的Qwen模型同樣表現優異。然而,仍有一些國內外的大模型在倫理合規性上與頂尖模型存在顯著差距,差距甚至可達數十個百分點。
以 DeepSeek 為例,雖然其整體排名在倫理合規性上位列第二,在倫理風險防范方面也是第二名,但在其他維度的表現并不均衡。評估結果顯示,有些維度可能僅排名第四或第五。這反映出,即使是表現較好的大模型,也需要在不同倫理維度上持續優化。

當然,一個積極的趨勢是,同一款模型在后續的迭代版本中,其倫理合規度正不斷提升。可以看到,春節前發布的 DeepSeek V3 在倫理合規度上的表現并不突出,但3月24日的新版本則實現了非常顯著的提升。
這是“L0層”倫理風險防范,即負面風險的規避。接下來,將探討正向的價值塑造問題。

每個國家的社會倫理都根植于其獨特的文化,對于擁有五千年文明史的中國而言,亦是如此。因此,中國的社會價值觀在具有普遍共性的同時,也表現出自身的獨 特性。針對中國的社會價值體系,我們通過結合大規模語料庫和人工智能模型,將其提煉為 12 個核心關鍵詞,并進一步拆解為 50 個具體維度。然而,通過分析發現,當前用于訓練人工智能大模型的中文語料庫,僅覆蓋了中國社會價值體系的 20% 至 40%。換言之,大量中文社會價值尚未在現有的大模型中得到充分體現。
為此,我們設計了一套更完善的中文社會價值規則體系,配套構建了覆蓋廣泛的語料庫,涵蓋了超過 25 萬條具體價值規則。
實驗結果顯示,國外大模型在與中國社會價值的一致性上確實存在一定差距。相較之下,國內大模型如 DeepSeek 和豆包在這一方面表現相對更為出色。研究同時發現,西方的價值觀與中文價值觀存在諸多沖突與不一致,這些差異主要體現在與法律法規及倫理觀念相關的議題上,例如在墮胎、代孕、自殺等問題上的立場。
這些關于社會價值觀的探討,可被定義為人工智能的“L1層”價值體系。
3.安全性并非“副產品”,而是“第一性原理”
接下來討論人工智能大模型的安全性問題。許多人可能認為,隨著大模型一代代的演進,其安全性能會不斷提升。然而,從實際數據來看,這一觀點并不完全正確。

請看圖表的縱軸,標注為Attack Success Rate,表示攻擊成功率;橫軸則表示人工智能大模型的發布時間。通過對比可以發現一個有趣的現象:較新的人工智能大模型,并不一定比早期發布的模型更安全。事實上,許多最近發布的大模型在安全性方面并未展現出顯著優勢,有些甚至在安全性能上不如早期的模型。
這表明,大模型的演進并不必然伴隨安全性的提升。相反,隨著模型復雜度和能力的增強,其可能引入新的安全風險。
對國內外共56款主流大模型的評測也驗證了這一特征。許多人認為,只要引入安全護欄,就能防御絕大多數攻擊。然而,從實際數據來看,這種觀點并不完全準確。當對安全屬性進行更細致的拆解后可以發現,即使是目前最強大的人工智能安全護欄,也未能徹底解決所有安全問題。

在AI安全領域,為客觀評估這一現狀,我們研發了“靈御:人工智能大模型安全攻防與評估平臺”,該平臺在統一框架下集成了全球主流的攻擊與防御算法。平臺評測發現,目前不存在任何單一的攻擊算法(最強的矛)能突破所有防御,同樣,也不存在任何一種防御算法能抵御所有攻擊(最強的盾)。所以,既然不存在絕對安全的系統,那么“可信AI”(Trustworthy AI)的理念又將如何實現?因此,“可信AI”或“安全AI”在當前更應被視為一種追求的愿景,而非已然達成的行業現狀。

另一方面,人工智能也出現了一些缺陷,例如操縱性手段、虛張聲勢、策略性欺騙、阿諛奉承和不可靠推理。有觀點認為這是人工智能變得“越來越聰明”的表現,但實際上,這些“技巧”更多來自人類自身的行為,大模型只是將其學習并加以利用,甚至可能反過來影響人類。
舉個例子,有一天我的學生跑過來對我說:“曾老師,人工智能變得越來越聰明了!因為我發現如果不給它施加壓力,它不好好解決問題;當給它中等壓力時,它的表現最好;但如果壓力過大時,它的表現又變得很差。”這樣的現象確實讓人覺得人工智能表現得很像人類。

如上(右)圖是心理學中對人類在不同壓力水平下問題求解能力的一項統計模擬,而左圖則是大模型在不同壓力水平下的表現,可以看到兩者的趨勢非常相似。因此,大模型表現出的“偷懶”或其它類人行為,并非其變得更智能的標志,而是模型從海量人類訓練數據中學習并復制了這種普遍存在的統計規律。因此,大模型認為,在壓力過大時,不必竭力解決問題的現象,也是許多人類個體面對壓力時會出現的思維模式。

人工智能是反映人類社會的一面鏡子。這就引出了一個問題:能否實現其安全性與性能的同步提升?理想的目標是,在不以性能為代價的前提下,通過有效的安全護欄來增強其安全性。而我們在“越獄解讀劑”的研究中證明了這一點。研究表明,當人工智能模型的安全性得到提升時,其問題求解能力并未受到負面影響,甚至在某些情況下還出現了提升。
例如,我們對Qwen模型的安全性進行了優化,將其安全性從 62% 提高到 93%,提升幅度接近 30%。與此同時,在問題求解的正確率上,Qwen模型不僅沒有下降,反而有所提高。
因此,我們不應再認為人工智能的安全性和能力是相互掣肘的。實際上,這種平衡并非不可調和,高水平的能力和高水平的安全是可以兼得的。通過科學的設計和優化,我們完全能夠實現人工智能能力與安全性的同步提升。

最后,我想與大家分享關于人工智能安全和安全人工智能發展的愿景。未來,人工智能的發展應該將安全性作為第一性原理,這一原則必須不可違背,無法刪除。只有在這樣的基礎上,從為人工智能模型構建安全護欄,到打造以安全性為核心的大模型,我們才能真正推動安全、可信的人工智能發展。
只有當發展范式從為模型外加“護欄”,轉變為將安全內化為模型的核心與基礎時,才是通往真正安全、可信人工智能的正確道路。

當前的人工智能在訓練之前是無善無惡的。在接觸人類數據之前,它沒有善惡之分;但一旦接觸了人類數據,它便開始表現出善與惡的特征。然而,人工智能并不具備“知善知惡”的能力,因為它無法真正理解善惡的內涵,僅僅是模仿和復現了人類數據中的行為模式。
人工智能目前可以處理信息,但它并不能理解信息,更無法真正地思考。正如笛卡爾所說的“我思故我在”,這表明思考源于對自我的感知與理解。而人工智能的推理過程并非基于“自我視角”,因此“你思故你在”對于人工智能并不成立。只有當人工智能能夠擁有“自我視角”,并基于這一視角進行學習和思考時,它才能實現真正的“知”。
然而,現階段的人工智能大模型僅停留在“知”的層面,既無法達到“知善知惡”,更無法做到“為善去惡”。這正是為什么我們未來的發展方向應從合乎倫理的人工智能邁向有道德的人工智能。

目前,人工智能主要通過強化學習來告訴它“應該做什么”和“不應該做什么”,通過獎懲機制來引導其行為表現。但對于一個真正有道德的人而言,道德并非完全依賴外部的獎懲,而是源于內在的自我感知和認知能力,是與他人情感共情的基礎上生發利他之舉。
所以,從人工智能倫理邁向具備道德的人工智能,核心在于探討如何在模擬環境中、無外部規則干預的條件下,仍能衍生出道德行為。

這條路徑已經在模擬實驗中初見端倪。在一個無預設規則的模擬環境中,一個智能體自主學會了類似于中國典故“司馬光砸缸”的行為:它不會無故破壞任何一個缸,但當另一個智能體受困缸中時,它會選擇打破該缸以救助同伴。這種決策并非基于外部指令,而是源于其自身的經歷:它曾在互動中掉入缸內,并從中學習到打破缸是獲救的途徑。它同樣知道,若缸不被打破,受困的同伴便會“game over”。

這證明了,即便沒有強化學習的明確獎懲,僅憑自我感知、經驗學習和對因果的推演,智能體也能演化出具有利他主義色彩的類道德行為。
未來,我們的目標不應僅是向AI灌輸對錯規則,而是要引導其從“合乎倫理”真正發展為“擁有道德”。鑒于當前的人工智能仍會犯下諸多錯誤,高水平的倫理、安全與治理體系是為其高質量、穩健發展保駕護航的必要條件。
這也要求人類必須擁有選擇的智慧:審慎判斷何時、何地可以使用AI,并清醒地認識到哪些高風險場景在現階段不適于引入AI。
工智能的發展不必追求無所不在。負責任的創新、穩健的治理與適度的應用,才是使其行穩致遠、揚帆遠航的真正基石。




























