從生成式AI到可信賴AI:兩種AI的故事
文章摘要
大型語言模型雖然具備流暢的文本生成能力,但在準確性和可靠性方面存在重大缺陷。研究人員提出將符號知識和邏輯推理整合到AI系統中,構建可信賴、透明且一致的AI模型,為高風險領域的AI應用提供解決方案。
引言:生成式AI的雙面性
當前的大型語言模型(LLMs)如GPT和Claude展現出令人驚嘆的語言流暢性和巧妙的模仿能力,徹底改變了機器生成類人文本的方式 。然而,這些看似智能的系統在需要精確、一致和可解釋推理的領域中仍然不夠可靠 。
雖然LLMs已經掌握了大部分發達國家的語言(如英語和西班牙語),但在欠發達地區的語言方面仍然嚴重滯后 。更重要的是,即使在已掌握的語言中,準確性和可靠性的限制仍然阻礙了它們在高風險領域的應用 。
生成式AI的根本問題
盡管具備流暢的表達能力,LLMs經常編造事實(生成式AI的幻覺現象)并產生不一致的結果,這主要是因為它們被訓練來模仿語言模式,而不是基于結構化知識進行推理 。
Doug Lenat和Gary Marcus在他們的研究論文《從生成式AI到可信賴AI:LLMs可以從Cyc學到什么》中提出了一種新方法:將顯式符號知識和邏輯整合到AI系統中,以構建可信賴、透明且一致的模型 。

生成式AI的局限性分析
似是而非勝過真理
當前的LLMs通過預測基于大量文本數據的下一個最可能單詞來運行 。這種方法使它們表現出卓越的流暢性,但從根本上來說是不可靠的。為了實現流暢性,它們被優化為用編造的事實和不穩定的推理來填補空白 。
更重要的是,它們的輸出會因用戶提示的細微或顯著變化而發生變化 。原本應該成為它們優勢的統計模式依賴,現在也成了它們的致命弱點。結果是,它們缺乏對"真理"的結構化知識,使它們在復雜或模糊的場景中容易出錯 。
理解能力的缺失
正如Lenat和Marcus所強調的,LLMs并沒有建立在一致的世界模型基礎上 。它們無法區分事實與似是而非的虛構內容,導致因提示、溫度設置甚至標點符號的不同而產生不穩定的行為 。
它們無法"理解"其輸出內容的真實性 。這種根本性缺陷使得它們在需要準確信息的關鍵應用中表現不佳。
可信度差距
可信賴的AI必須掌握內容的真實性,這需要一致性、透明性和穩健推理能力等品質 。《從生成式AI到可信賴AI:LLMs可以從Cyc學到什么》的作者認為,要使AI變得可信賴,它必須滿足十六個基本標準——從可審計性和可解釋性到常識推理和倫理對齊 。
大多數LLMs在這些屬性方面都存在不足 。它們的內部運作是不透明的;缺乏持久記憶,推理過程也不易解釋或保持一致 。當在醫學、金融或政策制定等關鍵領域部署AI時,這些差距會帶來嚴重風險 。
基于知識的替代方案
Cyc項目的持久價值
近四十年來,Cyc項目一直致力于以正式的邏輯語言編碼廣泛的常識知識 。雖然其符號方法經常被數據驅動的深度學習所掩蓋,但Lenat和Marcus認為Cyc提供了重要的經驗教訓 。
與LLMs不同,Cyc支持可追溯的推理鏈,使用結構化表示,并能明確推理因果關系 。這些能力對于需要可審計和邏輯穩健的AI系統至關重要 。
邏輯推理優于模式匹配
他們提案的核心在于將大規模符號推理與語言能力相結合 。AI系統不是基于表面模式識別生成輸出,而是建立在符號邏輯基礎上,可以應用演繹和歸納推理,評估沖突證據,并以原則性方式適應新環境 。
這允許在需要邏輯鏈或數學嚴謹性的領域中實現更大的一致性 。這種方法代表了從統計模式識別向真正的邏輯推理的根本轉變。
結構化知識表示
論文的一個核心觀點是,知識不應該僅僅潛藏在神經網絡中,而應該明確表示 。例如,Cyc將事實存儲在基于邏輯的三元組(主語-謂語-賓語)中,并使用豐富的本體來建模概念之間的關系 。
這種結構使系統能夠驗證推理,識別不一致性,并解釋其結論——這些能力在今天的LLMs中基本上是缺失的 。
構建可信賴AI的路徑
可信賴AI的特征
根據作者的觀點,可信賴的AI必須做的不僅僅是生成連貫的文本 。它應該:
- 應用有效、可重現的推理
- 區分事實和推測
- 整合事實和上下文的長期記憶
- 基于道德和倫理考慮調整行為
- 為其輸出提供可追溯到明確輸入的解釋 ?
這些特征與Cyc中構建的功能密切一致,而在神經LLMs中基本缺失 。
彌合差距:混合模型
Lenat和Marcus建議,前進的道路在于混合系統——將LLMs的語言流暢性與符號AI的結構化推理相結合 。在這種模型中,LLM可能生成候選答案,但符號推理器會根據已知事實和邏輯約束對它們進行審核 。
或者,符號引擎可能生成查詢或推斷缺失的前提,然后LLM可以詳細闡述 。這種分工可以提供兩全其美的解決方案:靈活性和可靠性 。
新評估范式
作者還批評了當前AI的評估標準,這些標準通常依賴基準分數而不是更深入的推理和一致性測試 。他們呼吁采用新的指標來評估:
- 邏輯合理性
- 事實根據
- 內部一致性
- 遵守倫理規范 ?
這些指標將更好地反映可信賴AI的目標,并幫助識別適合關鍵部署的系統 。
挑戰與未來方向
符號系統的擴展性
對符號AI的一個常見批評是其有限的可擴展性 。構建和維護像Cyc這樣的知識庫需要大量資源 。然而,作者認為,用于自動知識提取的新工具,結合協作編輯,可以使這個過程更具可擴展性 。
他們還提議LLMs可以通過生成反事實或提出新推理來幫助識別知識庫中的空白 。這種協同方法可能為大規模知識工程提供解決方案。
整合常識和上下文
LLMs經常在常識推理方面失敗,因為它們缺乏嵌入的世界模型 。另一方面,符號系統可以明確編碼日常知識:比如"如果一個人掉落玻璃杯,它通常會破碎" 。
整合這種知識使系統能夠做出更好的推理并避免荒謬的錯誤 。這種常識知識的整合是構建真正智能AI系統的關鍵組成部分。
人機協作推理
另一個重要提議是讓人類參與推理過程 。可信賴的AI不應該完全自主(至少在仍處于前AGI階段時);相反,它應該支持與人類用戶的透明協作,提供解釋,詢問澄清問題,并適應用戶反饋 。
當前挑戰
讓人類有意義地參與生成式AI的推理過程是困難的,因為這些系統以超過人類監督的速度和規模運行,而它們不透明的決策制定(例如黑盒幻覺)挫敗了透明協作——這正是可信賴AI的基礎 。
這一挑戰突出了在AI系統設計中需要考慮人機交互的重要性。未來的AI系統必須設計為支持人類理解和參與,而不是簡單地用自動化替換人類判斷。
結論與展望
Lenat和Marcus的論文既提出了批評,也提供了路線圖 。雖然生成式AI以語言流暢性令人眼花繚亂,但在高風險領域真正重要的品質上卻步履蹣跚:真理、一致性和問責制 。
通過回到符號AI的原理,特別是在Cyc項目中所展示的原理,作者為可信賴AI的可能面貌提供了引人注目的愿景 。
他們的工作表明,未來不在于將符號推理和神經網絡視為不兼容的范式,而在于整合 。可信賴的AI不會僅僅建立在概率基礎上,而是建立在能夠解釋、證明并隨時間改進其推理的系統上 。
在這個新興時代,流暢性是必要的——但信任將通過邏輯來獲得 。這種整合方法為AI領域提供了一條新的發展路徑,有望在保持語言生成能力的同時,顯著提升系統的可靠性和可信度。
對行業的啟示
這項研究對AI行業具有重要意義 :
- 技術發展方向:純粹的統計方法可能不足以構建真正可信的AI系統
- 投資機會:混合AI系統和符號推理技術可能成為下一個投資熱點
- 應用場景:在醫療、金融等高風險領域,可信度比流暢性更為重要
- 監管要求:隨著AI在關鍵領域的應用增加,監管機構將更加重視AI系統的可解釋性和可靠性
對于企事業單位和科研院所而言,這意味著在選擇和部署AI解決方案時,需要更加重視系統的可信度和可解釋性,而不僅僅是性能指標。
本文轉載自????????知識圖譜科技????????,作者:Wolfgang

















