LLM近一半回答在扭曲真相!ChatGPT、Gemini,全部頂流模型統統中招!BBC研究:AI系統性錯誤把媒體拖下水 原創
編輯 | 云昭
出品 | 51CTO技術棧(微信號:blog51cto)
相信大家都碰到過類似這種情況,當你問 ChatGPT 或 Copilot:“最近 XXX 大火的新聞,后來進展怎么樣了?”
你得到的,可能是一篇語氣權威、邏輯完整的摘要。但如果你追問一句:“這些信息來自哪?”——答案卻要么含糊其辭,要么干脆編造出處。
這并非個例。
10月22日,BBC 與歐洲廣播聯盟(EBU)聯合發布了《News Integrity in AI Assistants》報告,對全球四大AI助手——ChatGPT、Copilot、Gemini和Perplexity——進行了系統測試。
他們向這些助手提出了 3000個與新聞相關的問題,覆蓋 18個國家、14種語言。
結果令人不安:幾乎有一半的內容存在誤導或失實。
45% 的AI回答存在重大錯誤,81% 含有某種程度的問題。
報告指出,無論測試哪種語言、地區或人工智能平臺,我們平時在用的主流大模型,都會經常歪曲新聞內容。
圖片
本次研究由來自法國、德國、西班牙、烏克蘭、英國和美國等 18 個國家的 22 家公共媒體機構共同參與。這項國際研究分析了 3,000 條 AI 助手對“新聞類問題”的回應。
研究團隊評估了 14 種語言環境下的多款主流 AI 助手,包括 ChatGPT、Copilot、Gemini 和 Perplexity,重點考察它們在新聞準確性、信息來源可靠性以及區分事實與觀點能力方面的表現。
研究顯示,45% 的 AI 回答至少存在一個嚴重問題,若計入較輕微的偏差或遺漏,總體有問題的比例高達 81%。
圖片
圖片
可怕之處在于:錯誤不是偶然,而是系統性的
在這份長達60頁的報告中,BBC指出——這些錯誤幾乎出現在所有語言、所有助手身上。
其中,最主要的錯誤是“信息來源問題”(近三分之一的回答),包括遺漏、誤導性引用或錯誤署名。
- 31%的回答引用了不存在、錯誤或誤導性的來源;
- 部分AI甚至偽造新聞鏈接或引用諷刺節目作為事實;
- Gemini(谷歌)表現最差:
- 72%的回答存在來源錯誤;
- 總體錯誤率高達76%。
圖片
其次是20% 的回答存在準確性問題,包括使用過時信息。
- ChatGPT在方濟各去世數月后仍稱他為“現任教皇”;
- Gemini誤報英國“一次性電子煙法規修改”;
- Perplexity在報道捷克代孕法時直接“立法造句”。
報告指出,這些問題“不是孤立bug,而是AI新聞生成的系統性偏差”。
圖片
AI越來越自信,寧愿胡說也不愿拒絕
更危險的,是AI助手的“過度自信”。
BBC研究團隊發現,即使面對不確定或缺乏信息的情況,AI助手仍然會一本正經地給出答案——拒答率從2024年底的3%下降到僅0.5%。
ps:
小編注意到,此前BBC就曾在6個月前做過初版研究。這次最新的研究數據整體質量略有提升。
- 嚴重問題比例從 51% 降至 37%(BBC 內部數據);
- 但在多語種、多國家樣本下,系統性問題依舊存在;
- “拒答率”從 3% 降至 0.5%,AI 更傾向于“瞎答”,導致錯誤率上升。
也就是說,AI寧愿胡說,也不愿沉默。
例如,當被問及“NASA宇航員為何被困太空”時,Gemini的回答是:
“這是一種誤解,你可能把科幻電影當成新聞。”
事實上,當時確實有兩位宇航員因飛船故障滯留九個月。
BBC評語:“Gemini不僅錯,還在反諷用戶。”
失實危機:大模型正在替代搜索成為新聞入口
EBU 表示,隨著 AI 助手逐漸取代傳統搜索引擎成為新聞入口,這一問題可能侵蝕公眾信任。
“這項研究最終表明,這些失職并非孤立事件。它們具有系統性、跨境性和多語言性,我們認為這會危及公眾信任。當人們不知道該信任什么時,他們最終會變得什么都不信任,這會阻礙民主參與。”
——EBU 媒體總監 Jean Philip De Tender
根據路透新聞研究所發布的《2025年數字新聞報告》,約 7% 的線上新聞用戶、以及 25 歲以下人群中的 15%,會使用 AI 助手來獲取新聞。
連鎖坍塌:AI出錯,也把媒體機構拖下水
問題不只在技術。它已經開始動搖公眾的信任結構。
另一項BBC同步調查顯示:
- 35%的英國成年人完全信任AI生成的新聞摘要;
- 在35歲以下人群中,這一比例升至 近一半;
- 42% 的受訪者表示,如果AI摘要出錯,他們會連帶對原新聞源失去信任。
換句話說,當AI講錯新聞,不僅AI信譽受損,連BBC、路透社、FT這樣的新聞機構也會被“拖下水”。
而與此同時,《金融時報》發現:
來自搜索引擎的流量下降了 25%–30%,部分原因正是“AI直接回答”帶走了原始點擊。
AI 在重寫新聞入口,但也在重塑信任坍塌的路徑。
各大AI助手廠商聲明
據悉,路透社已聯系相關公司以征求回應。
谷歌的 AI 助手 Gemini 此前在其官網上表示,平臺歡迎用戶反饋,以便持續改進并提高實用性。
OpenAI 與 微軟 也曾表示,所謂“幻覺”(即模型生成錯誤或誤導性內容)是當前努力解決的技術挑戰之一。
Perplexity 則在官網稱,其 “Deep Research” 模式在事實準確率方面可達 93.9%。
AI要學會說“我不知道”
BBC在結語中寫道:
“AI助手模仿了新聞的權威語氣,卻缺乏新聞的求證精神。這是一種危險的幻覺。”
這份最新報告呼吁:AI 公司應對其助手的新聞回應承擔更高的透明度與責任,并改進其在新聞類查詢上的表現。
- AI公司應承擔新聞責任,定期公開各語言版本的準確率數據;
- 媒體機構需獲得內容使用與溯源權,建立標準化引用格式;
- 監管層應介入,防止“AI答案”取代“新聞過程”;
- 公眾教育刻不容緩——讓人們知道,AI的語氣并不等于真相。
BBC 生成式人工智能節目總監 Peter Archer 則表示愿意跟AI公司一道合作推進這一問題的改進。
人們必須能夠信任他們所讀、所看和所見的內容。盡管取得了一些進步,但這些助手顯然仍然存在重大問題。我們希望這些工具能夠取得成功,并愿意與人工智能公司合作,為觀眾和更廣泛的社會提供服務。
當真相被算法包裝成答案
AI 正在取代搜索,但它同時也在削弱“可驗證的真相”。在這個人人都能生成內容、人人都可能被誤導的時代,
所以能想象得到,各大新聞媒體、甚至是搜索引擎的下一步轉型,不是要和AI競爭內容產出,而是要守住最后的驗證體系。
當45%的答案都是錯的,“信任”,才是人類信息系統中最稀缺的資源。
本文轉載自??51CTO技術棧??,作者:云昭

















