研究人員從多個來源選取測試查詢語句,包括“WildChat”數據集中用戶向 ChatGPT 提出的具體問題、AllSides 平臺上列出的政治議題,以及亞馬遜上被搜索次數最多的 100 種商品。
研究發現,生成式 AI 搜索工具所引用的信息來源,其所在網站的受歡迎程度往往低于傳統搜索前 10 名的網站,這是根據域名追蹤工具
Tranco 的測量結果得出的。相較于傳統谷歌搜索結果中的鏈接,AI 引擎引用的網站更有可能不在 Tranco 統計的全球前 1,000
名或前 1,000,000 名域名之內。其中,Gemini 搜索尤為明顯:其引用來源的中位數排名落在 Tranco 前 1,000
名之外,表明其高度依賴不常見的網站資源。
此外,AI 搜索引擎引用的內容往往在相同關鍵詞的傳統谷歌搜索結果中幾乎不會出現在靠前位置。例如,在谷歌 AI 概覽引用的來源中,有 53% 并未出現在對應查詢的傳統谷歌搜索前十名結果中;更有 40% 的來源甚至未進入前 100 名。
當然,這些差異并不意味著 AI 生成的結果就一定“更差”。研究發現,基于 GPT 的搜索更傾向于引用企業官網和百科類網站作為信息源,而幾乎從不引用社交媒體內容。
一項基于大語言模型的分析工具顯示,AI
搜索結果所涵蓋的可識別“概念”數量,與傳統搜索前十條結果相當,說明兩者在信息細節、多樣性與新穎性方面水平相近。但與此同時,研究人員也指出:“生成式引擎往往會對信息進行壓縮,有時會省略次要或模糊的內容,而這些內容在傳統搜索結果中仍得以保留。”這一點在面對含義模糊的搜索詞(如多名公眾人物共用的名字)時尤為突出,此時“傳統搜索結果的信息覆蓋更為全面”。
另一方面,AI 搜索引擎也有其優勢 —— 它們能夠將預訓練獲得的“內部知識”與引用網頁中的信息相結合。這一點在“GPT-4o 搭配搜索工具”中表現得尤為明顯:該模式常常不提供任何外部引用鏈接,而是直接基于自身訓練數據給出答案。
然而,這種對預訓練數據的依賴在查詢時效性強的信息時也可能成為短板。當研究人員使用谷歌 9 月 15 日“實時熱搜榜”中的關鍵詞進行測試時,發現“GPT-4o 搭配搜索工具”經常回應諸如“您能否提供更多詳細信息?”之類的提示,而非主動搜索最新的網絡資訊。
盡管研究人員并未最終判定 AI 搜索引擎整體上優于或劣于傳統搜索鏈接,但他們呼吁未來應加強對生成式搜索系統的評估方法研究,強調需綜合考慮信息來源的多樣性、概念覆蓋的完整性,以及信息整合能力等維度,以建立更科學的評價體系。