點(diǎn)名怒斥！全球互聯(lián)網(wǎng)架構(gòu)巨頭：Perplexity 的“幽靈爬蟲(chóng)”到處亂竄，后者回懟：亂咬人惡意炒作，不會(huì)分析就來(lái)請(qǐng)教，專業(yè)堪憂

作者：云昭 2025-08-05 13:12:44

在Cloudflare 公開(kāi)的博客中指出，當(dāng) Perplexity 的爬蟲(chóng)遭遇阻斷時(shí)，該公司將隱藏其爬蟲(chóng)身份，偽裝成真實(shí)用戶來(lái)突破封鎖規(guī)則，繼續(xù)抓取拒絕采集的網(wǎng)站內(nèi)容。

編輯 | 云昭

出品 | 51CTO技術(shù)棧（微信號(hào)：blog51cto）

最近，全球最大的互聯(lián)網(wǎng)架構(gòu)提供商之一 Cloudflare 拋出了一顆“4A級(jí)炸彈”，直接炮轟當(dāng)紅 AI 初創(chuàng)公司 Perplexity。

Cloudflare 的工程師 Gabriel Corral、Vaibhav Singhal、Brian Mitchell 和 Reid Tatoris 在周一的一篇博客中表示：

“雖然 Perplexity 一開(kāi)始使用其聲明的用戶代理進(jìn)行抓取，但當(dāng)遭遇網(wǎng)絡(luò)封鎖時(shí)，它們會(huì)隱藏爬蟲(chóng)身份，試圖繞過(guò)網(wǎng)站的意愿。”
“我們持續(xù)看到 Perplexity 多次更改其用戶代理和源 ASN（自治系統(tǒng)編號(hào)），以隱藏其抓取行為。同時(shí)，它們無(wú)視 robots.txt 文件的指令，有時(shí)甚至根本不請(qǐng)求該文件。”

雖然 Perplexity 回應(yīng)稱這是“誤解”和“宣傳噱頭”，但事情遠(yuǎn)比聲明聽(tīng)起來(lái)嚴(yán)峻得多……

Cloudflare 點(diǎn)名怒斥：Perplexity 的“隱身爬蟲(chóng)”到處亂竄

今天的幾個(gè)小時(shí)前，Cloudflare 發(fā)布博客稱，其監(jiān)測(cè)到 AI 搜索公司 Perplexity 在遇到網(wǎng)站封鎖后，采用“偽裝身份”繼續(xù)抓取內(nèi)容。

圖片

初始階段 Perplexity 爬蟲(chóng)使用官方標(biāo)識(shí)，比如：PerplexityBot、Perplexity-User，一旦被封鎖，就切換至模擬 macOS 上 Chrome 瀏覽器的通用瀏覽器，并使用非官方 IP 和 ASN （自治系統(tǒng)編號(hào)）進(jìn)行網(wǎng)絡(luò)請(qǐng)求，企圖繞過(guò) robots.txt 和用戶制定的 WAF 規(guī)則。

“這種行為模式覆蓋了數(shù)萬(wàn)個(gè)域名，每天產(chǎn)生數(shù)百萬(wàn)次請(qǐng)求。”

Cloudflare 最終通過(guò)機(jī)器學(xué)習(xí)和網(wǎng)絡(luò)信號(hào)的組合，才成功地識(shí)別出 Perplexity 幽靈爬蟲(chóng)的行為特征：

圖片

ClouCloudflare 為此還專門(mén)構(gòu)建了測(cè)試域名（無(wú)索引、robots.txt 明令禁止所有爬蟲(chóng)），結(jié)果 Perplexity 依然能夠提供這些隱藏頁(yè)面的詳細(xì)內(nèi)容，說(shuō)明其實(shí)踐方式與聲明明顯沖突。

圖片

Perplexity 回懟：惡意炒作截圖里的bot根本不是我們的

PerpPerplexity 發(fā)言人 Jesse Dwyer 第一時(shí)間也對(duì)這種“炮轟行為”做出了回應(yīng)： Cloudflare 的報(bào)告是一個(gè)“宣傳噱頭”！

同時(shí)，Dwyer 批評(píng)其聲明中存在“很多誤解”，存在嚴(yán)重的分析錯(cuò)誤，并堅(jiān)稱文章中提到的截圖“并未訪問(wèn)任何內(nèi)容”，而 Cloudflare 指認(rèn)的 bot “根本不是我們的”。

目前，這種神仙吵架的態(tài)勢(shì)沒(méi)有停息。前一刻，Cloudflare 已將 Perplexity 從已驗(yàn)證機(jī)器人名單中移除，并推出了阻止 Perplexity“隱形爬行”的方法。

回應(yīng)：是Agent，還是爬蟲(chóng)bot？

Perplexity 今天還在X上發(fā)表了一篇有關(guān)AI時(shí)代，代理和爬蟲(chóng)bot區(qū)別的文章，小編認(rèn)為非常有啟發(fā)：如何重新思考AI時(shí)代的瀏覽行為和爬蟲(chóng)行為？這是一個(gè)繼續(xù)澄清的問(wèn)題。所以也給大家整理出來(lái)，希望能有所幫助。

圖片

這篇回懟文章整理如下：

是 Agent 還是 Bot？理解開(kāi)放網(wǎng)絡(luò)上的 AI

隨著互聯(lián)網(wǎng)的發(fā)展，我們?cè)L問(wèn)和交互信息的方式也在不斷演變。在網(wǎng)絡(luò)發(fā)展的早期，自動(dòng)化 bot 扮演著一種簡(jiǎn)單且被廣泛理解的角色：為搜索引擎建立索引、檢查鏈接是否失效，或根據(jù)網(wǎng)站所有者設(shè)定的明確規(guī)則抓取數(shù)據(jù)。

但隨著 AI 助手和以用戶為驅(qū)動(dòng)的 Agent 的興起，“只是一個(gè) bot”與“真正為人類服務(wù)”的界限變得越來(lái)越模糊。

數(shù)字助手的崛起

現(xiàn)代 AI 助手的工作方式，與傳統(tǒng)的網(wǎng)頁(yè)爬蟲(chóng)有著本質(zhì)區(qū)別。當(dāng)你向 Perplexity 提一個(gè)需要實(shí)時(shí)信息的問(wèn)題——比如“那家新餐廳的最新評(píng)價(jià)是什么？”——AI 并不會(huì)從某個(gè)已存數(shù)據(jù)庫(kù)中提取答案。而是會(huì)主動(dòng)訪問(wèn)相關(guān)網(wǎng)站，閱讀內(nèi)容，并針對(duì)你的具體問(wèn)題生成一份定制化摘要。

這與傳統(tǒng)的網(wǎng)頁(yè)爬蟲(chóng)完全不同——后者是系統(tǒng)性地訪問(wèn)數(shù)百萬(wàn)頁(yè)面，構(gòu)建起龐大的數(shù)據(jù)庫(kù)，哪怕從未有人實(shí)際請(qǐng)求過(guò)這些信息。而用戶驅(qū)動(dòng)的 Agent 僅在真實(shí)用戶發(fā)起具體請(qǐng)求時(shí)，才去獲取相關(guān)內(nèi)容，并立即用于回答問(wèn)題。Perplexity 的用戶驅(qū)動(dòng)型 Agent 并不會(huì)保存這些信息，也不會(huì)用其訓(xùn)練模型。

為什么這種區(qū)別至關(guān)重要？

自動(dòng)爬取與用戶驅(qū)動(dòng)式獲取的區(qū)別不僅僅是技術(shù)問(wèn)題，更關(guān)乎誰(shuí)可以訪問(wèn)開(kāi)放網(wǎng)絡(luò)上的信息。

比如當(dāng)谷歌搜索引擎進(jìn)行索引爬取，這是一個(gè)過(guò)程；而當(dāng)它因?yàn)槟愕牟樵冋?qǐng)求而加載某個(gè)網(wǎng)頁(yè)預(yù)覽，這就是另一個(gè)完全不同的機(jī)制。谷歌的“用戶觸發(fā)式抓取”行為優(yōu)先考慮的是你的體驗(yàn)，而非 robots.txt 文件的限制，因?yàn)檫@些請(qǐng)求是“代表用戶”發(fā)起的。

AI 助手同理。當(dāng) Perplexity 抓取某網(wǎng)頁(yè)時(shí)，是因?yàn)槟闾岢隽艘粋€(gè)需要實(shí)時(shí)信息的問(wèn)題。相關(guān)內(nèi)容不會(huì)被儲(chǔ)存，也不會(huì)用于訓(xùn)練模型，而是即時(shí)為你服務(wù)。

當(dāng)像 Cloudflare 這樣的公司把這種用戶驅(qū)動(dòng)的 AI 助手錯(cuò)誤歸類為惡意 bot，他們其實(shí)是在宣稱——任何為用戶服務(wù)的自動(dòng)化工具都應(yīng)被懷疑。這種觀點(diǎn)如果成立，那么郵箱客戶端、網(wǎng)頁(yè)瀏覽器，甚至任何能自動(dòng)處理請(qǐng)求的服務(wù)都可能被“守門(mén)人”視為非法。

而這場(chǎng)爭(zhēng)議正揭示出：Cloudflare 當(dāng)前的系統(tǒng)，根本無(wú)法區(qū)分一個(gè)合法的 AI 助手與真正的威脅。如果你都分不清一個(gè)有幫助的數(shù)字助手和一個(gè)惡意爬蟲(chóng)，那你大概也不應(yīng)該決定什么才算“合法的網(wǎng)頁(yè)流量”。

封鎖傷害的是所有人

想象一個(gè)使用 AI 來(lái)研究健康問(wèn)題、對(duì)比產(chǎn)品評(píng)價(jià)或獲取多方新聞資訊的用戶。如果他的助手因?yàn)楸蛔R(shí)別為“惡意 bot”而被封鎖，那他就無(wú)法訪問(wèn)原本屬于開(kāi)放網(wǎng)絡(luò)的有價(jià)值信息。

最終，這將導(dǎo)致一個(gè)“雙軌互聯(lián)網(wǎng)”——你能否訪問(wèn)信息，不再取決于你的需求，而是你的工具是否獲得了某些基礎(chǔ)設(shè)施控制方的“認(rèn)證許可”。這直接削弱了用戶的自主選擇權(quán)，也威脅著創(chuàng)新服務(wù)在開(kāi)放網(wǎng)絡(luò)上的生存機(jī)會(huì)。

呼吁澄清：用戶代理（User Agents）到底如何運(yùn)作？

AI 助手的工作方式就像一個(gè)真人助手。當(dāng)你問(wèn)他們一個(gè)需要實(shí)時(shí)信息的問(wèn)題，他們并不會(huì)提前知道答案，而是幫你去查找、完成你交給的任務(wù)。

在 Perplexity 及所有 agentic AI 平臺(tái)上，這個(gè)過(guò)程是實(shí)時(shí)發(fā)生的，僅為滿足你的請(qǐng)求而觸發(fā)。獲取到的信息會(huì)立刻用于回答問(wèn)題，不會(huì)被存儲(chǔ)到龐大的數(shù)據(jù)庫(kù)中，也不會(huì)用于模型訓(xùn)練。

用戶驅(qū)動(dòng)的 Agent 只會(huì)在用戶有特定請(qǐng)求時(shí)行動(dòng)，并僅獲取完成任務(wù)所需的內(nèi)容。這是“用戶代理”（User Agent）與“bot”之間最根本的區(qū)別。

正面回應(yīng) Cloudflare：一個(gè)關(guān)于專業(yè)能力的問(wèn)題

Cloudflare 最近的一篇博文，幾乎把現(xiàn)代 AI 助手的運(yùn)作方式全都誤解了。

除了錯(cuò)誤地認(rèn)為每天 2000 萬(wàn)到 2500 萬(wàn)條用戶代理請(qǐng)求是爬蟲(chóng)行為，Cloudflare 還聲稱 Perplexity 在進(jìn)行“隱形爬取”，使用隱藏 bot 和偽裝手段繞過(guò)網(wǎng)站限制。但技術(shù)事實(shí)并非如此。

看起來(lái) Cloudflare 實(shí)際上是把每天來(lái)自 BrowserBase（一個(gè)第三方云瀏覽器服務(wù)）的 300 萬(wàn)到 600 萬(wàn)條無(wú)關(guān)請(qǐng)求錯(cuò)誤地歸咎于 Perplexity。而 Perplexity 僅在極少數(shù)特定任務(wù)中使用該服務(wù)，每天調(diào)用不超過(guò) 4.5 萬(wàn)次。

由于 Cloudflare 故意遮掩其分析方法，且拒絕配合解釋，我們只能歸納出兩種可能的解釋：

Cloudflare 想搞一個(gè)聰明的公關(guān)噱頭，而我們（作為他們的客戶）剛好是個(gè)足夠吸睛的名字；
Cloudflare 把 BrowserBase 的自動(dòng)瀏覽器流量錯(cuò)誤歸類為 Perplexity，這是一個(gè)基礎(chǔ)級(jí)別的流量分析失敗——而 Cloudflare 的核心業(yè)務(wù)，正是理解和分類網(wǎng)絡(luò)流量。

無(wú)論哪種原因，都表明 Cloudflare 的分析存在嚴(yán)重錯(cuò)誤。這些技術(shù)失誤不僅令人尷尬，甚至足以讓人質(zhì)疑其在該領(lǐng)域的專業(yè)資格。如果你會(huì)錯(cuò)誤歸因上百萬(wàn)條請(qǐng)求，發(fā)布完全不符實(shí)際的技術(shù)圖示，并徹底誤解現(xiàn)代 AI 助手的運(yùn)作方式，那你就已經(jīng)失去了在這個(gè)領(lǐng)域中擔(dān)任權(quán)威的資格。

這場(chǎng)爭(zhēng)議也進(jìn)一步暴露出，Cloudflare 的系統(tǒng)根本無(wú)法區(qū)分一個(gè)合法 AI 助手與真正的網(wǎng)絡(luò)威脅。如果你連這個(gè)都搞不清楚，就不應(yīng)該掌握判斷什么才算“合法流量”的權(quán)力。

更令人哭笑不得的是，Cloudflare 還發(fā)布了一張所謂的“Perplexity 爬蟲(chóng)流程圖”，但那圖跟 Perplexity 的真實(shí)工作機(jī)制毫無(wú)關(guān)系。如果 Cloudflare 真想理解它看到的數(shù)據(jù)，了解我們的系統(tǒng)如何運(yùn)行，或者理解上文中所講的基礎(chǔ)邏輯，他們其實(shí)可以像我們鼓勵(lì)所有用戶做的那樣：

直接來(lái)問(wèn)。

網(wǎng)友：至少引起了關(guān)注，Cloudflare前不久剛宕機(jī)

事實(shí)上，AI 爬取網(wǎng)站內(nèi)容的事情已經(jīng)讓參與方，包括模型廠商、AI應(yīng)用側(cè)、網(wǎng)站方、創(chuàng)作者等之間，前前后后 battle了好幾個(gè)回合。

只不過(guò)這次 Cloudflare 站出來(lái)向 Perplexity AI 開(kāi)炮，連各種截圖和路徑分析都放出來(lái)，著實(shí)讓網(wǎng)友們更好地 Get 到了 AI 時(shí)代，我們聊天框里的 Chatbot 是如何精確從網(wǎng)站扒取內(nèi)容的，有了更好地理解。

同樣，Perplexity 的回應(yīng)文章同樣也非常精彩，指出了自動(dòng)爬取與用戶驅(qū)動(dòng)式獲取的區(qū)別。

正如一位推友所言，不管是不是炒作，但教育意義還是非常高的。

圖片

不過(guò)，在事情沒(méi)有塵埃落定之前，不少網(wǎng)友還是各自站隊(duì)。比如內(nèi)容創(chuàng)作者希望能在AI時(shí)代爭(zhēng)取到更多的權(quán)益。而 Perplexity 的擁躉們則直接嘲笑 Cloudflare：幾周前剛大規(guī)模宕機(jī)來(lái)著，現(xiàn)在連分析方式都被質(zhì)疑了，聽(tīng)起來(lái)挺無(wú)能的。

圖片