無人談論的AI堆棧:數據采集作為基礎設施

人工智能社區癡迷于越來越大的模型、十億令牌上下文窗口和GPU 的微調運行讓人感到厭倦,而人工智能堆棧中最被忽視的力量倍增器卻靜靜地位于這一切之下的一層:數據。
讓我們明確一點:雖然擴展模型規模仍然很重要,但對于大多數現實世界的人工智能產品而言,性能提升越來越取決于數據質量和新鮮度,而不僅僅是參數數量。將模型規模翻倍以榨取邊際收益不僅成本高昂,而且在環境方面也難以為繼,因為驚人的電力和水成本根本無法擴展。
該瓶頸已從堆棧中移出。
構建 AI 原生產品的創始人和首席技術官開始意識到,他們的代理不會錯過新興市場信號,也不會給出空洞的見解,因為“模型”本身 “不夠智能”——它之所以失敗,是因為它盲目地處理過時、不相關或不完整的上下文。正因如此,Salesforce 于 2025 年 5 月斥資 80 億美元收購了 Informatica,以增強其 AI 驅動的 Agentforce 平臺。現在,他們可以訪問高質量的實時數據,從而獲得更準確、更可擴展的成果。
性能的成敗取決于您能檢索到什么,而不僅僅是您如何提示。除非您使用的是 H100 集群或運行著 API 預算無限的前沿模型,否則您超越巨頭的最佳機會是在您負擔得起的范圍內為模型提供更智能的數據:領域特定、結構化、去重和新鮮的數據。
但在構建情境之前,它必須先存在。這意味著需要可靠、實時地訪問開放網絡——不僅僅是一次性的數據抓取或數據集,而是能夠反映當前情況的強大管道。
各位,這就是基礎設施。如果說計算讓 NVIDIA 變得不可或缺,那么我認為下一個重大突破不是更多層,而是更多信號而不是噪聲。而這始于將數據采集視為生產基礎設施。
“好數據”是什么樣的?
如果你正在構建一款 AI 原生產品,那么系統的智能程度將不再取決于你的提示有多巧妙,或者你能在上下文窗口中塞入多少個標記。而是取決于你能多好地為它提供當下重要的上下文。
但“好數據”的定義相當模糊。讓我們來澄清一下。它對人工智能的意義如下:
領域特定:AI 輔助優化零售定價需要競爭對手數據、客戶評論或區域趨勢,而不是無關的噪音。你必須做到精準定位。
持續更新:網絡瞬息萬變。錯過今日 X 趨勢的情緒模型,或使用上周價格的供應鏈模型,都已經過時了。
結構化和去重:重復、不一致和噪聲會浪費計算并稀釋信號。結構勝過規模。干凈勝過龐大。
實時可操作:過時的數據就是死數據。實時數據——價格變動、新聞、庫存變化——能夠為即時決策提供支持。但前提是收集數據必須合乎道德、可靠且規模化。
這就是 Salesforce 收購 Informatica 的原因——不是為了新模型,而是為了向 Agentforce 提供結構化的實時數據,以改善下游決策。
正因如此,IBM 于 2024 年 7 月斥資 23 億美元收購了 StreamSets,用于打造 Watsonx。StreamSets 專注于從混合數據源提取數據、監控數據流并處理模式漂移——這使得 IBM 能夠跨企業系統為 Watsonx 提供最新、一致的信號。對于需要基于實時狀態(而非僅僅基于歷史模式)進行推理的 AI 來說,這種基礎設施能夠帶來 10 倍的增效效果。
這也是 Dataweps 轉向Bright Data為飛利浦和華碩等電商客戶收集實時競爭對手定價和市場趨勢的原因。他們的 AI 驅動定價和競價系統依賴于快速、準確的數據,而 Bright Data 的 API 驅動生態系統(包括代理、存檔/數據集、支持 AI 代理的瀏覽器自動化工具等)使他們能夠可靠且大規模地收集這些數據。Bright Data 不僅僅是數據抓取,它還提供了現實世界 AI 系統所需的彈性、容量和合規性。坦率地說,它是一家 AI 基礎設施提供商。
關鍵在于:檢索質量如今勝過提示工程。即使是最好的提示也無法修復模型在推理時提取過時或不相關數據的問題。
正是現在,正確的環境。這就是后 Deepseek 時代 AI 生存或消亡的關鍵所在。
第一步總是最難的
乍一看,數據基礎設施聽起來像是管道。采集管道、轉換、存儲?貌似無聊至極。但在 RAG 和代理 AI 時代,這種管道已變得至關重要。為什么?因為你的系統不再只是運行推理——它基于外部、不斷變化的多模態實時信息進行推理。這改變了一切。
我是這樣認為的:現代人工智能數據棧已經發展成為一個成熟的價值鏈,從信息的獲取和提取,到信息的轉換和豐富,到信息的整理和排序,再到存儲和提供給合適的組件——無論是模型、代理還是人類。每一層都帶來了實時挑戰和現實后果。與傳統的 ETL 管道不同,它不僅僅是將數據錄入數據湖然后留在那里。

大多數團隊在第一步就搞砸了:采集。糟糕的數據提取會毀掉上下文。如果你的采集層錯過了關鍵更新,在邊緣情況下默默地失敗,或者以錯誤的結構或語言捕獲信息,那么你的整個堆棧都會繼承這種盲目性。
換句話說:你無法設計你未曾攝取的語境。這里有一篇有趣的論文,《AI 海洋中的塞壬之歌:大型語言模型中的幻覺調查》,作者是 Zhang 等人。該論文展示了在生產級系統中,未解決的攝取問題是“模型幻覺”和其他異常代理行為的最常見根源。
因此,在 RAG 和代理 AI 時代,攝取需要具有戰略性,這是不容置疑的:
它必須對人工智能代理友好,也就是說,能夠提供結構化的、即時的數據。
它必須處理動態 UI、CAPTCHA、變化的模式和混合提取(API + 抓取)。
多步驟AI代理既需要實時信號,也需要歷史記憶——現在發生了什么,之前發生了什么,發生順序如何,以及原因。因此,該基礎設施必須支持定時提取、增量更新和TTL感知路由——所有這些都具有彈性、合規性,并且隨時準備應對變化。
它必須具有規模可靠性,并能持續從數百萬個來源提供最新信息。
并且必須符合網站條款和法律規范。
這就是為什么脆弱的抓取工具、靜態數據集和一次性連接器不再足夠好的原因,以及為什么像 Bright Data 這樣專注于自動化友好、代理優先數據基礎設施的平臺正在變得像模型本身一樣基礎。
我見過像 Gemma 3 這樣的開源、開放權重模型在狹窄領域中表現優于 GPT-4,僅僅是因為新鮮的、精選的、基于領域的數據讓它們能夠用于更好的檢索系統。
我們來算一下。假設我們將檢索到的上下文片段的總效用定義為:
U=i=1ΣkRiFi
在哪里:
R i∈[0,1] 是第i個檢索到的片段與查詢的相關性得分。
???? [ 0 , 1 ] 是新鮮度得分,以隨時間衰減的函數建模(例如指數或線性)。
k是檢索到的上下文塊的數量,受模型的上下文窗口約束。
即使假設語義搜索完美(即???? 已優化),最大化U也可能意味著丟棄高度相關但過時的數據,轉而選擇相關性稍低(但最新!)的信號。如果您的提取層跟不上,就會造成可見性損失和效用下降。第二個影響與第一個影響相輔相成:不僅無法獲得新鮮內容,而且過時內容的存在還會降低性能。這會導致檢索到的上下文質量的復合下降。
這就是為什么數據采集(包括但不限于計劃更新、TTL 感知爬取、SERP 提取、提要解析等)不再僅僅是管道。
數據采集基礎設施究竟是什么樣子
那么,將數據采集視為一流的基礎設施究竟意味著什么呢?
這意味著:
構建循環管道,而非負載。數據不應被一次性抓取并存檔。它應該按計劃進行流式傳輸、刷新和更新——并內置自動化、版本控制、重試邏輯和可追溯性。一次性轉儲無法提供持久的智能。
將新鮮度納入檢索邏輯。數據會老化。您的排名和檢索系統應該將時間漂移視為首要信號——優先考慮能夠反映當前世界狀態的上下文。
使用基礎設施級來源。從自制腳本中抓取原始 HTML 無法擴展。您需要訪問層,這些層應提供 SLA、對驗證碼的彈性、模式漂移處理、重試、代理編排和合規性支持。
跨模態采集。有價值的信號存在于 PDF、儀表板、視頻、表格、屏幕截圖和嵌入式組件中。如果您的系統只能從純 HTML 或 Markdown 中提取數據,那么您就錯過了一半的信息。
構建事件原生數據采集架構。Kafka、Redpanda、Materialize 和時間序列數據庫——這些并非只適用于后端基礎設施團隊。在 AI 原生系統中,它們將成為采集和重放時間敏感信號的神經系統。
簡而言之,不要再把數據視為靜態資源。要把它當成計算資源——需要編排、抽象、擴展和保護。這才是“數據采集即基礎設施”的真正含義。
未來在于信息 > 規模
大多數 RAG 討論都停留在模型層面。但如今正在興起的 AI 棧,其模型可以互換,而數據基礎設施才是長期的護城河。
摩爾定律或許已不復存在,但原始性能仍在穩步提升。但在不久的將來,我并不確信人工智能系統的性能將取決于微調或快速的魔法。我認為,最終的勝利將取決于你的系統掌握的知識以及它們獲取知識的速度。最智能的人工智能系統并非擁有最大窗口的系統,而是擁有最佳上下文管理能力的系統——這得益于實時數據、動態內存和智能提取。
因此,作為工程師,我們不應將每一個新的數據源、反饋或實時數據流視為“內容”,而應將其視為能力。因此,每一個新的數據流也未必是噪音,而是信號。
也許你已經構建了這樣一個關鍵的人工智能基礎設施——只是你可能還沒有這樣稱呼它。
也許你已經開始考慮將數據(例如 API)饋送到你自己的內部智能層,并且意識到:你不需要最大的模型。你只需要合適的管道。
擁有這種想法的團隊,將網絡規模的數據采集視為基礎設施而不是一項次要任務,將會行動得更快、學到更多、用更少的費用獲得成功。





























