精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

無人談論的AI堆棧:數據采集作為基礎設施

人工智能
人工智能社區癡迷于越來越大的模型、十億令牌上下文窗口和GPU 的微調運行讓人感到厭倦,而人工智能堆棧中最被忽視的力量倍增器卻靜靜地位于這一切之下的一層:數據。

人工智能社區癡迷于越來越大的模型、十億令牌上下文窗口和GPU 的微調運行讓人感到厭倦,而人工智能堆棧中最被忽視的力量倍增器卻靜靜地位于這一切之下的一層:數據。

讓我們明確一點:雖然擴展模型規模仍然很重要,但對于大多數現實世界的人工智能產品而言,性能提升越來越取決于數據質量和新鮮度,而不僅僅是參數數量。將模型規模翻倍以榨取邊際收益不僅成本高昂,而且在環境方面也難以為繼,因為驚人的電力和水成本根本無法擴展。

該瓶頸已從堆棧中移出。

構建 AI 原生產品的創始人和首席技術官開始意識到,他們的代理不會錯過新興市場信號,也不會給出空洞的見解,因為“模型”本身 “不夠智能”——它之所以失敗,是因為它盲目地處理過時、不相關或不完整的上下文。正因如此,Salesforce 于 2025 年 5 月斥資 80 億美元收購了 Informatica,以增強其 AI 驅動的 Agentforce 平臺。現在,他們可以訪問高質量的實時數據,從而獲得更準確、更可擴展的成果。

性能的成敗取決于您能檢索到什么,而不僅僅是您如何提示。除非您使用的是 H100 集群或運行著 API 預算無限的前沿模型,否則您超越巨頭的最佳機會是在您負擔得起的范圍內為模型提供更智能的數據:領域特定、結構化、去重和新鮮的數據。

但在構建情境之前,它必須先存在。這意味著需要可靠、實時地訪問開放網絡——不僅僅是一次性的數據抓取或數據集,而是能夠反映當前情況的強大管道。

各位,這就是基礎設施。如果說計算讓 NVIDIA 變得不可或缺,那么我認為下一個重大突破不是更多層,而是更多信號而不是噪聲。而這始于將數據采集視為生產基礎設施。

“好數據”是什么樣的?

如果你正在構建一款 AI 原生產品,那么系統的智能程度將不再取決于你的提示有多巧妙,或者你能在上下文窗口中塞入多少個標記。而是取決于你能多好地為它提供當下重要的上下文。

但“好數據”的定義相當模糊。讓我們來澄清一下。它對人工智能的意義如下:

領域特定:AI 輔助優化零售定價需要競爭對手數據、客戶評論或區域趨勢,而不是無關的噪音。你必須做到精準定位。

持續更新:網絡瞬息萬變。錯過今日 X 趨勢的情緒模型,或使用上周價格的供應鏈模型,都已經過時了。

結構化和去重:重復、不一致和噪聲會浪費計算并稀釋信號。結構勝過規模。干凈勝過龐大。

實時可操作:過時的數據就是死數據。實時數據——價格變動、新聞、庫存變化——能夠為即時決策提供支持。但前提是收集數據必須合乎道德、可靠且規模化。

這就是 Salesforce 收購 Informatica 的原因——不是為了新模型,而是為了向 Agentforce 提供結構化的實時數據,以改善下游決策。

正因如此,IBM 于 2024 年 7 月斥資 23 億美元收購了 StreamSets,用于打造 Watsonx。StreamSets 專注于從混合數據源提取數據、監控數據流并處理模式漂移——這使得 IBM 能夠跨企業系統為 Watsonx 提供最新、一致的信號。對于需要基于實時狀態(而非僅僅基于歷史模式)進行推理的 AI 來說,這種基礎設施能夠帶來 10 倍的增效效果。

這也是 Dataweps 轉向Bright Data為飛利浦和華碩等電商客戶收集實時競爭對手定價和市場趨勢的原因。他們的 AI 驅動定價和競價系統依賴于快速、準確的數據,而 Bright Data 的 API 驅動生態系統(包括代理、存檔/數據集、支持 AI 代理的瀏覽器自動化工具等)使他們能夠可靠且大規模地收集這些數據。Bright Data 不僅僅是數據抓取,它還提供了現實世界 AI 系統所需的彈性、容量和合規性。坦率地說,它是一家 AI 基礎設施提供商。

關鍵在于:檢索質量如今勝過提示工程。即使是最好的提示也無法修復模型在推理時提取過時或不相關數據的問題。

正是現在,正確的環境。這就是后 Deepseek 時代 AI 生存或消亡的關鍵所在。

第一步總是最難的

乍一看,數據基礎設施聽起來像是管道。采集管道、轉換、存儲?貌似無聊至極。但在 RAG 和代理 AI 時代,這種管道已變得至關重要。為什么?因為你的系統不再只是運行推理——它基于外部、不斷變化的多模態實時信息進行推理。這改變了一切。

我是這樣認為的:現代人工智能數據棧已經發展成為一個成熟的價值鏈,從信息的獲取和提取,到信息的轉換和豐富,到信息的整理和排序,再到存儲和提供給合適的組件——無論是模型、代理還是人類。每一層都帶來了實時挑戰和現實后果。與傳統的 ETL 管道不同,它不僅僅是將數據錄入數據湖然后留在那里。

大多數團隊在第一步就搞砸了:采集。糟糕的數據提取會毀掉上下文。如果你的采集層錯過了關鍵更新,在邊緣情況下默默地失敗,或者以錯誤的結構或語言捕獲信息,那么你的整個堆棧都會繼承這種盲目性。

換句話說:你無法設計你未曾攝取的語境。這里有一篇有趣的論文,《AI 海洋中的塞壬之歌:大型語言模型中的幻覺調查》,作者是 Zhang 等人。該論文展示了在生產級系統中,未解決的攝取問題是“模型幻覺”和其他異常代理行為的最常見根源。

因此,在 RAG 和代理 AI 時代,攝取需要具有戰略性,這是不容置疑的:

它必須對人工智能代理友好,也就是說,能夠提供結構化的、即時的數據。

它必須處理動態 UI、CAPTCHA、變化的模式和混合提取(API + 抓取)。

多步驟AI代理既需要實時信號,也需要歷史記憶——現在發生了什么,之前發生了什么,發生順序如何,以及原因。因此,該基礎設施必須支持定時提取、增量更新和TTL感知路由——所有這些都具有彈性、合規性,并且隨時準備應對變化。

它必須具有規模可靠性,并能持續從數百萬個來源提供最新信息。

并且必須符合網站條款和法律規范。

這就是為什么脆弱的抓取工具、靜態數據集和一次性連接器不再足夠好的原因,以及為什么像 Bright Data 這樣專注于自動化友好、代理優先數據基礎設施的平臺正在變得像模型本身一樣基礎。

我見過像 Gemma 3 這樣的開源、開放權重模型在狹窄領域中表現優于 GPT-4,僅僅是因為新鮮的、精選的、基于領域的數據讓它們能夠用于更好的檢索系統。

我們來算一下。假設我們將檢索到的上下文片段的總效用定義為:

U=i=1ΣkRiFi

在哪里:

R i∈[0,1] 是第i個檢索到的片段與查詢的相關性得分。

???? [ 0 , 1 ] 是新鮮度得分,以隨時間衰減的函數建模(例如指數或線性)。

k是檢索到的上下文塊的數量,受模型的上下文窗口約束。

即使假設語義搜索完美(即???? 已優化),最大化U也可能意味著丟棄高度相關但過時的數據,轉而選擇相關性稍低(但最新!)的信號。如果您的提取層跟不上,就會造成可見性損失和效用下降。第二個影響與第一個影響相輔相成:不僅無法獲得新鮮內容,而且過時內容的存在還會降低性能。這會導致檢索到的上下文質量的復合下降。

這就是為什么數據采集(包括但不限于計劃更新、TTL 感知爬取、SERP 提取、提要解析等)不再僅僅是管道。

數據采集基礎設施究竟是什么樣子

那么,將數據采集視為一流的基礎設施究竟意味著什么呢?

這意味著:

構建循環管道,而非負載。數據不應被一次性抓取并存檔。它應該按計劃進行流式傳輸、刷新和更新——并內置自動化、版本控制、重試邏輯和可追溯性。一次性轉儲無法提供持久的智能。

將新鮮度納入檢索邏輯。數據會老化。您的排名和檢索系統應該將時間漂移視為首要信號——優先考慮能夠反映當前世界狀態的上下文。

使用基礎設施級來源。從自制腳本中抓取原始 HTML 無法擴展。您需要訪問層,這些層應提供 SLA、對驗證碼的彈性、模式漂移處理、重試、代理編排和合規性支持。

跨模態采集。有價值的信號存在于 PDF、儀表板、視頻、表格、屏幕截圖和嵌入式組件中。如果您的系統只能從純 HTML 或 Markdown 中提取數據,那么您就錯過了一半的信息。

構建事件原生數據采集架構。Kafka、Redpanda、Materialize 和時間序列數據庫——這些并非只適用于后端基礎設施團隊。在 AI 原生系統中,它們將成為采集和重放時間敏感信號的神經系統。

簡而言之,不要再把數據視為靜態資源。要把它當成計算資源——需要編排、抽象、擴展和保護。這才是“數據采集即基礎設施”的真正含義。

未來在于信息 > 規模

大多數 RAG 討論都停留在模型層面。但如今正在興起的 AI 棧,其模型可以互換,而數據基礎設施才是長期的護城河。

摩爾定律或許已不復存在,但原始性能仍在穩步提升。但在不久的將來,我并不確信人工智能系統的性能將取決于微調或快速的魔法。我認為,最終的勝利將取決于你的系統掌握的知識以及它們獲取知識的速度。最智能的人工智能系統并非擁有最大窗口的系統,而是擁有最佳上下文管理能力的系統——這得益于實時數據、動態內存和智能提取。

因此,作為工程師,我們不應將每一個新的數據源、反饋或實時數據流視為“內容”,而應將其視為能力。因此,每一個新的數據流也未必是噪音,而是信號。

也許你已經構建了這樣一個關鍵的人工智能基礎設施——只是你可能還沒有這樣稱呼它。

也許你已經開始考慮將數據(例如 API)饋送到你自己的內部智能層,并且意識到:你不需要最大的模型。你只需要合適的管道。

擁有這種想法的團隊,將網絡規模的數據采集視為基礎設施而不是一項次要任務,將會行動得更快、學到更多、用更少的費用獲得成功。

責任編輯:龐桂玉 來源: 數據驅動智能
相關推薦

2020-05-07 07:00:00

AI人工智能基礎設施

2022-07-05 09:31:46

基礎設施容器Docker

2022-02-10 11:54:34

即時基礎設施基礎設施數字化轉型

2025-07-23 09:21:03

2021-11-11 15:17:36

人工智能IT技術

2024-09-30 11:29:07

2021-11-25 17:00:26

數據

2023-05-17 14:24:09

2022-02-22 16:01:33

微軟人工智能超級計算

2017-06-09 15:25:23

IT設施數據中心融合

2015-12-07 09:39:53

光纖數據中心

2021-05-12 10:52:06

云原生K3S命令

2023-07-17 18:43:26

測試基礎設施開發

2009-12-18 17:14:25

惠普基礎架構

2009-12-22 13:59:59

惠普基礎設施運營

2021-11-08 15:32:33

數據中心數據中心架構基礎設施管理

2023-03-09 14:20:04

2020-02-24 11:08:27

云計算網絡攻擊數據
點贊
收藏

51CTO技術棧公眾號

午夜欧美一区二区三区在线播放| 免费看亚洲片| 日韩视频一区二区三区在线播放| 女人被男人躁得好爽免费视频 | 欧美不卡三区| 中文字幕在线观看高清| 国内自拍一区| 亚洲一区二区黄| 久久婷婷中文字幕| 国产社区精品视频| 欧美经典一区二区三区| 亚洲影影院av| 在线观看 亚洲| 亚洲综合五月| 亚洲欧美日韩久久久久久 | 99久久久国产精品| 国产欧美精品xxxx另类| 日本熟伦人妇xxxx| 日本a口亚洲| 亚洲精品美女久久久| 午夜一区二区视频| 国产精品av一区二区三区 | 涩涩视频在线观看| 激情视频一区| 久久九九亚洲综合| 亚洲AV无码国产成人久久| 免费成人黄色网| 日韩欧美aaa| 免费在线黄网站| 在线观看完整版免费| 成人夜色视频网站在线观看| 国产一区二区在线免费| 国产99免费视频| 99亚洲一区二区| 欧美激情一级二级| 午夜写真片福利电影网| 97色伦图片97综合影院| 亚洲性猛交xxxxwww| 国产毛片毛片毛片毛片毛片毛片| 清纯唯美激情亚洲| 欧美乱妇一区二区三区不卡视频| 成人免费无码av| 末成年女av片一区二区下载| 亚洲高清中文字幕| 国产毛片久久久久久国产毛片| 欧美激情黑人| 中文字幕一区二区三区四区不卡| 欧美黑人3p| 三级理论午夜在线观看| 99免费精品在线| 精品视频第一区| 人妻中文字幕一区| aaa国产一区| 国产亚洲欧美另类一区二区三区| 黄色www视频| 国产999精品久久久久久绿帽| 亚洲在线观看视频网站| 国产视频www| 国产在线精品一区二区不卡了| 91精品国产综合久久香蕉的用户体验| 亚洲在线免费观看视频| 麻豆成人91精品二区三区| 国产精品影片在线观看| 成人免费视频国产免费| 蜜臀av性久久久久蜜臀av麻豆| 国产精品嫩草影院久久久| 亚洲午夜无码久久久久| 久草这里只有精品视频| 91久久精品国产91久久| 性中国xxx极品hd| 成人精品国产一区二区4080| 激情五月综合色婷婷一区二区| 亚洲av成人精品一区二区三区在线播放 | 黄色国产网站在线播放| 伊人一区二区三区| 国产一区二区四区| 亚洲精品mv| 欧美色涩在线第一页| 五月天开心婷婷| www国产精品| 亚洲免费视频一区二区| 亚洲激情图片网| 欧美区亚洲区| 亲子乱一区二区三区电影| 瑟瑟视频在线免费观看| 狠狠v欧美v日韩v亚洲ⅴ| 懂色一区二区三区av片| 麻豆av电影在线观看| 椎名由奈av一区二区三区| 国产精品无码电影在线观看| 在线天堂资源www在线污| 欧美午夜不卡视频| 91porn在线| 国产99亚洲| 欧美精品在线视频观看| 97久久久久久久| 黄色小说综合网站| 久草一区二区| 超碰porn在线| 色婷婷综合激情| 国产精品一级无码| 国产尤物久久久| 久久久久久国产| 欧美在线视频精品| 成人免费观看视频| 亚洲人成77777| 蜜桃在线视频| 欧美一区二区三区播放老司机| 中国毛片在线观看| 欧美欧美天天天天操| 国产精品久久婷婷六月丁香| 亚洲精品久久久蜜桃动漫| 欧美经典一区二区| 女人和拘做爰正片视频| 精品国产乱码久久久久久樱花| 亚洲视频免费一区| 久久免费小视频| 免费成人av在线| 女人一区二区三区| 欧美wwww| 69成人精品免费视频| 欧洲女同同性吃奶| av不卡在线| 97人人干人人| av文字幕在线观看| 欧美少妇一区二区| 亚洲精品色午夜无码专区日韩| 亚洲区欧美区| 国产精品麻豆免费版| 超碰在线caoporen| 91麻豆精品国产91久久久久久久久| 中文字幕在线1| 久久国产高清| 老牛影视免费一区二区| 国产h片在线观看| 精品欧美一区二区久久| 黄色一级免费视频| 国产一区二区三区黄视频 | 免费一级suv好看的国产网站| 久久午夜激情| 欧美大陆一区二区| 夜鲁夜鲁夜鲁视频在线播放| 亚洲二区中文字幕| 日本熟妇色xxxxx日本免费看| 成人午夜av电影| 99在线免费视频观看| 狂野欧美xxxx韩国少妇| 欧美成aaa人片在线观看蜜臀| 97在线公开视频| 国产精品第13页| www.午夜av| 欧美女激情福利| 国产精品国色综合久久| h片在线观看视频免费免费| 精品国产一区二区三区不卡| 亚洲精品美女久久| 欧美狂野另类xxxxoooo| 中文字幕人妻无码系列第三区| 香蕉国产精品| 91av一区二区三区| 麻豆福利在线观看| 亚洲国产日韩欧美在线图片| 国产无码精品一区二区| 97久久精品人人做人人爽| 动漫av网站免费观看| 亚洲资源网你懂的| 国产精品日日做人人爱| 好操啊在线观看免费视频| 日韩一二在线观看| 91看片在线播放| 国产午夜久久久久| 日本中文字幕观看| 国产综合网站| 久久久久久久久久码影片| 五月激情久久| 久热精品视频在线观看一区| 好吊色在线观看| 91国产成人在线| 中文字幕电影av| 不卡高清视频专区| 亚洲第一中文av| 韩国久久久久| 日韩色妇久久av| 精品国产三级| 热草久综合在线| 黄色网页在线免费看| 亚洲精品久久久久久久久| 中文无码av一区二区三区| 一区二区在线电影| 一级黄色性视频| 国产成人av福利| 欧美日韩大尺度| 欧美性色综合| 亚洲电影一二三区| 国产美女撒尿一区二区| 国产精品久久久久久影视| 成年人视频免费在线播放| 国产一区二区三区在线看| www香蕉视频| 欧美无人高清视频在线观看| 久久久久久久久艹| 国产精品美女视频| 久久久午夜精品福利内容| 毛片av中文字幕一区二区| 欧美日韩成人免费视频| 911精品美国片911久久久| 蜜桃视频在线观看91| 欧美日韩国产一区二区在线观看| 国产成人+综合亚洲+天堂| 美女精品导航| 久久精品99久久久香蕉| 青青色在线视频| 精品国产凹凸成av人网站| 国产一区二区三区中文字幕| 欧美午夜精品在线| 国产精品第72页| 亚洲欧洲综合另类| 林心如三级全黄裸体| 91网上在线视频| 欧美日韩人妻精品一区在线| 国产在线国偷精品免费看| 亚洲中文字幕久久精品无码喷水| 在线欧美不卡| 欧美视频在线第一页| 久久一区二区三区喷水| 欧美在线一二三区| 欧美亚视频在线中文字幕免费| 成人国产1314www色视频| 色8久久久久| 国产精品日日摸夜夜添夜夜av| 综合在线影院| 国产成人jvid在线播放| 亚洲人成在线网站| 77777少妇光屁股久久一区| 超碰在线中文字幕| 欧美精品第一页在线播放| 日皮视频在线观看| 久99久在线视频| 日韩经典av| 欧美极品在线播放| 肉肉视频在线观看| 久久久久久久久亚洲| 久久不射影院| 久久久亚洲网站| 国产h片在线观看| 欧美专区国产专区| 成人免费看视频网站| 欧美在线视频播放| 亚洲第一影院| 国产狼人综合免费视频| 精品福利在线| 91免费国产视频| 亚洲乱码一区| 国产免费一区| 欧美精品密入口播放| 久久99影院| 俺要去色综合狠狠| 一本一生久久a久久精品综合蜜| 91视频久久| av在线免费观看国产| 在线国产欧美| 黄色三级视频片| 精品中文字幕一区二区| 三大队在线观看| 99re这里只有精品6| 熟女俱乐部一区二区| 国产精品天干天干在观线| 国产黄色录像片| 亚洲一区二区三区四区的 | 婷婷成人激情| 欧美成人免费观看| 国产精品原创| 国产精品日韩久久久久| 日韩精品一区二区三区中文| 国产欧美日韩伦理| 国产一区二区精品福利地址| 中文字幕久久一区| 好吊日精品视频| 亚洲精品一二三四五区| 国产综合成人久久大片91| 日韩黄色一区二区| 国产日韩欧美综合一区| 极品盗摄国产盗摄合集| 日韩欧美国产激情| 99精品在线视频观看| 国产视频久久网| 毛片在线视频| 欧美性一区二区三区| 亚洲日日夜夜| 免费看成人av| 欧美精品97| 超碰在线97免费| 不卡的av在线播放| 亚洲精品国产精品乱码在线观看| 亚洲国产一二三| 18国产免费视频| 亚洲第一偷拍网| 麻豆网站在线免费观看| 欧美一区三区三区高中清蜜桃| 99精品视频在线免费播放| 久久婷婷人人澡人人喊人人爽| 亚州av乱码久久精品蜜桃| 国产二区视频在线播放| 国产福利一区二区三区视频在线| 免费人成又黄又爽又色| 亚洲国产精品影院| 97人妻精品一区二区三区动漫| 亚洲乱码一区二区| 欧洲精品二区| 91九色国产视频| 日本成人小视频| 欧美激情 国产精品| 国产激情91久久精品导航| 大吊一区二区三区| 色偷偷一区二区三区| 欧美性受xxxx狂喷水| 久久色精品视频| jizzjizz少妇亚洲水多| 久久久一本精品99久久精品66| 欧美色一级片| 制服下的诱惑暮生| 日韩美女视频19| 亚洲天堂中文网| 亚洲欧洲中文天堂| 中文字幕在线中文字幕在线中三区| 91国产在线播放| 亚洲va在线| 一区二区在线免费看| 国产日韩在线不卡| 亚洲大片免费观看| 精品亚洲aⅴ在线观看| 免费在线小视频| 久精品国产欧美| 亚洲免费婷婷| 国产艳俗歌舞表演hd| 激情av一区二区| 特黄aaaaaaaaa真人毛片| 久久久久久久国产精品| 99香蕉久久| 男人的天堂狠狠干| 99热精品国产| 国产剧情在线视频| 亚洲欧洲成视频免费观看| 国产精品av一区二区三区 | 粉嫩一区二区三区国产精品| 日韩免费在线播放| 国内精品久久久久久久久电影网| 欧美极品欧美精品欧美图片| 91视频com| 老熟妇一区二区三区| 中文字幕免费精品一区高清| 国产在视频一区二区三区吞精| 亚洲国产欧洲综合997久久| 久久精品国产一区二区三区免费看 | 一本大道熟女人妻中文字幕在线| 91麻豆swag| www.久久网| 久久久av一区| 2023国产精华国产精品| 婷婷五月综合缴情在线视频| 久久亚洲捆绑美女| 中文字幕在线观看精品| 插插插亚洲综合网| 噜噜噜狠狠夜夜躁精品仙踪林| 日本wwww视频| 国产精品久久99| 亚洲精品喷潮一区二区三区| 欧美性资源免费| 日韩精品91| 亚洲一二三四五| 日韩欧美在线播放| 欧美尤物美女在线| 粉嫩精品一区二区三区在线观看 | 天堂在线一二区| 国产精品国产自产拍高清av水多| 91九色精品国产一区二区| 国产乱国产乱老熟300部视频| 色综合久久99| 超碰在线caoporn| 久久久99国产精品免费| 麻豆国产精品视频| 日韩欧美a级片| 上原亚衣av一区二区三区| 999久久精品| 成人亚洲精品777777大片| 亚洲伊人色欲综合网| 韩国中文免费在线视频| 亚洲综合自拍一区| 久久中文精品| 久久久精品人妻一区二区三区四| 亚洲欧美日韩国产中文| 青草伊人久久| 在线观看免费黄网站| 性欧美大战久久久久久久久| 在线观看av的网站| 精品国产乱码久久久久| 韩国av一区二区三区| 天天干,天天干| 久久久久久久香蕉网| 欧美gvvideo网站|