大數據并沒有死,可能是你已經不認識它了
去年年初,Jordan Tigani發表了一個演講《Big data is dead》,這個演講引發了不少爭論。如果是別人談這件事,可能很多人會不以為然,不過了解Jordan Tigani的履歷的人可能就得在腦子里多轉幾個彎了。
圖片
這哥們可不是一般人,曾經是谷歌BigQuery項目的第一批程序員,寫過幾本大數據的書,又是利用DuckDB開展大數據云服務的服務商的聯合創始人。妥妥的根正苗紅的大數據前輩,連這種濃眉大眼的人都叛變了,難道大數據真的快死翹翹了嗎?
對于大數據方面的觀點,我一直是有些滯后于主流觀點的。當大家認為大數據會顛覆關系型數據庫的時候,我十分固執的認為這件事不會發生。當然涉及到自己的飯碗,固執己見是必然的。而當現在很多人在唱衰大數據的時候,我依然不以為然。因為大數據無需唱衰,大數據已經融入了社會生活。當我們跳入水里的時候會有所感知,但是我們會感知我們走入了空氣中嗎?不會,因為我們一直存在與空氣中。大數據也是如此,當我們融入大數據的時候,大數據的關注度就降低了,我們無需感知它的存在了。
當我們每天開車上班的時候,大數據在為我們選擇最佳的出行方式與行車路徑;當我們在地鐵上遺失了貴重物品的時候,大數據幫我們很快追蹤到失物的蹤跡;大數據會讓氣象預報以小時為單位發布,并且能夠比較準確的預測到15天甚至更遠的大致情況;大數據能幫助稅務部門發現某些人在十年前的稅務違規,能夠幫助海關發現潛在的走私行為;而當我們打開抖音的時候,總是能刷到自己喜歡類型的小姐姐。這一切的背后都是大數據和大數據處理。大數據不是死了,而是進化了,進化得讓我們不需要感知到它的存在了,因為它的幽靈已經無處不在了。
不談大數據到底是不是已經成為了我們的空氣,單單就Jordan的那個演講來看,似乎觀點也不大靠譜,這篇演講稿里充滿了濃厚的商業氣息,妥妥的是作為一個CPO(首席產品官)而不是一個CTO在演講。離開了谷歌BigQuery后,從事的業務變了,立場也就變了。其中的一些主要觀點都存在一些偏頗的地方。
圖片
去年3月份,在Jordan發表演講后不久,加州伯克利的數據科學家Aditya Parameswaran撰寫了一篇長文,對Jordan的一些存在錯誤的關鍵點進行了一一分析。Aditya也不是無名之輩,他發起的Ponder目前已經被SnowFlake收購。相對而言,我還是比較認同Aditya的觀點的,有興趣的朋友可以仔細閱讀一下他的文章(https://ponder.io/big-data-is-dead-long-live-big-data/),具體的觀點我就不在這里多啰嗦了。
2021年我曾經去參觀過一個智能工廠,用2000多個機械臂替代了以前的2000名工人。當時他們的車間主管說支撐這個工廠的數據庫每天會產生一個TB的數據,這些數據需要用比較便宜一點的存儲設備長期保存起來。對這些數據的分析可以幫他們發現機器人參數中存在的問題,從而優化這些參數,進一步提高良品率。這些數據的價值是巨大的,剛開始的時候他們并不了解這些數據的用途,一般保留幾天后就會自動刪除。自從一個高校和他們的科研項目開展起來后,他們才發現這些數據的價值,于是他們立即投資建設了數據歸檔系統。Jordan的演講中認為歷史數據訪問頻率不高,利用價值不大 ,只是不知道如何刪除它才會被錯誤的長期保存,這種對數據價值的描述明顯是錯誤的。
實際上我們在做智能化運維系統的時候也經常發現,因為缺乏歷史數據,某些算法的應用和研究往往就無法進行。前些年構建運維知識圖譜的時候,有位客戶拿出了壓箱底的10年積累的故障案例,我們如獲至寶,不過這項工作并沒有順利的進行下去,因為他們只保留了日志文件和當時的分析報告,缺乏大量的指標數據,因此很難用于建模。
“計算需求不會隨著時間的推移而保持不變,因為日常工作負載的需求會有所不同,數據大小和計算維度的靈活性是關鍵”,上述Aditya的觀點正好與我上面所說的例子吻合。當我們需要某種計算的時候,經常會發現數據的不足。
大數據的計算與應用需求來自于業務,一些感覺大數據是忽悠的朋友,可能是因為企業上大數據項目的時候只是為了趕時髦,而并不是真實的需求而已。不過不要緊,計算需求會隨著時間推移而變化的,隨著企業數字化轉型的發展,你也許會在未來看到這些大數據的價值的。
我們今天所說的大數據處理早已經不是2004年谷歌發表那幾篇論文時代的大數據處理了。正如大數據興起時,Nosql能顛覆RDBMS的革命正如我所期望的那樣并沒有發生,如今我們對大數據有了更豐富的處理方式。大量的SQL ON HADOOP技術的出現,數據湖、實時數倉、湖倉一體、HTAP等技術的出現與演進,讓大數據的處理變得更加簡單了。硬件技術的發展也讓單機集中式數據庫的處理能力飛速提升。關系型數據庫也能夠處理大數據了。
隨著大語言模型的高速發展(大語言模型實際上也是大數據的產物),AI4BI的發展也在發生質變。融合計算也日益被公眾所接受,文檔處理不再是MongoDB的專利,Oracle 23c中已經十分成功的將向量計算、圖計算、文檔處理與傳統的關系型數據處理融為一體。融合計算會讓大數據處理更加高效,大數據應用的成本更加低廉,這只會加快大數據價值的增值,而絕不會讓大數據死亡。
數據已經快成為與土地、勞動力、技術、資本并列成為第五生產要素了,這時候唱衰大數據的行為大多數只是一些商業的炒作而已。想給大數據燒紙的朋友可能要當心了,大數據的一絲游魂已經進化成了人工智能CHATGPT,而它據說已經進軍殯葬業,今后誰會給誰燒紙還真不好說啊。























