曾經很多人說“大數據就是未來”,這句話錯了嗎?
本文轉載自公眾號“讀芯術”(ID:AI_Discovery)
“大數據”對我的吸引力已經大不如前了。
回想當年,在我剛開始攻讀數據科學碩士學位的天真歲月里,任何與大數據相關的主題都會讓我興奮不已。我試圖挖掘每一組數據中屬于3V的一部分。我想要從無窮的數據流中提煉出可分析的數據,然后建模、可視化、進行數據轉換。
然而如今,每每看到“大數據”這個詞,總會不自覺地讓我揚起眉毛,內心不斷地猜想接下來又會出現哪個同樣“流行”又“模糊”的科技熱詞呢?
究竟是我變了,還是大數據變了?
流行詞與現實
最近,我對流行詞變得十分敏感。它們被高估了,實際上不具有任何意義。“讓大數據為數字化時代帶來創新”,這句話看上去很酷,但它的意義又是什么呢?現實可能停留在Excel電子表格、令人沮喪且緩慢的計算中。
大數據之所以令人感到興奮,是因為它代表了一種巨大的財富(“它將是一種巨大的財富”,聽起來耳熟嗎?),你可以在其中搜索、查找并使用對你有價值的任何東西。
我最初對于大數據的看法是,“在所有這些數據中,肯定有什么東西是我們絕對想知道的”?;蛟S這是對的,但要從大量數據中找到那些有價值的東西,我們要付出什么代價呢?
沒有正確的基礎架構,大數據將毫無用處
處理大量數據需要計算能力,存儲能力、以及數據傳輸等能力。同時,還會遇到各種意想不到的瓶頸。
隨著云平臺的發展,計算能力變得更加便宜和易于使用,但云存儲也在指數級增長,云計算的日常使用甚至本地服務器的維護都是一筆不小的開銷。
這也就是本世紀關于數據的比較大的教訓:有時候,對某些人而言像黃金一樣的數據,于另一些人而言就是浪費整個存儲空間的垃圾。
很多公司都是先花錢挖掘數據,然后再回過頭來看哪些數據是真的有用的。費用卻已經花掉了,但有沒有用可不一定。
那如果我們在收集數據之前就優先確定數據是否有用,結果會怎么樣呢?
不是所有數據都是有趣的數據
數據科學界有句話叫“無用輸入再無效輸出”。在實際應用中,有很多數據實際上是不可靠的,而且是需要下很大功夫清理才能被使用的。
通常,我們花費了大量精力、時間和金錢卻只能在龐大的數據集中找到少量信息。根據Forrester的報告,企業內至少60%的數據仍未使用。
如果將這些未使用數據的存儲成本投資在實際需要的數據的正確基礎架構中,會怎么樣呢?
數據越多越好嗎?
“向AI投入盡可能多的數據”的時代已經結束了。人們已經意識到,不是每一個數據特性都是有用的,有些甚至可能有害,數據的質量往往比數量更加重要。
我們更希望數據能夠以可靠、一致的方式來呈現我們關心的事情。通過了解數據的質量,也會更好地將我們領入一個可解釋的、負責任的和安全的關于AI的研究探索階段。
這是(大型)實施和(大型)搭建更好的基礎架構的時代
我們已經獲得了數據,現在需要做的是搭建更完善的基礎架構,從而更安全地使用、共享、分析數據,并且能夠更加精準地區分無用數據和有價值的信息。
我們還需要確保數據和人工智能的質量和可靠性,確保全世界都可以使用它們并理解其中涵義。盡管有些人很難理解這一點,但數據不在于龐大,而在于可靠。
盡管聽上去沒有其他口號那樣有煽動力,但是我還是要講:大數據已死,可靠的數據萬歲!






























