Hadoop和大數據正式走到頭了:13個相關的Apache開源項目宣布報廢
看起來Hadoop和大數據的光輝歲月正式走到頭了。
Apache軟件基金會已在短短11天內宣布報廢13個與大數據有關的Apache項目,其中包括Sentry、Tajo和Falcon。
昔日大數據領域的寵兒Apache Hadoop早已過氣,最近這已不是什么秘密。不過自4月1日起,Apache軟件基金會(ASF)已宣布將至少19個開源項目“束之高閣”(Attic),其中13個項目與大數據有關,其中10個項目屬于Hadoop生態系統。
光榮榜
雖然宣布報廢單個項目似乎微不足道,可是從整體上來看,它們無異于一起分水嶺事件。為了幫助從業人員和行業觀察人士充分認識到這次大數據開源重組帶來的全面影響,盤點一下似乎很必要。
考慮到這點,與大數據有關的已報廢的Apache項目包括如下:
- Apex:這個統一的平臺面向大數據流和批處理,基于Hadoop YARN。
- Chukwa:這個數據收集系統用于監控大型分布式系統,基于Hadoop分布式文件系統(HDFS)。
- Crunch,它提供了一套框架,用于編寫、測試和運行MapReduce(包括Hadoop MapReduce)管道。
- Eagle:這種分析解決方案用于立即發現大數據平臺(包括Hadoop)的安全和性能問題。
- Falcon:這種面向Hadoop的數據處理和管理解決方案,為數據移動、數據管道協調、生命周期管理和數據發現而設計。
- Hama:這種用于大數據分析的框架在Hadoop上運行,基于Bulk Synchronous Parallel范式。
- Lens:提供統一分析界面,將Hadoop與傳統數據倉庫集成起來,如同一個整體。
- Marmotta:一種面向鏈接數據的開放平臺。
- Metron:專注于實時大數據安全。
- PredictionIO:這種機器學習服務器用于管理和部署生產就緒的預測服務。
- Sentry:這種系統用于對Apache Hadoop中的數據和元數據執行細粒度授權。
- Tajo:Hadoop上的大數據倉庫系統。
- Twill,使用Hadoop YARN的分布式功能以及類似運行中線程的編程模型。
房間里的大象
上面這份名單很長,而且是一份還包括非大數據項目的更長名單的一部分。很顯然,Apache軟件基金會正在做一番清理工作。此外,由于Cloudera和Hortonworks合并,Sentry和Metron實際上已遭棄用,對應的Ranger項目和Spot項目改而受到追捧。兩家公司共同支持這所有四個項目,只有一對項目才能取得勝利。
這樁合并本身植根于大數據市場的合并。可以說,這起大數據合并還能解釋上述報廢項目的整份名單。退一步說,在不到兩周的時間內宣布報廢所有這些項目值得關注。
官方說法
ZDNet編輯Andrew Brust向Apache軟件基金會詢問了有關清理大數據項目的情況。Apache軟件基金會的營銷和公關副總裁Sally Khudairi通過電子郵件回復道:“Apache項目的活動在其一生中起伏不定,這取決于社區的參與情況。”Khudairi補充道:“從項目管理委員會(PMC)內部到投票決定將項目束之高閣的理事會,我們審查和評估數個Apache項目的活動有所加大。”Khudairi還表示,Apache軟件基金會Apache Attic副總裁Hervé Boutemy“最近通過‘春季大掃除’,在過去幾個月清理掉了準備報廢的十幾個項目,一直非常高效。”
盡管Apache軟件基金會聲稱這次大數據清理活動只是常規項目報廢一下子集中而已,但很明顯,大數據領域的形勢已發生了變化。Hadoop在開源分析技術的霸主地位已讓給了Spark,Hortonworks與舊的Cloudera之間項目無意義重復的現象已被終止,而這些項目當中優勝劣汰的自然選擇業已完成。
不妨注意點
同樣很顯然,在大數據世界,Apache Sentry方面大筆投入的眾多供應商和客戶現在將需要彌補其損失,繼續前進。這個殘酷的現實帶來了幾乎適用于每個技術類別炒作周期的教訓:社區為之興奮,開源技術遍地開花,生態系統確立起來。但是那些生態系統并不是永生的,幾乎任何新平臺(無論是商業平臺還是開源平臺)都存在固有的風險。
用Apache軟件基金會的Khudairi的話來說:“每個項目背后的社區確保其代碼的活力(‘代碼不會自行編寫’),因此社區在某個項目上改變步伐的情況并不少見。”換句話說,先進技術令人興奮,但早期采用者要提防:先進技術也存在著變數。要小心,管理好風險。
































