Apache Spark
作者:chensf整理
Spark是個開源的數據分析集群計算框架,最初由加州大學伯克利分校AMPLab開發,建立于HDFS之上。Spark與Hadoop一樣,用于構建大規模、低延時的數據分析應用。Spark采用Scala語言實現,使用Scala作為應用框架。
代碼托管地址: Apache
Spark是個開源的數據分析集群計算框架,最初由加州大學伯克利分校AMPLab開發,建立于HDFS之上。Spark與Hadoop一樣,用于構建大規模、低延時的數據分析應用。Spark采用Scala語言實現,使用Scala作為應用框架。
Spark采用基于內存的分布式數據集,優化了迭代式的工作負載以及交互式查詢。與Hadoop不同的是,Spark和Scala緊密集 成,Scala像管理本地collective對象那樣管理分布式數據集。Spark支持分布式數據集上的迭代式任務,實際上可以在Hadoop文件系統 上與Hadoop一起運行(通過YARN、Mesos等實現)。
責任編輯:陳四芳
來源:
51CTO






























