Apache Spark的R語言前端:SparkR
Spark是一個開源的集群計(jì)算系統(tǒng),用于快速數(shù)據(jù)分析,包括快速運(yùn)行和快速寫操作。Spark 是一種與Hadoop相似的開源云計(jì)算系統(tǒng),但是兩者之間還存在一些不同之處,這些有用的不同之處使 Spark 在某些工作負(fù)載方面表現(xiàn)得更加優(yōu)越,換句話說,Spark啟用了內(nèi)存分布數(shù)據(jù)集,除了能夠提供交互式查詢外,它還可以優(yōu)化迭代工作負(fù)載。

Spark架構(gòu)
Spark 是在Scala語言中實(shí)現(xiàn)的,它將Scala用作其應(yīng)用程序框架。與Hadoop不同,Spark 和 Scala 能夠緊密集成,其中的Scala可以像操作本地集合對象一樣輕松地操作分布式數(shù)據(jù)集。
盡管創(chuàng)建 Spark是為了支持分布式數(shù)據(jù)集上的迭代作業(yè),但是實(shí)際上它是對 Hadoop 的補(bǔ)充,可以在 Hadoo 文件系統(tǒng)中并行運(yùn)行。通過名為Mesos的第三方集群框架可以支持此行為。Spark 由加州大學(xué)伯克利分校 AMP 實(shí)驗(yàn)室 (Algorithms, Machines, and People Lab) 開發(fā),可用來構(gòu)建大型的、低延遲的數(shù)據(jù)分析應(yīng)用程序。
運(yùn)行SparkR
- library(SparkR) sc <- sparkR.init(master="local")
項(xiàng)目主頁http://www.open-open.com/lib/view/home/1390350018742






























