Alluxio1.0發布:API順暢銜接大數據應用與存儲
譯文【51CTO.com快譯】最初定名為Tachyon的Alluxio公司正積極構建API方案,旨在幫助大數據應用程序以更快速度通過統一化接入方式訪問數據所駐留的存儲體系。
Alluxio的存儲API能夠支持Amazon S3、Google Cloud Storage、OpenStack Swift、EMC以及NetApp。
目前已經迎來1.0版本的Alluxio API方案能夠幫助Spark、MapReduce、Flink或者Presto等框架訪問多種存儲系統類型。除了Amazon S3、Google Cloud Storage以及OpenStack Swift等受支持云存儲供應商外,EMC與NetApp等傳統存儲方案供應商亦在其支持列表當中。
從表面上看,Alluxio似乎屬于一套類似于Memcached或者Redis的內存緩存系統。但恰恰相反,它立足于分布式計算應用與存儲體系之間,并通過提供統一化API幫助前者與后者順暢對接。各應用程序能夠利用Alluxio的API享受到出色的訪問速度,同時擺脫各類傳統API(例如HDFS實現機制)糟糕的速度與兼容性表現。
在本月早些時候發布的一篇博文當中,英特爾公司的工程師們描述了Alluxio如何幫助其解決大數據框架使用當中所出現的各類常見難題,例如在不同應用程序之間進行數據共享。相較于將數據寫入至HDFS再重新加以讀取,現在用戶能夠將數據寫入至Alluxio的內存內存儲體系,并以更快速度完成二次讀取。
同樣的,一直困擾著Spark等大數據框架的JVM垃圾回收與堆緩存問題亦可通過Alluxio得到切實解決。IBM公司早在Alluxio尚處于Tachyon時代時即給出過類似的結論,表示其能夠將內存內HDFS的寫入速度提升110倍,同時“將端到端現實工作流延遲削減至原本的四分之一”。
Alluxio還能夠對其它解決方案做出補充; 舉例來說,通過將Apache Arrow與適合現代CPU之應用程序格式相對接以顯著提高數據處理速度。Arrow所需要的存儲數據全部由Alluxio負責供應。
作為Tachyon的化身,Alluxio已經開始為多個大數據項目提供支持,而Spark則正是其中的典型代表。該公司計劃進一步面向其它大數據項目及存儲系統供應商構建更為全面的支持能力。
原文鏈接:Big data, but faster: API speeds links between apps and storage
【51CTO譯稿,合作站點轉載請注明原文譯者和出處為51CTO.com】



















