阿里云核心--飛天開放平臺
飛天是由阿里云開發的一個大規模分布式計算系統,其中包括飛天內核和飛天開放服務。
飛天內核負責管理數據中心Linux集群的物理資源,控制分布式程序運行, 隱藏下層故障恢復和數據冗余等細節,有效提供彈性計算和負載均衡。如圖所示,飛天體系架構主要包含四大塊:1、資源管理、安全、遠程過程調用等構建分布式系統常用的底層服務;2、分布式文件系統;3、任務調度;4、集群部署和監控。

飛天開放服務為用戶應用程序提供了計算和存儲兩方面的接口和服務,包括彈性計算服務(Elastic ComputeService,簡稱ECS)、開放存儲服務(Open Storage Service,簡稱OSS)、開放結構化數據服務(Open Table Service,簡稱OTS)、關系型數據庫服務(Relational Database Service,簡稱RDS)和開放數據處理服務(Open Data Processing Service,簡稱ODPS),并基于彈性計算服務提供了云服務引擎(Aliyun Cloud Engine,簡稱ACE)作為第三方應用開發和Web 應用運行和托管的平臺。
分布式系統底層服務
資源管理
負責調度和分配集群的內存和計算等資源給上層應用和服務,管理運行在集群節點上的任務的生命周期和資源使用。在多用戶運行環境中,支持計算額度、訪問控制、作業優先級和資源搶占,達到在保障公平的前提下有效地共享集群資源。
安全管理
提供以用戶為單位的身份認證和授權,為集群數據資源和服務的訪問控制生成權能。
遠程過程調用
提供可靠高效的進程間遠程調用服務,支持通訊信道的數據壓縮和一致性校驗。
分布協同服務
提供分布式系統基本的命名服務、狀態同步服務和分布式鎖服務。支持基于Paxos的分布式共識協議。
分布式文件系統
提供類似于POSIX的用戶空間文件訪問API,支持隨機讀和追加寫,可用于強一致性要求的事務日志場景。
高可擴展性,支持上億個文件和PB以上量級的文件存儲。
基于Paxos協議的多Master設計,避免集群單點失效,自動進行故障監測和數據復制,在不依賴RAID卡和NAS等特殊硬件設備的條件下,提供99.99%的可用性和大于十個9的數據可靠性。
Share-Nothing架構設計,支持大規模并發讀寫,充分利用分布式并行帶寬。毫秒級別的日志更新操作,支持快速響應的在線服務。
支持增量擴容和自動數據平衡能力,允許用戶定制數據分布策略。
任務調度
面向海量數據處理和大規模計算類型的復雜應用,提供了一個數據驅動的多級流水線并行計算框架,在表述能力上兼容MapReduce,Map-Reduce-Merge,Cascading,FlumeJava等多種編程模式。
高可擴展性,支持十萬以上級的并行任務調度。
自動檢測故障和系統熱點,重試失敗任務,保證作業穩定可靠運行完成。
集群部署與監控
部署
提供整個飛天以及上層應用服務的部署、配置管理、以及服務的自檢和自舉。支持在線集群擴容和應用服務的在線升級。
監控
監控飛天集群和上層應用服務的運行狀況和性能指標,提供豐富的監控圖表和集群狀況儀表盤,支持用戶定義的自動報警服務,以及在線性能剖析和故障診斷。























