如何搭建大規模機器學習平臺?以阿里和螞蟻的多個實際場景為例
近年來,隨著“大”數據及“大”模型的出現,學術界和工業界對分布式機器學習算法引起了廣泛關注。針對這一剛需,本論文設計了一個***的分布式平臺——鯤鵬。它無縫的結合了分布式系統及并行優化算法,解決了大規模機器學習算法帶來的一系列問題。鯤鵬不僅囊括了數據/模型并行、負載平衡、模型同步、稀疏表示、工業容錯等特性,而且還提供了封閉好的、宜于調用的API供普通的機器學習者開發分布式算法,降低使用成本并提升效率。
本論文的實驗在十億級別的樣本和特征數據上進行,結果表示,鯤鵬這一設計使得一系列算法的性能都得到了極大的提升,包括FTRL,Sparse-LR,以及MART。此外,鯤鵬在阿里巴巴雙11狂歡購物節及螞蟻金服的交易風險檢測中體現出了其巨大的應用價值。
研究背景
現在是個大數據的時代,各個平臺的數據量都與時俱進。舉例而言,國外的Twitter每天新增5億條Tweets,阿里巴巴每天有5000萬個包裹,螞蟻金服的支付寶交易峰會達到12萬筆/秒,僅僅在2016年雙11當天就產生了10.5億條交易。如此大的數據量使得機器學習不得不面臨著樣本及特征規模巨大的挑戰。例如,阿里巴巴內部的模型會達到千億樣本,百億特征,TB-TP級的訓練數據量。因此,如果搭建能夠訓練如此大規模數據的機器學習平臺是工業界面臨的一個巨大問題。
已有方法介紹
?? 
圖1阿里某生產集群中MPI任務狀態
目前,業界已經有一些比較成熟的分布式處理框架,如Hadoop,Spark,GraphLab和GraphX。雖然它們可以支持機器學習算法并行化,但它們很難讓開發人員設計出更有效率且支持更大規模的機器學習算法。具體而言,Hadoop和Spark雖然提供了一些同步和粗粒度運算符(例如,Map,Reduce 和 Join 等),但主要還停留在解決中小規模機器學習的問題。
GraphLab/GraphX主要是為了圖存儲和計算,并不適用于普通的大規模機器學習算法。MPI雖然能夠支持普通的分布式計算,但其缺乏容錯機制。特別是在worker很大的情況下,MPI的運行成功率會大大降低,如圖1所示。因此,如何設計更有效率且支持更大規模的機器學習算法成為一個業界難題。
鯤鵬的研究動機及創新性
鯤鵬取名自《莊子·逍遙游》,文中記載“北冥有魚,其名曰鯤。鯤之大,不知其幾千里也;化而為鳥,其名為鵬。鵬之背,不知其幾千里也。怒而飛,其翼若垂天之云?!痹谖覀兊啮H鵬系統中,“鯤”即是超大規模分布式計算系統,它擁有超強的計算能力;而“鵬”即是超大規模分布式優化算法,它建立在“鯤”之上?!蚌H鵬”即同時擁有超大規模分布式計算系統及超大規模分布式優化算法,合二為一使得它有“一飛沖天”的能力,如圖2所示。
?? 
圖2鯤鵬的研究動機及創新性
系統創新
鯤鵬的創新在于它擁有了以下功能:
- 強大的容錯功能,甚至在復雜且忙碌的線上集群環境中
- Backup Instancefor Straggler Management
- 支持有向無循環圖形式的調度和同步,包括BSP/SSP/ASP
- 用戶友好的界面和編程
算法創新
鯤鵬架構使得常用的機器學習算法的大規模化成為了可能,截止目前,已經有眾多機器學習算法在鯤鵬上得以實現和應用,包括但不限于LR,FTRL,MART,FM,HashMF,DSSM,DNN,LDA。
鯤鵬的架構
總體架構
?? 
圖3鯤鵬的架構
鯤鵬的架構如圖3所示,它建立在阿里巴巴集團內部的大規模分布式 Apasra 平臺上面,擁有Robust Failover、Backup Instance,以及 DGA for Scheduling &Synchronization等特性。圖3中的核心模塊包括以下幾部分:
Server nodes:對模型做分片存儲
Worker nodes:對訓練數據做分片并計算
Coordinator:控制算法整體流程,如初始化,迭代,終止等
ML Bridge:使用腳本形式的工作流對數據進行預處理
PS-Core:核心的參數服務器組件(servers/workers/coordinator)
Fuxi:監控所有機器運行狀態,必要時進行容錯
用戶視角
?? 
圖4鯤鵬架構用戶視角
鯤鵬系統的調用,對普通用戶而言也非常簡單。用戶只需要使用簡單的幾行腳本形式的命令,即可完成整個算法的調度。整個過程主要包括:
- 數據預處理,準備成算法接受格式
- 構建算法的輸入/出表
- 調用鯤鵬算法,ps_train -i demo_batch_input -o demo_batch_result -a xxAlgo -t
- xxTermination;
- 評估算法效果
- 進行A/B測試
從圖4中可以看出,整個流程對用戶而言都是透明的,使用過程也“如絲般順滑”,不用感知算法背后復雜的優化及調度過程。
開發者視角
?? 
圖5鯤鵬架構開發者視角
鯤鵬架構對普通的機器學習算法開發者而言也非常簡單。它將復雜的通信及調度過程包裝成了API。如,Worker.PullFrom(Server),開發者只需要這一行簡單的代碼即可把模型從server端pull到worker端。再如,SyncBarrier(),這開發者只需要這一行簡單的代碼即可完成server端模型的同步。
實驗結果
與Spark和MPI的比較
?? 
圖6鯤鵬與Spark和MPI訓練時間及內存消耗對比
圖6顯示了在七個不同數據集上(D1-D7),鯤鵬與Spark和MPI的邏輯回歸算法(LR)訓練時間及內存消耗對比。如D1(460K,20M)指該數據集包含了46萬特征,2000萬樣本。從中可以看出,Spark和MPI的LR在特征超大的情況下(D7)會出錯,而鯤鵬的LR則可順利訓練成功。
Kunpeng-MART與XGBoost比較
?? 
圖7 Kunpeng-MART與XGBoost內存消耗對比結果
圖7顯示了基于鯤鵬實現的MultipleAdditive Regression Trees(MART)與開源的XGBoost在四個不同數據集上的對比結果。從中可以看出,基于鯤鵬的MART內存使用情況要穩定的低于XGBoost。此外,我們在Ads CVR2數據上重復跑了10次XGBoost,但無一成功得到結果。圖8顯示了基于鯤鵬的MART和XGBoost在相同數據集上運行時間的對比,其中也可以看出基于鯤鵬的MART訓練時間要優于XGBoost。
?? 
圖8 Kunpeng-MART與XGBoost訓練時長對比結果
Worker數量對算法的影響實驗
?? 
圖9 Worker數量與算法加速及單Worker內存使用關系
圖9顯示了Worker數量與算法加速及單Worker內存使用的關系。在該實驗中,我們使用的是基于鯤鵬的稀疏LR算法,特征約有70億個,樣本約有180億個。從中可以看出,25個worker就能訓練這些數據。而且隨著worker的增多,算法訓練速度倍增,同時單機上的內存使用會倍降。
總結
本文所提出的分布式學習系統——鯤鵬,擁有強大的分布式計算能力和算法優化能力,同時也有用戶友好的界面和接口。在實際的在線或離線任務中,它能接受百億特征,千億樣本和萬億參數。同時,它在生產集群中,有著很好的健壯性、靈活性、擴展性及高效性。此外,它在阿里和螞蟻眾多實際場景中發揮出了巨大的優勢。例如,在2015年“雙11”中,鯤鵬系統上實現的“樓層”排序(LR算法)使得UV CTR提升了21%,GMV提升了10%。
再如,基于鯤鵬實現的GBDT+DNN算法應用在支付寶交易風險評估業務中,該算法上線以來,相同覆蓋度的情況下,案件召回率從 91% 增加到 98%,每天減少了幾千萬次用戶的打擾。此外,在鯤鵬上實現的Deep Structured Semantic Model(DSSM)模型,已經廣泛被應用于神馬搜索,淘寶搜索,1688廣告,螞蟻智能客服等業務中。
總體來說,鯤鵬系統上的10+個成熟算法已經被廣泛應用于120+個產品中,這些無一不是阿里生態體系內***規模的算法。
【本文為51CTO專欄作者“阿里巴巴官方技術”原創稿件,轉載請聯系原作者】
























