專訪淘寶明風:如何構建高性能的數據挖掘平臺?
原創【51CTO專稿】淘寶是一家擁有海量數據的公司,對于數據挖掘來說,海量數據本身具有噪聲、異構、算法復雜、技術復雜等問題,如何構建高性能的數據挖掘平臺,對于淘寶而言非常重要。近年來,淘寶在數據實時性和大規模計算及挖掘方面積累了很多實踐經驗,本文中,淘寶技術專家明風在51CTO記者采訪時,也分享了很多經驗和方法。
(左:明風 右:51CTO記者)
【嘉賓簡介】黃明,淘寶技術專家,花名:明風。2010年加入淘寶,一直從事Hadoop相關的的數據開發和挖掘工作,見證和支持了基于云梯的數據開發平臺的發展?,F任淘寶技術部數據挖掘與計算團隊的Leader,負責Spark計算平臺和淘寶數據推薦產品和業務。
淘寶的數據特點
對于淘寶的數據特點,明風認為主要有以下幾個方面:
一、大,淘寶每天的數據都是T級別的,怎樣對這些T級別的數據做很好的分析、采集、以及在做完數據清洗后,對于比較完整的行為數據進行挖掘,這是個需要解決的難題。因為數據量大的話,很多傳統算法很難直接應用,需要進行并行化的改進。并行化改進之后,數據會慢下來,如何在兩者之間達到一個平衡點是非常重要的。
二、復雜,淘寶上的主體是買家、賣家和店鋪,買家的行為是一個從收藏、搜索、購買、評論等,這些行為并不是按照一定的時間順序去發生的,而是混合在一起。這些數據行為代表了消費者的購物模式,怎樣從混亂的行為中找到消費者的購物模式,是一個很復雜的過程。
三、有趣,淘寶的數據很豐富,從用戶的復雜行為可以看見買家很多活生生的特點,以及中國消費者的消費行為的心里,我們做過最簡單的數據統計分析,能夠了解中國各省女生需要買什么,男生需要買什么,這些數據能很好的反應出中國消費的一個風向標,所以說淘寶的數據是非常有意思的。
構建高性能的數據挖掘平臺
隨著數據挖掘業務的發展,基于傳統的Hadoop下的MapReduce,速度和靈活度,已經不能滿足日益復雜的挖掘算法的需求,面臨多次迭代的機器學習算法,Mahout顯得力不從心。如何讓Hadoop這頭大象插上翅膀,飛馳起來,將大數據的價值發揮到淋漓盡致?明風談到:“基于Yarn模式的Spark,可以兩者兼顧。”這并不是說淘寶要Follow業界最新的技術,是因為淘寶有實際需求的。對于淘寶數據挖掘團隊而言,一個高性能的計算框架對于在上層做數據挖掘與推薦是非常重要的,另外,在Spark上可以實現很多比較復雜的機器學習算法,用MLBase機器學習算法對消費者的行為進行最準確的數據挖掘與分析,從而達到最好的推薦效果。
構建過程中需要注意的問題
無論是選擇Spark還是選擇其他框架,都有一些共性的東西。明風認為,“首先你需要明白搭建這個高性能系統的瓶頸在哪里,一個系統多快是取決于最慢的那一點,所以一定要把最慢的那一點提升到你需要的性能點,才能獲得高性能。這一點是特別值得注意的。Spark能夠在一個批量計算以及流式計算中,取得一個很好的平衡,把中間的一個點降到最低,這個是非常必要的。”
其次,明風談到:“淘寶在做Spark過程中,由于很多東西都是很新的,所以要保持和社區良好的互動交流,將我們的改動反饋到社區里,形成一個良性循環。在淘寶,無論是Hadoop、HBase還是Spark,我們都是這樣的工作模式,才能讓我們的平臺出在最佳的狀態。”
以上便是構建高性能數據挖掘平臺的重點內容,更多精彩看點,請您關注以下視頻獲悉:
























