新浪微博胡南煒:深度學(xué)習(xí)在微博信息流推薦中的實踐
原創(chuàng)【51CTO.com原創(chuàng)稿件】2017年12月01日-02日,由51CTO主辦的WOTD全球軟件開發(fā)技術(shù)峰會將在深圳中州萬豪酒店隆重舉行。本次峰會以軟件開發(fā)為主題,數(shù)十位專家級嘉賓將帶來多場精彩的技術(shù)內(nèi)容分享。屆時,新浪微博 機器學(xué)習(xí)資深架構(gòu)師胡南煒將在深度學(xué)習(xí)與智能應(yīng)用開發(fā)分會場與來賓分享"深度學(xué)習(xí)在微博信息流推薦系統(tǒng)的實踐與應(yīng)用"主題演講,為大家詳細闡述新浪微博團隊在微博信息流推薦系統(tǒng)中是如何應(yīng)用深度學(xué)習(xí)的。51CTO誠邀您蒞臨大會,與我們共享技術(shù)帶來的喜悅。
51CTO記者對即將參加大會演講的胡南煒老師進行了專訪,讓我們先睹為快,探聽一下他是如何解讀深度學(xué)習(xí)的。
復(fù)雜的場景需要深度學(xué)習(xí)技術(shù)
移動時代人們對信息內(nèi)容的獲取和閱讀已經(jīng)發(fā)生了巨大變化。信息流推薦是社會化推薦領(lǐng)域一個相對比較新穎的話題。人工智能技術(shù)正在改變?nèi)伺c信息的連接方式,也大大提高了內(nèi)容創(chuàng)作、審核、分發(fā)、消費、互動的效率和質(zhì)量。
微博本身的信息流推薦從自身特點來說,傳統(tǒng)的機器學(xué)習(xí)已經(jīng)不能滿足海量用戶,復(fù)雜場景以及更加強烈的個性化消費需求。因此,新浪微博團隊的注意力也逐漸從傳統(tǒng)機器學(xué)習(xí)轉(zhuǎn)到深度學(xué)習(xí)領(lǐng)域。在深度學(xué)習(xí)比較擅長的圖像、視頻和語音等領(lǐng)域,新浪微博已經(jīng)有成型的產(chǎn)品或者已經(jīng)在默默地在為廣大微博用戶提供優(yōu)質(zhì)服務(wù)。同時,在深度學(xué)習(xí)應(yīng)用相對較少的領(lǐng)域,新浪微博也投入很大的研發(fā)精力,深挖高維度微博產(chǎn)品特征,相應(yīng)的推薦產(chǎn)品相信已經(jīng)應(yīng)用到微博用戶的日常生活中了。
目前,基于深度學(xué)習(xí)的微博信息流推薦系統(tǒng)主要用于推薦,例如主Feed推薦、熱門微博推薦、Push推薦等。其特點有:
1. 大樣本量,單次訓(xùn)練樣本量可以達到5000億以上規(guī)模。
2. 大特征維度特征維度,可以達到10億維度以上。
3. 特征類別復(fù)雜,有微博特征、用戶特征、關(guān)系特征、轉(zhuǎn)評贊特征、互動特征、曝光特征、圖片特征、視頻特征等等。
深度學(xué)習(xí)的本質(zhì)就是學(xué)習(xí)特征。深度學(xué)習(xí)通過逐層學(xué)習(xí),自動從原始數(shù)據(jù)中學(xué)習(xí)到一些不易變化的潛在的高層特征,然后基于這些高層特征,進行分類等學(xué)習(xí)任務(wù)。傳統(tǒng)機器學(xué)習(xí)需要大量的特征工程工作,有時候機器學(xué)習(xí)的效果跟抽取的特征好壞密切相關(guān),很多時候由于一些潛在的特征很難抽取,導(dǎo)致學(xué)習(xí)效果不佳。
寬度和深度模型
CNN就是一個例子,如下圖所示,它通過卷積和池化,可以從原生像素中抽取某類圖像通用的高層特征(比如鳥喙、翅膀、鳥爪等),然后根據(jù)這些特征去識別一張圖像是不是一只鳥。總之,深度學(xué)習(xí)通過特征學(xué)習(xí),使學(xué)習(xí)更容易達到較好的效果。
雖然理論上淺層的神經(jīng)網(wǎng)絡(luò)也可以模擬任何復(fù)雜的函數(shù),但是對于很多復(fù)雜的問題,深度學(xué)習(xí)的效率更高,深度學(xué)習(xí)可以以更少的參數(shù)表示更復(fù)雜的函數(shù)。
易于業(yè)務(wù)快速訓(xùn)練和迭代的CTR訓(xùn)練套件
新浪微博團隊參考Wide & Deep Learning模型,并結(jié)合微博場景下相關(guān)推薦業(yè)務(wù)的需求與特點,將連續(xù)、離散、文本和標簽等特征的處理,以及網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)、模型導(dǎo)出和預(yù)測進行標準化,開發(fā)了易于業(yè)務(wù)快速訓(xùn)練和迭代的深度學(xué)習(xí)CTR訓(xùn)練套件。
此套件有以下三大特點:
1.配置化:不用寫程序,只需寫xml配置文件即可進行模型訓(xùn)練。
2.集成化:主要體現(xiàn)在數(shù)據(jù)端、運行環(huán)境和在線預(yù)測三方面的集成。
數(shù)據(jù)端集成為微博特有特征(如標簽)訂制各種網(wǎng)絡(luò)結(jié)構(gòu)。運行環(huán)境集成的目的是與微博內(nèi)部的多個訓(xùn)練集群打通,隱藏各調(diào)度系統(tǒng)的差異性。在線預(yù)測集成則是和在線預(yù)測系統(tǒng)和模型存儲系統(tǒng)打通,無縫對接離線訓(xùn)練和在線預(yù)測。
3.可視化:利用tensor board特性,訂制微博特有數(shù)據(jù)的可視化功能。
通過應(yīng)用深度學(xué)習(xí),新浪微博信息流推薦系統(tǒng)的特征維度達到億級+維度以上,樣本規(guī)模達到數(shù)千億以上規(guī)模。已經(jīng)在離線訓(xùn)練和評估中采用了深度學(xué)習(xí)模型,實現(xiàn)了分布式和大規(guī)模的深度學(xué)習(xí)模型訓(xùn)練。現(xiàn)在正在評估小流量在線測試的效果并打算大規(guī)模的應(yīng)用。
【講師簡介】
胡南煒,資深架構(gòu)師,微博機器學(xué)習(xí)計算和服務(wù)平臺負責(zé)人。博士畢業(yè)于北京航空航天大學(xué)計算機科學(xué)和工程系,多年軟件工程研發(fā)和互聯(lián)網(wǎng)從業(yè)經(jīng)驗,個人技術(shù)專長為大數(shù)據(jù),云計算技術(shù)和機器學(xué)習(xí)。2014年加入微博,負責(zé)微博機器學(xué)習(xí)計算和服務(wù)平臺開發(fā)。在此之前,曾經(jīng)在IBM,Yahoo等公司工作。
使用雙十一特別優(yōu)惠碼[B310BD20D337F914] 立減200元,和我一起去WOTD全球軟件開發(fā)技術(shù)峰會!詳情點擊wot.51cto.com
【51CTO原創(chuàng)稿件,合作站點轉(zhuǎn)載請注明原文作者和出處為51CTO.com】

























