鏈家馮揚:數據與機器學習在房產行業中大放異彩
原創【51CTO.com原創稿件】2017年12月01日-02日,由51CTO主辦的WOTD全球軟件開發技術峰會將在深圳中州萬豪酒店隆重舉行。本次峰會以軟件開發為主題,數十位專家級嘉賓將帶來多場精彩的技術內容分享。屆時,鏈家高級技術總監馮揚先生將在深度學習與智能應用開發分會場與來賓分享"基于數據和機器學習的經紀人評估與管理"主題演講,為大家詳細闡述如何借助機器學習算法的力量,構建房產經紀人的評估體系、經紀人等級狀態模型、行為模型等內容。51CTO誠邀您蒞臨大會,與我們共享技術帶來的喜悅。
51CTO記者對即將參加大會演講的馮揚老師進行了專訪,讓我們先睹為快,探聽一下他是如何看待深度學習與智能應用在經紀人評估與管理中的應用的。
房產行業的屬性呼喚更高效率的人員管理方式
對于房產行業而言,經紀人是一家企業的核心“資產”,經紀人的質量高低影響直接到服務水平和公司業績,對于經紀人的管理效率就成了其核心競爭力。傳統的多層級人工管理方式無論是在客觀性、全面性上都存在效率問題。而鏈家的經紀人已經達到15萬左右,分布在32個城市,涵蓋了二手房、新房、租賃、旅居……等業務,并且隨著業務的擴大在不斷的增長中。因此對于經紀人管理的水平和效率有了極高的要求。
構建基于數據和機器學習的經紀人管理系統,其出發點是通過利用大數據和算法的能力,輔助管理者進行判斷和決策,提升對房產經紀人的管理水平和效率。它是一個輔助系統,并不直接參與管理的執行,而是輸出分析結果輔助管理者進行管理。
經紀人評估與管理系統基本結構如下圖所示,由下到上依次是數據采集、離線分析、預測計算、結果應用。
數據采集的目的是盡可能全面地收集關于經紀人的所有數據,包括基本信息、職級、業績、作業行為等等,通過整理加工成為描述經紀人的特征數據;離線分析主要是對經紀人特征數據進行分析,描述經紀人個體畫像、群體特征,以及找到不同經紀人群體之間的典型差異,并通過引入人工管理經驗對不同群體進行標注;預測計算則是針對不同判定和預測任務,利用機器學習方法構建模型,并針對每個經紀人個體進行預測;預測的結果輸出到相應的管理系統,作為這些管理系統的輸入,輔助對經紀人進行能力培養、違規行為核驗和處理、人事管理、技能培訓等等。
三大方面彰顯基于數據和機器學習的經紀人評估與管理系統的優勢
相比于傳統的多層級人工管理方式,基于數據和機器學習的經紀人評估與管理系統的優勢主要體現在三大方面:
1. 對于經紀人的刻畫更加全面和客觀
多層級人工管理的方式受管理者水平、情感、心理狀態等因素影響較大。不同層級上的管理者水平不一,在標準執行和狀態判定上存在比較大的差異。同一個管理者在不同的情感和不同時間上的心理狀態也會影響到判斷和決策。
而上述劣勢正好是數據和算法能夠彌補的,數據和算法對經紀人刻畫的標準和能力來自于客觀數據,不受情感、時間、狀態的影響,機器學習算法能夠對數據進行全面的搜集和分析。
2. 從數據出發,能及時發現潛在因素
多層級人工管理最容易受高層級管理者經驗的限制,忽略掉一些潛在的因素,尤其面對新問題的時候更加突出。以反作弊為例,當房源信息發布的方式改變,更利于經紀人查詢的時候,哪些線上的行為特征反映了經紀人正在進行房源泄露的違規操作,人工管理就需要相當長的時間來進行調研和總結,而往往在這種博弈過程中,管理者通過人工掌握信息的速度趕不上行為特征的變化。數據和機器學習的方法則可以從數據出發,及時發現潛在的異常因素,為經紀人的行為管理多了一重保障。
3. 大大提高數據處理效率
機器學習的另一個優勢在于對數據的處理效率。經紀人的日常工作行為會帶來很多數據的產出,這種數據生產量隨著業務的擴大和人員的增加呈現非線性增長,而管理者的培養成本決定了需要提升管理效率來應對這種情況。結合數據和機器學習的方式,能節省大量的人力成本,將重復性的、規律總結性的、有明確判別標準的工作交給機器來完成,輔助管理者提升管理效率。
基于數據和機器學習的經紀人評估與管理系統的實現
從經紀人管理的角度來講,數據和機器學習的方法主要解決兩個關鍵問題: 一是對經紀人進行刻畫,從群體上建立經紀人模型。二是對經紀人進行預測,在一定的約束條件下對經紀人潛在能力、成長路徑、合規風險進行預測。前者是一個后驗問題,相當于從各個方面對經紀人進行“量化”的特征表達,數據是其量化的依據,通過數據挖掘的方法來挖掘其中的最大模式和最顯著特征。后者是一個先驗問題,是在經紀人特征基礎上針對相應的任務,利用機器學習方法訓練預測、判別模型,對新的樣本或未發生的事情進行預測。其中,數據是基礎,機器學習是數據加工和目標實現的方法。
基于數據和機器學習的經紀人評估與管理系統的基本原理如下圖所示:
對經紀人的刻畫包括了靜態的屬性特征、狀態特征、動態行為特征等,這些特征都來自于人事、財務、合同、交易、Link作業端等一系列的業務數據,對業務數據的提取和加工使得我們能夠結構化地去描述每一個經紀人,形成經紀人的特征數據。特征數據的構建是利用機器學習輔助經紀人管理的基礎。
針對經紀人個體數據構成的特征數據集,一方面利用無監督學習的方法對個體集合進行群體劃分,采用統計學的方式進行差異性分析,結合人力管理的經驗,構建具有顯著特征的經紀人能力模型,形成群體畫像和能力映射。
另一方面,利用有監督學習的方式,從狀態判定(判定經紀人個體當前狀態所屬等級,并評估是否優于、符合或劣于其實際等級)、經紀人成長路徑規劃(預測更適合經紀人個體發展的下一步目標,以及達到這些目標需要在哪些方面提升能力)、經紀人風險預測(離職、違規等風險預測)等方面來輔助管理者決策和進行對經紀人的管理。
在應用中發現問題、解決問題
經紀人能力模型構建、經紀人離職風險預測、違規判定及風險預測是基于數據和機器學習的經紀人評估與管理系統當前的主要應用場景。其中,經紀人能力模型構建包含經紀人的服務能力、專業技能、成長潛力、創新能力、團隊貢獻能力等五方面能能力模型,覆蓋了10萬經紀人和20多個城市。經紀人離職風險預測判定的有離職風險的經紀人中有一半以上會在一個月內離職(準確率>50%),有五分之一的經紀人離職前能及時地被發現其存在離職風險(召回率>20%)。違規判定及風險預測使經紀人假錄入房源行為判別(模型判別+線下核驗)的效率比人工策略(策略規則判別+線下核驗)提升了4倍,每個月可以自動發現上百起房源泄露事件(事后,模型判別+人工驗證),目前正在進行事前風險預警的研發。
在應用過程中,最常見的問題有兩個:結果的可解釋性和實際效果驗證。
1. 系統輸出的結果適用于輔助人力資源對經紀人進行管理,尤其在違規判定等問題上需要解釋結果產生的原因,而機器學習本身是一個關聯性計算,其結果的可解釋性隨著算法模型的復雜程度的提升而降低。當前情況下,鏈家采用的是數據鏈路回溯的方式,對于存在高風險的結果,反過來追溯計算中的數據鏈路,引入人工的方式對鏈路中可疑的點進行排查和判定。
2. 對于效果驗證,離線狀態下很容易能夠針對測試集去驗證模型效果,其結果用于輔助經紀人管理。當管理者根據預測結果介入干預后,實際的結果將可能受到影響(例如存在離職風險的經紀人因為管理者介入后放棄了離職的想法)。當前,鏈家采用的應對方式是:在正式上線前不引入管理者的干預,評估效果,正式上線后則在大時間尺度上比較其它的相關指標的變化(比如在月的時間尺度上對離職率進行同比、環比)以及在不同城市和區域間進行對比。
基于數據和機器學習的方法雖好,但也需生長的沃土
馮揚老師介紹說,基于數據和機器學習的方法的使用條件主要有兩個:一是該行業的數據建設的程度,二是該行業各業務環節上的規范性程度。歸根結底都是對數據的要求,前者是對數據量的要求,需要數據達到一定的規模和對業務的覆蓋程度;后者是對數據質的要求,是為了能夠有效進行特征量化。
鏈家之所以可以運用數據和機器學習的方法,一方面是經過多年的信息化,將絕大部分線下的操作、行為、數據線上化了,利用線上信息系統采集和管理經紀人的基本信息、行為數據、業績狀態、作業過程……,相對全面地收集了關于經紀人的一切數據;另一方面房產領域經過多年的發展和改造,在其中的各個環節形成了相應的行業規范和基本的評價標準。
擁抱互聯網,開啟信息化進程
最后,馮揚老師對鏈家的信息化進程進行了簡單介紹。鏈家從2010年開始進行信息化和標準化,在初期主要是通過與第三方公司的戰略合作來對房產交易進行規范化改造,將線下信息進行采集并進行數字化管理。2014年鏈家網正式成立,通過互聯網的方式將經紀人的作業過程、房源客源管理、信息服務等全面線上化,打通了線上信息觸達、線下經紀人服務、各業務環節數據采集回收的完整回路。
從2015年底開始,鏈家加速房產大數據進程,首先從房源信息入手,結合線上錄入、采集、核驗、發布等手段,建立100%真房源庫,并逐漸將分散在各個業務系統中的數據進行采集、重新組織、管理、構建“房(房屋)-客(客戶)-人(經紀人)”為核心的大數據網絡。提升信息在該網絡中的流轉效率。
目前,“鏈家網-數據策略部”涵蓋了大數據、搜索平臺、NLP、策略算法等團隊,負責鏈家房產大數據建設,同時結合數據挖掘、機器學習等手段,以數據產品、策略產品、數據及能力輸出的方式服務于房產交易中的買方、賣方以及經紀人,同時依托該大數據體系促進房產交易行業的規范化進程。
【講師簡介】
馮揚,北京理工大學信息工程博士,鏈家網數據策略部高級總監。曾就職于新浪微博、騰訊、搜狗等互聯網公司任推薦技術專家,從事推薦算法研究及推薦系統的研發工作。研究領域為數據挖掘、機器學習、推薦系統等,主持并實施了社交媒體數據挖掘,社交網絡用戶關系模型構建,微博推薦體系和系統搭建,微博視頻語義分析系統等。2017年加入鏈家網,負責鏈家網數據挖掘、大數據產品、策略算法等方面工作。
使用優惠碼[2017WOTDSZ],和我一起去WOTD全球軟件開發技術峰會。8折優惠,僅限72小時!詳情點擊www.wot.51cto.com
【51CTO原創稿件,合作站點轉載請注明原文作者和出處為51CTO.com】

























