宜信鄭赟:大數(shù)據(jù)金融云的實(shí)踐分享
原創(chuàng)宜信積累了九年的數(shù)據(jù),有來自合作伙伴的,有用戶授權(quán)的,還有一些互聯(lián)網(wǎng)公開抓取的數(shù)據(jù)。所以希望用大數(shù)據(jù)技術(shù)來挖掘其中的數(shù)據(jù)潛力,尤其是互聯(lián)網(wǎng)金融的價(jià)值,為客戶提供更好的服務(wù)。
鄭赟,宜信技術(shù)總監(jiān),負(fù)責(zé)若干大數(shù)據(jù)驅(qū)動(dòng)的互聯(lián)網(wǎng)金融創(chuàng)新產(chǎn)品的研發(fā)工作。加入宜信之前,在美國(guó)在線視頻公司Hulu任研發(fā)經(jīng)理,負(fù)責(zé)視頻播放和網(wǎng)站主站的技術(shù)研發(fā)。并曾在Microsoft從事研發(fā)工作。鄭赟畢業(yè)于清華大學(xué)自動(dòng)化系,獲碩士學(xué)位。
LAIN平臺(tái)
鄭赟表示,做云平臺(tái)也好,做系統(tǒng)也好,臺(tái)子要穩(wěn)固,要有砥柱。這個(gè)砥柱一個(gè)是大數(shù)據(jù)基礎(chǔ)設(shè)施,第二個(gè)是基于Docker的LAIN平臺(tái)。不同業(yè)務(wù)之間的數(shù)據(jù)建模是不一樣的。但是比如說像開發(fā)環(huán)境,像測(cè)試,包括自動(dòng)化測(cè)試、常規(guī)的測(cè)試,包括發(fā)布,包括技術(shù)服務(wù),比如說像日志收集、監(jiān)控,包括像分布式架構(gòu),像操作系統(tǒng)、網(wǎng)絡(luò)、安全等等,這些其實(shí)都是通用的,所以我們把這些湊成一個(gè)平臺(tái),就是我們的云平臺(tái),就是我們常說的Pass系統(tǒng)。
Docker這兩年以來,特別是今年年初特別火的一項(xiàng)技術(shù),首先它是一個(gè)開源容器引擎,第二它其實(shí)為了進(jìn)一步解決虛擬化的問題那么有了這個(gè)Docker之后,我們可以把每一個(gè)模塊都做到Docker里面去,Docker之間是互相獨(dú)立的。然后通過這種微服務(wù)的方式,把他們串聯(lián)起來,這樣的話就非常靈活。它的性能也非常好,額外開銷幾乎是零。
最中心的是Docker,它外面有三個(gè)主要的技術(shù),就是所謂的三架馬車,首先是Docker Swarm,Docker Swarm是Docker官方提供的一個(gè)Docker容器管理調(diào)度的工具,因?yàn)樗枪俜教峁┑?,所以它有先天集成的?yōu)勢(shì)。然后是ETCD,ETCD是一個(gè)非常著名的,輕量級(jí)的分布一致性存儲(chǔ),我們主要用它來做一些配置存儲(chǔ),像服務(wù)的注冊(cè)和服務(wù)發(fā)現(xiàn)。crlico是某個(gè)通信公司開源的一套網(wǎng)絡(luò)的技術(shù),它本身是一個(gè)三層的SDN可以替代Docker之前傳統(tǒng)的那種通過界定式的方式或者端口移植的方式。
知識(shí)圖譜
什么是知識(shí)圖譜?相對(duì)于傳統(tǒng)的文檔或者是結(jié)構(gòu)化數(shù)據(jù)來說,它有一個(gè)特點(diǎn),它有實(shí)體。最早是google提出來的,用來做搜索優(yōu)化的,我們用它主要做風(fēng)控相關(guān)的數(shù)據(jù)建模。還有就是個(gè)性化問答,可以根據(jù)客戶的信息,甚至個(gè)性化的問題用這個(gè)來做反欺詐。
首先在web端,我們會(huì)通過我們分布式查詢?nèi)ヅ懦@些公開的數(shù)據(jù)以及用戶授權(quán)的一些數(shù)據(jù),然后把它分到HDFS里面去。然后又把我們業(yè)務(wù)數(shù)據(jù)通過Sqoop達(dá)到我們的HBase里去,所以我們進(jìn)行抽取,***結(jié)構(gòu)化形成這樣一個(gè)知識(shí)圖譜,然后這個(gè)知識(shí)圖譜里面,我們常用的查詢字段扔到ElasticSearch里面,然后提供給所有的前臺(tái)進(jìn)行使用,同時(shí)知識(shí)圖譜也可以做規(guī)則引擎和機(jī)器學(xué)習(xí)的數(shù)據(jù)源。
如何解決實(shí)時(shí)授信中的反欺詐問題
實(shí)時(shí)授信首先得解決反欺詐的問題。所以我們反欺詐會(huì)從三個(gè)方面去做。一個(gè)是他的身份,首先我們要確定你媽就是你媽,你就是你,所以會(huì)從他的平臺(tái)賬號(hào)是不是真實(shí)的,他的個(gè)人身份信息是否是真實(shí)的,然后通過一些個(gè)性化問答來確認(rèn)他信息的真實(shí)性。第二點(diǎn)我們就通過他的行為數(shù)據(jù)來看,比如說它的經(jīng)營(yíng)活動(dòng)是不是有一些造假痕跡,這個(gè)人在互聯(lián)網(wǎng)上是不是進(jìn)過一些中介論壇,他有沒有參與這種活動(dòng)。第三個(gè)方面就是他的關(guān)系層級(jí),比如說這個(gè)圖上的黑圈是那個(gè)黑名單,紅圈是有過逾期的客戶。然后通過各種各樣的數(shù)據(jù),***綜合的信用了評(píng)分,然后通過評(píng)分決定審批和風(fēng)險(xiǎn)評(píng)價(jià)。
數(shù)據(jù)驅(qū)動(dòng)的方法論
數(shù)據(jù)驅(qū)動(dòng)從方法論上來說,首先要有海量數(shù)據(jù),第二我得把數(shù)據(jù)進(jìn)行歸類,然后再對(duì)數(shù)據(jù)進(jìn)行分析,***用數(shù)據(jù)來驅(qū)動(dòng)我們這個(gè)產(chǎn)品決策。
對(duì)數(shù)據(jù)進(jìn)行大分類之后,然后對(duì)數(shù)據(jù)進(jìn)行進(jìn)一步的分析。一個(gè)是基于已有的數(shù)據(jù)解釋現(xiàn)象,就是我們知道為什么會(huì)是這樣子的。第二更重要的是我們更希望通過這個(gè),能用數(shù)據(jù)來指導(dǎo)優(yōu)化未來,這也是大家很多公司都想追求的目標(biāo)。
總結(jié)整個(gè)演講:首先我們整個(gè)金融云需要一個(gè)底層的支柱,就是我剛才所說的大數(shù)據(jù)的基礎(chǔ)設(shè)施和剛才說云平臺(tái),在它之上,我們通過像姨搜這樣的應(yīng)用快速搭建一些比較核心的模塊,比如說像反欺詐,像實(shí)時(shí)授信,***我們通過兩個(gè)端的產(chǎn)品,商貸和理財(cái)?shù)漠a(chǎn)品自己用這樣的平臺(tái)不斷地去優(yōu)化整個(gè)產(chǎn)品,以及優(yōu)化下面核心模塊,然后使得整個(gè)平臺(tái)形成一套完整的框架。在這個(gè)框架之上,我們希望給我們的用戶提供更好的服務(wù)。也正在跟合作伙伴進(jìn)行數(shù)據(jù)對(duì)接,提供一些服務(wù)化的場(chǎng)景。































