如何做好大數(shù)據(jù)分析?你需要這個(gè)思維框架
數(shù)據(jù)分析,拆開來看其實(shí)是幾個(gè)方面:工具、理論、業(yè)務(wù)
工具,指的是我們從事數(shù)據(jù)分析所使用的具體工具,如 SQL、Excel、Python、R、SAS等;
理論,指的是我們從事數(shù)據(jù)分析時(shí)所依賴的理論基礎(chǔ),如概率論、統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)及相關(guān)的建模和分析框架;
業(yè)務(wù),指的是數(shù)據(jù)分析落地的具體場(chǎng)景,輸入和輸出以及要解決的具體問題。
工具和理論都是比較容易速成的,這也是為什么各類網(wǎng)課主要集中在這些領(lǐng)域。
業(yè)務(wù)是依賴于在行業(yè)的經(jīng)驗(yàn),因此,轉(zhuǎn)行最好先在同行業(yè)里面轉(zhuǎn),可以借用之前對(duì)于行業(yè)的業(yè)務(wù)理解,快速上手。
以上三個(gè)方面固然重要,但并不是數(shù)據(jù)分析的全部。還需再加一個(gè)維度,就是思維模式。
也就是,我們除了數(shù)據(jù)分析的工具、理論以及業(yè)務(wù)知識(shí),還需要具備數(shù)據(jù)分析的思維。
那么什么叫做數(shù)據(jù)分析思維呢?
我認(rèn)為可以分為三個(gè)方面:
01 定量思維

迪斯尼通過草坪規(guī)劃道路的故事大家也許都聽過:
在迪斯尼樂園提前開放的半年里,草地被踩出許多小道,這些踩出的小道有寬有窄,優(yōu)雅自然。第二年,格羅培斯讓人按這些踩出的痕跡鋪設(shè)了人行道。1971年在倫敦國際園林建筑藝術(shù)研討會(huì)上,迪斯尼樂園的路徑設(shè)計(jì)被評(píng)為世界最佳設(shè)計(jì)。
后來,迪斯尼還推出了 MagicBand,這個(gè)手環(huán)可以在園內(nèi)支付,可作為酒店房卡,可以用來當(dāng) FastPass,可以用來停車等等,通過這些環(huán)節(jié)收集的數(shù)據(jù),就可以知道哪幾個(gè)項(xiàng)目最熱門,哪幾個(gè)項(xiàng)目不太熱門,什么位置餐廳人滿為患,說明還需要增加配置,什么地方餐廳無人問津,可能要做優(yōu)化……
等等,時(shí)間一長(zhǎng),積累的數(shù)據(jù)就有了各種價(jià)值,看起來無法測(cè)量的東西,通過巧妙的收集數(shù)據(jù),都可以測(cè)量。
這就是數(shù)據(jù)思維第一條,萬物皆可測(cè)。
02 相關(guān)思維

大數(shù)據(jù)時(shí)代,隨著算力的不斷加強(qiáng),原來小樣本的計(jì)算已經(jīng)可以升級(jí)為全樣本計(jì)算,并且可以發(fā)現(xiàn)變量間的相關(guān)關(guān)系,用來代替原來小樣本中推導(dǎo)出的因果關(guān)系。
最經(jīng)典的例子就是08年的 Google Flu:
Google流感趨勢(shì)(Google Flu Trends,GFT)是Google于2008年推出的一款預(yù)測(cè)流感的產(chǎn)品。Google認(rèn)為,某些搜索字詞有助于了解流感疫情。Google流感趨勢(shì)會(huì)根據(jù)匯總的Google搜索數(shù)據(jù),近乎實(shí)時(shí)地對(duì)全球當(dāng)前的流感疫情進(jìn)行估測(cè)
一個(gè)搜索行為,和一個(gè)疾病的發(fā)生,看似不相關(guān)的兩件事情,存在強(qiáng)相關(guān),這在原來是不可想象的。
不過,盡信數(shù)據(jù)不如無數(shù)據(jù),一定要找到業(yè)務(wù)含義。
就拿 Google Flu 來說,在研究成果公布以后,研究人員發(fā)現(xiàn)結(jié)果不再準(zhǔn)確了。經(jīng)過反復(fù)確認(rèn)和調(diào)研,發(fā)現(xiàn)因?yàn)楹芏嗳说弥诉@項(xiàng)成果,抱著好奇的心態(tài)嘗試搜索關(guān)鍵字——盡管他們周圍并未出現(xiàn)相關(guān)病例,導(dǎo)致預(yù)測(cè)結(jié)果不再準(zhǔn)確。
當(dāng)你觀測(cè)的對(duì)象知道你在觀測(cè)他的時(shí)候,觀測(cè)結(jié)果就不再準(zhǔn)確了。
03 實(shí)驗(yàn)思維

告別拍腦袋決策,告別依賴個(gè)人審美決策,告別依賴個(gè)人經(jīng)驗(yàn)決策,通過實(shí)際的數(shù)據(jù)表現(xiàn)來決策。同時(shí),根據(jù)實(shí)驗(yàn)結(jié)果不斷的迭代和優(yōu)化模型。
當(dāng)然,實(shí)驗(yàn)的前提是測(cè)量,必須先將所有實(shí)驗(yàn)的數(shù)據(jù)采集下來,才能根據(jù)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行決策,同時(shí),根據(jù)數(shù)據(jù)分析的結(jié)果,可能某些人群針對(duì)某個(gè)方案更加有效,這又會(huì)用到相關(guān)思維,即某些要素的相關(guān)性決定了最后的數(shù)據(jù)表現(xiàn)。
通過以上三個(gè)思維模式,我們可以將實(shí)際中的業(yè)務(wù)問題進(jìn)行拆解,轉(zhuǎn)化為數(shù)據(jù)分析問題。
這么說可能還是比較抽象,具體來看看如何應(yīng)用。
在廣告營銷領(lǐng)域,有一個(gè)著名的說法

這是相當(dāng)長(zhǎng)的一段時(shí)間,廣告營銷行業(yè)最大的痛點(diǎn),蒙著眼睛放廣告,來了客戶也不知道是廣告帶來的,還是自己找上門來的,或者其他渠道推薦來的。
那么,用上數(shù)據(jù)分析思維的廣告營銷,會(huì)變成什么樣子呢?
運(yùn)用定量思維,那就是營銷效果要可以度量。一個(gè)廣告投出去,我需要知道到底帶來了多少轉(zhuǎn)化,每個(gè)渠道的轉(zhuǎn)化率怎樣,以及這些客戶的后續(xù)活躍程度如何,是不是假量?是不是羊毛黨?是不是僵尸戶?等等。
那么如何度量呢?我們自然可以想到,要檢測(cè)轉(zhuǎn)化率,那就要對(duì)每個(gè)渠道進(jìn)來的客戶打標(biāo)簽,定期出報(bào)表,監(jiān)控每個(gè)標(biāo)簽下客戶的活躍情況等等,自然的就形成了客戶分群經(jīng)營,分群營銷,分群活動(dòng)投放等等策略。
運(yùn)用相關(guān)思維,那就是通過相關(guān)性分析,使得廣告的投放更加精準(zhǔn)。減少無效的廣告投放,在更相關(guān)的人群上投放他們感興趣的廣告,提升轉(zhuǎn)化率,節(jié)省營銷費(fèi)用。
那么如何進(jìn)行相關(guān)性分析呢?通過前期采集的數(shù)據(jù),使用 Apriori 、Collaborative Filtering 等算法,找出用戶特征、用戶行為及其最終購買之前的相關(guān)關(guān)系,從而優(yōu)化投放及推薦模型。
運(yùn)用實(shí)驗(yàn)思維,那就是通過實(shí)驗(yàn),判斷哪個(gè)投放模型更優(yōu),哪個(gè)投放渠道更優(yōu),同時(shí)根據(jù)反饋不斷迭代和優(yōu)化模型。
那么如何進(jìn)行實(shí)驗(yàn)?zāi)兀孔匀皇峭ㄟ^ A/B Test 方法,隨機(jī)均分流量到不同的投放模型上,同時(shí)采集客戶的反饋,不斷的根據(jù)反饋迭代和優(yōu)化模型。

總的來說,做好數(shù)據(jù)分析,除了掌握工具、理論和業(yè)務(wù),還需要具備數(shù)據(jù)分析的思維,有了數(shù)據(jù)分析的思維框架,更容易將業(yè)務(wù)、理論和工具貫通,形成自己的數(shù)據(jù)分析框架,更好、更有效的進(jìn)行數(shù)據(jù)分析工作。


























