Python數據建模指南:從數據到模型要怎么做,煉丹師的心路歷程
本文將會按照以下四個部分來講述如何從業務數據中分析數據,建立模型,希望對大家有所幫助!
- 數據從哪來
- 如何分析數據
- 機器學習算法簡介
- 預測效果評估
Part1: 數據從哪來
你眼中的大數據分析和實際的大數據分析實際上是非常不一樣的

你眼中的大數據分析和實際的大數據分析
一般來說,實際業務的數據都是無法直接拿來進行數據建模的,我們需要進行一系列的分析和轉化,才能夠得到建模所需要的數據.
數據分析項目中數據分準備工作需要花費整個項目60%~70%的時間,而建模可能恰恰是數據分析項目中最(相對)輕松的事情
試想一下,如果你的leader讓你去分析某一個業務數據,對你而言你僅僅只是知道這部分數據叫什么名字,你會怎么做?會有哪些問題? 數據安全,權限,部門溝通,業務理解,每一個環節都是一個"坑"!
常見的數據準備的工作:
- 理清業務邏輯: 理清業務表的字段含義,關聯邏輯, 跨部門,跨職級,理解的差異
- 設定訓練目標: 了解業務目標,根據實際數據確定模型訓練的目標
- 數據樣本評估: 極端值,,數據分布,方差,信息熵
- 特征工程: 用數據去表達數據,建立建模所需的大寬表
- 建模: 建模是最輕松的事情?
Part2: 如何分析數據
從傳統的統計學角度,我們可以對數據進行一系列的探索

Part3: 機器學習算法簡介
在進行建模之前我們需要搞懂一個最最簡單,也是最最基礎的問題,什么是預測: 用數據和統計科學做預測,不僅做量化推斷,還量化推斷的確定性/不確定性

除此之外,為了能夠更好地理解模型,我們還需要知道一些建模的術語比如: 損失函數,梯度下降等

sklearn的官方文檔,為算法選擇提供了一個很好的路線路圖

Part4: 預測效果評估
很多時候,準確率并不能滿足我們對模型預測性的評估,因為樣本存在不平衡,所以我們需要其他的評估方法,比如ROC,AUC,KS




























