火山引擎工具技術分享:用 AI 完成數據挖掘,零門檻完成 SQL 撰寫

在使用 BI 工具的時候,經常遇到的問題是:“不會 SQL 怎么生產加工數據、不會算法可不可以做挖掘分析?”
而專業算法團隊在做數據挖掘時,數據分析及可視化也會呈現相對割裂的現象。流程化完成算法建模和數據分析工作,也是一個提效的好辦法。
同時,對于專業數倉團隊來說,相同主題的數據內容面臨“重復建設,使用和管理時相對分散”的問題——究竟有沒有辦法在一個任務里同時生產,同主題不同內容的數據集?生產的數據集可不可以作為輸入重新參與數據建設?
1. DataWind 可視化建模能力來了
由火山引擎推出的 BI 平臺 DataWind 智能數據洞察,推出了全新進階功能——可視化建模。
用戶可通過可視化拖、拉、連線操作,將復雜的數據加工建模過程簡化成清晰易懂的畫布流程,各類用戶按照所想即所得的思路完成數據生產加工,從而降低數據生產獲取的門檻。
畫布中支持同時構建多組畫布流程,一圖實現多數據建模任務的構建,提高數據建設的效率,降低任務管理成本;另外,畫布中集成封裝了超過 40 種數據清洗、特征工程算子,覆蓋初階到高階的數據生產能力,無需 Coding 完成復雜的數據能力。
2. 零門檻的 SQL 工具
數據的生產加工是獲取及分析數據的第一步。
對于非技術使用者來說,SQL 語法存在一定使用門檻,同時本地文件無法定時更新,導致看板每次都需要手動重做。獲取數據所需的技術人力往往需要排期,數據的獲取時效及滿足度大大打折,因此使用零代碼的數據建設工具變得尤為重要。
下方列舉兩個典型場景,零門檻完成數據處理在工作中是如何應用的。
2.1 【場景1】所想即所得,可視化完成數據處理過程
在產品運營迭代急需不同數據的及時輸入反饋時,可以抽象數據的處理過程,通過可視化建模拖拉算子構建數據處理過程。
如要獲取按照日期、城市粒度的訂單數及訂單金額,并獲取每日 Top10 消耗金額數據的城市數據,操作如下:
常規數據處理流程 | 可視化建模處理流程 |
|
|

2.2 【場景 2】多表快速結合,輕松解決多數據關聯計算
在數據處理過程中,有多個數據源需要進行組合使用,常規通過 Excel 需要掌握高階 Vlookup 等算法有些難度,且耗時長。同時數據量較大時,電腦性能可能沒辦法完成數據的組合計算。
如有兩份數據量比較大的訂單數據和一份客戶屬性信息表,需要根據賬單金額和成本金額計算利潤金額,然后按照利潤貢獻高低取 Top100 的用戶訂單信息
常規數據處理流程 | 可視化建模處理流程 |
|
|

3. AI 數據挖掘,不再高不可及
當基礎的數據清洗已經沒辦法滿足數據建設和數據分析,需要 AI 算法加持去挖掘數據更多隱藏的價值時。算法團隊同學可能苦于無法很好與可視化圖表聯動使用,沒辦法生產好的數據快速被應用;而普通用戶可能直接被 AI 代碼的高門檻直接壓滅了這個算法的苗頭——提需求又怕需求太淺、價值無法很好評估輸出,此時算法挖掘成為了一種奢望。
DataWind 的可視化建模封裝了超過 30 類常見的 AI 算子能力,用戶僅需了解算法的作用可以通過配置化的方式配置算法算子的輸入和訓練目標即可完成模型訓練,根據配置的其他數據內容快速得到預測結果。?



下方將以兩個典型場景為例,看不寫 Python 如何完成數據挖掘。?
3.1 【初階】不會 Python 也可做數據挖掘
用戶日常工作基本不涉及寫 Python,但存在做數據挖掘的需求場景。他需要基于存量高意向客戶樣本做客戶意向度挖掘。此時可通過可視化建模構建數據挖掘流程:
- 拖入樣本數據和全部數據作為數據輸入。
- 拖入分類算法,如 XGB 算法用于模型訓練。
- 拖入預測算子,搭建模型與全部數據的關系進行預測。
- 實際數據和預測結果結合輸出數據集,從而分析全部用戶數據的意向分布。

3.2【高階】不寫 Python 也可構建復雜算法模型
用戶需要根據現有數據,構建一個用戶回購模型。在模型搭建中需要經過數據清洗、格式轉換之后采用梯度提升樹構建預測模型,此時可以根據可視化建模構建回購模型流程:

- 合并行:將 n 個算子(圖中的長方形)輸出數據表根據一致的表頭合并成一張總的數據表,用戶銷售數據沒有增刪新屬性時此處不用改動。
- 缺失值替換:屬性列存在空值(null)時,會影響后續模型計算,使用替換缺失值算子可以將空值替換為指定默認值,用戶銷售數據沒有增刪新屬性時此處不用改動。
- one-hot 編碼: 文本類型的屬性無法直接被模型訓練使用,需要 one_hot 編碼成數字向量例如:

- 梯度提升樹:負責擬合訓練數據,輸出一個可以用于預測的模型(圖中沒有標注的參數不需要維護人員修改):

- 聚合_1:去除預測數據中的重復項,取最大概率。
- 提取字段:提取必要的 label 和概率值輸出。

4. 多場景、多任務建設,管理不再分散
作為數據分析師,日常也會有很多構建數據集、搭建數據看板的工作。但通常從數倉獲取的底表會是一張寬表,在此基礎之上,根據不同的場景需求搭建不同的數據集任務。
在后續的使用時,常常會遇到類似的的數據集越來越多,但具體邏輯又無法很好的對比確認。此時,如果所有數據集邏輯在一個數據集里面配置生成,每個數據集通過任務流程就可以判斷和定義應用就好了。
針對這一場景,DataWind 的可視化建模能力也可以很好的完成。可視化建模功能支持單一數據集同時被多種邏輯處理加工生成多個數據集。以處理訂單數據和用戶數據為例:
- 有用戶想看訂單的統計數據,那么可以搭建訂單統計數據集的數據處理流程。
- 有用戶就想看明細數據,但是需要對明細字段進行加工清洗,這時可以構建訂單明細表數據集的處理流程。
- 有些用戶又想結合用戶屬性去統計用戶的訂單分布,那么構建多表關聯結合指標聚合生成完成用戶訂單統計數據集。
- 同樣邏輯可以生成多表關聯下的用戶訂單明細數據集。
由此,通過一個任務、兩個數據輸入完成了 4 個數據集的生成,4 個數據集可以構建一個數據主題域,后續相關數據使用均可從此任務輸出的數據集進行使用。

5. 關于我們
火山引擎智能數據洞察 DataWind 是一款支持大數據明細級別自助分析的增強型 ABI 平臺。從數據接入、數據整合,到查詢、分析,最終以數據門戶、數字大屏、管理駕駛艙的可視化形態呈現給業務用戶,讓數據發揮價值。
























