火山引擎工具技術分享：用 AI 完成數據挖掘，零門檻完成 SQL 撰寫

作者：Datawind團隊封聲 2022-11-24 09:19:53

人工智能大數據

專業算法團隊在做數據挖掘時，數據分析及可視化也會呈現相對割裂的現象。流程化完成算法建模和數據分析工作，也是一個提效的好辦法。

在使用 BI 工具的時候，經常遇到的問題是：“不會 SQL 怎么生產加工數據、不會算法可不可以做挖掘分析？”

而專業算法團隊在做數據挖掘時，數據分析及可視化也會呈現相對割裂的現象。流程化完成算法建模和數據分析工作，也是一個提效的好辦法。

同時，對于專業數倉團隊來說，相同主題的數據內容面臨“重復建設，使用和管理時相對分散”的問題——究竟有沒有辦法在一個任務里同時生產，同主題不同內容的數據集？生產的數據集可不可以作為輸入重新參與數據建設？

1. DataWind 可視化建模能力來了

由火山引擎推出的 BI 平臺 DataWind 智能數據洞察，推出了全新進階功能——可視化建模。

用戶可通過可視化拖、拉、連線操作，將復雜的數據加工建模過程簡化成清晰易懂的畫布流程，各類用戶按照所想即所得的思路完成數據生產加工，從而降低數據生產獲取的門檻。

畫布中支持同時構建多組畫布流程，一圖實現多數據建模任務的構建，提高數據建設的效率，降低任務管理成本；另外，畫布中集成封裝了超過 40 種數據清洗、特征工程算子，覆蓋初階到高階的數據生產能力，無需 Coding 完成復雜的數據能力。

2. 零門檻的 SQL 工具

數據的生產加工是獲取及分析數據的第一步。

對于非技術使用者來說，SQL 語法存在一定使用門檻，同時本地文件無法定時更新，導致看板每次都需要手動重做。獲取數據所需的技術人力往往需要排期，數據的獲取時效及滿足度大大打折，因此使用零代碼的數據建設工具變得尤為重要。

下方列舉兩個典型場景，零門檻完成數據處理在工作中是如何應用的。

2.1 【場景1】所想即所得，可視化完成數據處理過程

在產品運營迭代急需不同數據的及時輸入反饋時，可以抽象數據的處理過程，通過可視化建模拖拉算子構建數據處理過程。

如要獲取按照日期、城市粒度的訂單數及訂單金額，并獲取每日 Top10 消耗金額數據的城市數據，操作如下：

常規數據處理流程	可視化建模處理流程
請技術同學拉取訂單的明細數據，包含訂單 id/ 訂單金額/用戶 id/ 訂單日期城市等將數據通過透視圖的操作設置行為訂單日期、城市，指標為訂單金額求和、訂單 id 求和將透視結果按照金額排序，然后編寫序號用篩選器過濾 Top10 的數據	選擇數據源，選擇庫表或上傳 CSV 文件或連接 LarkSheet 篩選需要使用的字段信息，配置自己定義的字段名稱及格式選擇聚合算子，按照日期和城市聚合計算訂單量和訂單金額選擇 Top 值算子，取 Top10 金額數量輸出數據集，數據集可應用到風神中繪制圖表

2.2 【場景 2】多表快速結合，輕松解決多數據關聯計算

在數據處理過程中，有多個數據源需要進行組合使用，常規通過 Excel 需要掌握高階 Vlookup 等算法有些難度，且耗時長。同時數據量較大時，電腦性能可能沒辦法完成數據的組合計算。

如有兩份數據量比較大的訂單數據和一份客戶屬性信息表，需要根據賬單金額和成本金額計算利潤金額，然后按照利潤貢獻高低取 Top100 的用戶訂單信息

常規數據處理流程	可視化建模處理流程
需要將兩個訂單數據打開后，Copy 數據合并到一個文件中采用 VloopUp 查找訂單里用戶和客戶里用戶數據，然后將兩者數據組合生成新的數據采用透視表計算用戶賬單金額和成本金額，然后計算利潤金額按照利潤金額排序獲取 TopN 客戶信息	可以上傳 CSV 文件 /LaskSheet 構建數據輸入然后可以合并 3 月 /4 月訂單數據為一份數據連接客戶信息屬性表，綁定客戶屬性信息選擇聚合，按照客戶具體計算賬單金額和成本金額選擇計算列，根據賬單金額和成本金額計算利潤金額根據利潤金額排序獲取 TopN 客戶信息

3. AI 數據挖掘，不再高不可及

當基礎的數據清洗已經沒辦法滿足數據建設和數據分析，需要 AI 算法加持去挖掘數據更多隱藏的價值時。算法團隊同學可能苦于無法很好與可視化圖表聯動使用，沒辦法生產好的數據快速被應用；而普通用戶可能直接被 AI 代碼的高門檻直接壓滅了這個算法的苗頭——提需求又怕需求太淺、價值無法很好評估輸出，此時算法挖掘成為了一種奢望。

DataWind 的可視化建模封裝了超過 30 類常見的 AI 算子能力，用戶僅需了解算法的作用可以通過配置化的方式配置算法算子的輸入和訓練目標即可完成模型訓練，根據配置的其他數據內容快速得到預測結果。?