精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

字節跳動基于 Hudi 的機器學習應用場景

人工智能
本文為 Apache Hudi 技術社區分享會第十期嘉賓分享文章,主要介紹火山引擎 LAS 團隊自研的多場景樣本離線存儲技術,用于處理機器學習系統的離線數據流。

為大家揭秘流批一體樣本生成的過程,分享對 Hudi 內核所做出的優化和改造,探索其在數據處理領域的實際應用和效果。

本篇文章提綱如下:

  • 業務場景
  • 離線樣本存儲與迭代
  • 流批一體的樣本生成
  • 功能與優化

1. 業務場景

為了讓大家更容易理解接下來要講的基于數據湖的樣本存儲和樣本生成問題,文章先給大家簡單介紹一些相關的基礎概念。首先是機器學習系統的離線數據流架構,機器學習系統和其他線上服務系統類似,其中和樣本有關的角色也比較集中。如下圖所示,整個離線數據流架構分為流式和批式兩種類型,其中的樣本數據由兩部分構成,分別是特征和標簽。

圖片

在流式架構中,特征由在線預估服務在 serving 時 dump 對應的快照并發送到消息隊列中。標簽則來自實時行為采集服務,通過日志上報等方法采集得到。在線樣本生成服務消費兩個數據流,通過關聯得到完整的樣本,并發送到下游的流式訓練服務中進行模型訓練,完成樣本數據的消費。

批式架構是流式架構的補充,批式架構在訂閱流式數據的同時,還會加入批式的特征或者批式生成的標簽。比如風控反作弊或者廣告類的業務,會有批式生產的數據,并使用批式的樣本生成模塊生成樣本,進而被模型訓練組件消費。

流式和批式數據流架構中,還有元數據服務,元數據服務記錄了特征的相關元數據,流式批式數據流都會訪問元數據服務獲取 meta 信息。因此,我們對于批式的特征存儲有若干種特定的訪問 pattern。

讀方面有以下讀數據 pattern:大范圍的按天批式讀取,關注吞吐指標;秒級的點查;高效的謂詞下推查詢能力;存在基于主鍵/外建的 join。

在寫方面需支持以下能力:基于主鍵的 upsert;針對部分 cell 的插入與更新;針對行/列/cell 的刪除;基于外鍵的 upsert。

在這樣的背景下,我們了解 Hudi 在機器學習離線數據流中的若干應用場景。

2.離線樣本存儲與迭代

我們希望設計的樣本離線存儲方案能夠適用于多種場景,主要包含以下三類情況。

第一,模型的重新訓練,回放流式訓練的過程,迭代/糾偏模型等等。

第二,樣本的數據迭代,增加修改或者刪除對應的特征/標簽,并重新訓練模型。

第三,樣本的 OLAP 查詢,用于日常 debug 等。

為了能夠支持以上的場景的樣本存儲與迭代,我們提出的存儲方案整體架構設計如下。在邏輯建模上,構建樣本存儲和構建特定 pattern 的 Hive 表非常類似,樣本包含主鍵、分區鍵、內部元數據列等功能性 column,然后包含若干特征列和若干標簽列。在物理架構上,通過流式和批式生產/采集的特征數據和標簽數據通過多個作業混合 upsert 的方式寫入 Hudi,更新位于 KV 存儲的索引信息,并將實際的數據寫入 HDFS 中。由于 Hudi 基于主鍵/外鍵 upsert 的特性,數據會被自然地拼接在一起,形成完整的包含特征和標簽的樣本數據,供消費使用。

圖片圖片

在對離線特征進行調研時,我們需要面臨以下挑戰:基于 HDFS 這種不可變的文件存儲,如何實現低成本低讀寫放大的數據修改。在沒有使用數據湖之前,用戶做離線特征調研之前需要復制樣本,修改并另存一份。其中消耗了巨大的計算和存儲資源,伴隨樣本量的增大,這樣的方案將消耗數個 EB 的存儲,使得迭代變得不可能。

我們基于 Hudi 實現了 ColumnFamily 的能力。這個方案受到了經典 BigTable 存儲 Apache HBase 的啟發,將 IO pattern 不同的數據使用不同的文件進行存儲,以減少不必要的讀寫放大。原理是將同一個 FileGroup 的不同列數據存儲在不同的文件中,在讀時進行合并。這種方法會將新增列的數據單獨進行文件存儲,發生修改或者新增成本很低。

圖片

我們通過為調研特征列賦予單獨的 CF 的方式來減少讀寫放大,其他列復用線上的特征所在的 CF。這樣資源的使用量只會和新增特征相關。這種方式極大得減少了迭代所需的存儲使用,并且不會引入任何 shuffle 操作。

圖片

上文介紹了離線樣本的存儲與迭代方案,接下來我們進一步為大家介紹在線樣本生成時的流批一體生成方案,討論其如何降低在線存儲的使用成本。

3. 流批一體的樣本生成

在線樣本生成服務中,我們使用 KV 或者 BigTable 類存儲來滿足樣本拼接的需求,比如 RocksDB 等。這類存儲點查性能好,延遲低,但是存儲成本也較高。如果在數據有明顯的冷熱分層的情況下,這類存儲本身并不能很好的滿足這樣的存儲需求。Hudi 是一個具有 KV 語義的離線存儲,存儲成本較低,我們將冷數據存在 Hudi 上的方式來降低在線存儲的使用成本,并通過統一的讀寫接口來屏蔽差異。這一架構也受到了目前市面的多種 HSAP 系統的啟發。

圖片

為了能夠讓 Hudi 支持更好的點查,我們復用了寫時的 HBase 索引。點查請求會先訪問 HBase 索引找到數據所在文件,然后根據文件進行點查。整體端到端的延遲可以做到秒級。適合存儲數據量大,qps 較低的場景。

圖片

4. 功能與優化

在使用 Hudi 滿足諸多業務需求的過程中,我們也對其內核做了一些改造,以更好得服務我們的業務場景。

4.1 Local Sort

我們支持了單文件內的主鍵排序。排序是較為常見的查詢性能優化手段。通過對主鍵的排序,享受以下收益

  • CF 在讀時,多 CF 合并使用 Sort Merge 的方式,內存使用更低。
  • Compaction 時支持 Sort Merge。不會觸發 spill,內存使用低。我們之前使用 SSD 隊列來做 Compaction 以保證性能,現在可以使用一些廉價的資源(比如無盤的潮汐資源)來進行 Compaction。
  • 在流批一體的樣本生成中,由于主鍵是排好序的,我們點查時基于主鍵的謂詞下推效果非常好。提升了點查性能。

4.2 Bulkload 并發寫

并發寫一直是 Hudi 的比較大的挑戰。我們的業務場景中會發生行級別/列級別的寫沖突,這種沖突無法通過樂觀鎖來避免?;跈C器學習對于數據沖突的解決需求,我們之前就支持了 MVCC 的沖突解決方式。更進一步得,為了能夠讓 Hudi 支持并發讀寫,我們參考 HBase 支持了 Bulkload 的功能來解決并發寫需求。所有寫數據都會寫成功,并由數據內部的 mvcc 來決定數據沖突。

我們首先將數據文件生成到一個臨時緩沖區,每個緩沖區對應一個 commit 請求,多個寫臨時緩沖區的請求可以并發進行。當數據完整寫入臨時緩沖區之后,我們有一個常駐的任務會接受數據 load 的請求,將數據從緩沖區中通過文件移動的方式 load 進 Hudi,并生成對應的 commit 信息。多個 load 請求是線性進行的,由 Hudi Timeline 的表鎖保證,但是每個 load 請求中只涉及文件的移動,所以 load 請求執行時間是秒級,這樣就實現了大吞吐的數據多并發寫和最終一致性。

圖片

4.3 Compaction Service

關于 Compaction,Hudi 社區提供了若干 Compaction 的開箱即用的策略。但是業務側的需求非常靈活多變,無法歸類到一種開箱即用的策略上。因此我們提供了 Compaction Service 這樣的組件用來處理用戶的 Compaction 請求,允許用戶主動觸發一次 Compaction,并可指定 Compaction 的數據范圍,資源使用等等。用戶也可以選擇按照時間周期性觸發 Compaction,以達到自動化數據生效的效果。

在底層我們針對 Compaction 的業務場景做了冷熱隊列分層,根據不同的 SLA 的 Compaction 任務,會選擇對應的隊列資源來執行。用來降低 Compaction 的整體成本。比如每天天級別的數據生效是一個高保障的 Compaction 任務,會有獨占隊列來執行。但是進行歷史數據的單次修復觸發的 Compaction,對執行時間不敏感,會被調度到低優先級隊列以較低成本完成。

針對數據湖的樣本存儲與生成問題,我們搭建了適用于多種場景的存儲方案架構,實現了批流一體的樣本生成,并且通過對 Hudi 內核進行一定的改造,實現更加滿足實際業務需求的功能設計。

責任編輯:龐桂玉 來源: 字節跳動技術團隊
相關推薦

2020-10-16 09:09:20

機器學習銀行技術

2017-06-14 19:05:51

機器學習Quora應用場景

2011-03-07 15:24:17

LBS

2012-10-23 09:32:07

2011-05-17 15:24:18

Shibboleth認證

2022-06-08 13:25:51

數據

2017-08-07 09:39:52

HBase大數據存儲

2022-09-05 14:46:01

元宇宙區塊鏈人工智能

2013-07-27 20:11:27

2023-04-19 16:47:09

抖音機器學習

2018-08-28 16:10:36

2025-05-26 17:16:51

2024-02-06 08:18:30

用戶畫像標簽數字化異常值處理

2023-11-15 18:40:27

半監督學習人工智能

2014-12-10 10:36:23

IaaS云應用場景

2021-06-04 15:45:43

XR虛擬現實虛擬經濟

2016-10-21 15:07:11

2022-07-18 16:02:10

數據庫實踐

2013-10-15 10:11:33

產品測試使用場景產品

2023-09-05 07:22:17

Hudi數據存儲
點贊
收藏

51CTO技術棧公眾號

北条麻妃69av| 91视频88av| 亚洲专区区免费| 成人精品动漫| 亚洲美女少妇撒尿| 国产综合第一页| 中文字幕免费观看视频| 欧美一区二区| 国产丝袜一区二区| 国产精品久久久久久9999| 成年网站在线视频网站| 国产蜜臀av在线一区二区三区 | 怡红院成人在线| 日韩理论在线观看| 久久超碰亚洲| 99热这里只有精品9| 国产精品亚洲综合久久| 久久精品视频99| 成人免费看aa片| 日韩视频1区| 欧美性感一区二区三区| 极品粉嫩国产18尤物| 91精品专区| 91原创在线视频| 99久久无色码| 91亚洲国产成人精品一区| 99精品免费网| 欧美寡妇偷汉性猛交| 日韩免费成人av| 国产精品香蕉| 欧美大片在线观看一区| 天天干天天玩天天操| 末成年女av片一区二区下载| 亚洲色图19p| 色综合影院在线观看| 亚洲欧美另类视频| 久久99久国产精品黄毛片色诱| 欧美亚洲国产视频| 久久狠狠高潮亚洲精品| 中文视频一区| 久久久99久久精品女同性| 中文字字幕码一二三区| 国产精品毛片久久久| 日韩欧美自拍偷拍| 午夜影院免费版| 四虎国产精品免费久久5151| 欧美午夜精品久久久久久孕妇 | 日本一区二区三区四区在线观看| 成人av免费播放| 国产一区二区三区黄视频| 国产精品欧美久久久| 亚洲 欧美 中文字幕| 美日韩精品视频| 日本久久久久久久久| 日韩中文字幕在线观看视频| 国产日韩一区二区三区在线播放| 久久久久久久亚洲精品| 精品99在线观看| 欧美深夜福利| 久久久爽爽爽美女图片| 亚洲国产精品成人无久久精品| 午夜精品免费| 久久久久九九九九| 日本一级黄色大片| 亚洲一区一卡| 国产成人午夜视频网址 | 欧美一区二区三区思思人| 91精品999| 久久精品一级| 亚洲第一级黄色片| 亚洲精品成人久久电影| 国产午夜精品全部视频播放| 黄色av网址在线观看| 国产精品99久久免费观看| 精品欧美乱码久久久久久1区2区 | 中文字幕日本在线观看| 国产三级久久久| 亚洲高清视频一区| 国产黄网站在线观看| 一区二区三区四区不卡视频| 青春草国产视频| 一级黄色片日本| 精品美女视频| 久久精品视频va| 久久亚洲成人av| 一本久道久久综合狠狠爱| 91av在线看| 久久久久久久久久一级| 久久99国产乱子伦精品免费| 91成人在线看| 瑟瑟在线观看| 中文字幕在线不卡| 久久久久久久久久久99| 欧美va视频| 日韩一级黄色大片| 91久久免费视频| 久久精品青草| 欧美一级高清免费播放| 中文字幕码精品视频网站| 高清国产午夜精品久久久久久| 黑人巨大精品欧美一区二区小视频| 亚州视频一区二区三区| 国产精品久久久久久久午夜片| 九九久久九九久久| av免费在线一区| 亚洲韩国日本中文字幕| 91香蕉视频污在线观看| 国产亚洲一级| 99在线观看视频| yjizz视频网站在线播放| 一区二区欧美视频| 手机在线成人免费视频| 国产欧美三级电影| 精品久久国产精品| 亚洲大片免费观看| 成人成人成人在线视频| 中文字幕一区二区三区在线乱码 | 亚洲在线视频一区| 三年中国国语在线播放免费| www国产精品| 久久精品福利视频| 亚洲综合图片网| 成人av网站免费| 黄色网络在线观看| 国产人妖一区| 亚洲丝袜av一区| 日韩欧美不卡视频| 粉嫩在线一区二区三区视频| 中文字幕色一区二区| 日本欧美韩国| 精品亚洲男同gayvideo网站| 欧美毛片在线观看| 精品在线你懂的| 日本一区视频在线观看免费| 免费在线小视频| 亚洲福利视频免费观看| 欧美日韩偷拍视频| 国产自产2019最新不卡| 日韩欧美在线观看强乱免费| 精品91久久| 日韩电影第一页| 日韩精品无码一区二区| 高清久久久久久| 日韩成人三级视频| 凹凸成人在线| 久久久久国产精品免费| av中文字幕观看| 亚洲另类在线一区| 午夜性福利视频| 在线成人av| 国产伦精品一区二区三区照片91| 青草影视电视剧免费播放在线观看| 欧美日韩精品电影| 日日噜噜夜夜狠狠久久波多野| 久久精品国产在热久久| 五月天av影院| 麻豆精品一区| 欧美大学生性色视频| www.久久综合| 亚洲成人激情综合网| 国产艳妇疯狂做爰视频| 亚洲国产综合在线看不卡| 国产亚洲福利社区| 玖玖在线播放| 亚洲欧美中文字幕| 最近中文字幕免费观看| 国产精品成人在线观看| 天天久久综合网| 欧美日韩p片| 国产欧美日韩在线播放| 成人性生活视频| 在线亚洲男人天堂| 国产精品久久综合青草亚洲AV| 日韩理论片中文av| 无码国产精品一区二区免费式直播 | 欧美成人伊人久久综合网| 免费看一级一片| 91色|porny| 亚洲三级视频网站| 欧美jjzz| 久久99热只有频精品91密拍| 国产成人免费9x9x人网站视频| 少妇高潮久久77777| 精品人妻一区二区三区蜜桃| 欧美日韩国产一区在线| 农村老熟妇乱子伦视频| 国产黄色成人av| 日本不卡在线观看视频| 91欧美在线| 国产精品一区二区在线观看| 亚洲成人不卡| 久久久久久久999精品视频| 天堂av在线7| 在线电影欧美成精品| 国产精品一区二区6| 中文字幕不卡在线观看| 丰满熟女人妻一区二区三区| 久久久人人人| 50度灰在线观看| 精品色999| 国产99在线播放| 日韩欧美少妇| 97精品国产91久久久久久| av每日在线更新| 亚洲国产欧美精品| 国产精品无码久久av| 黑人巨大精品欧美一区二区免费| 强制高潮抽搐sm调教高h| 91视频国产资源| 91精产国品一二三| 久久精品国产第一区二区三区| 国产v片免费观看| 91精品国产91久久综合| 乱色588欧美| 天堂va在线高清一区| 国产精品亚发布| 欧美13videosex性极品| 久久99国产精品自在自在app| 国产小视频免费在线观看| 精品国产百合女同互慰| 国产三级自拍视频| 欧美三日本三级三级在线播放| 国产精品xxxx喷水欧美| 亚洲综合网站在线观看| 国产小视频你懂的| 欧美激情一区二区三区在线| 疯狂揉花蒂控制高潮h| 粉嫩欧美一区二区三区高清影视 | 国精品产品一区| 日本高清视频一区| 国产高清视频色在线www| 美日韩精品免费观看视频| √天堂资源地址在线官网| 亚洲欧美一区二区三区在线| 人妻一区二区三区免费| 欧美一区二区三区四区视频| 一级特黄aaa大片| 欧美在线制服丝袜| 日日夜夜狠狠操| 色香蕉久久蜜桃| 免费观看日批视频| 91久久精品国产91性色tv| 色av性av丰满av| 色综合色综合色综合色综合色综合| 国产成人在线播放视频| 午夜精品久久久久久久久久| 国产主播在线观看| 亚洲成人在线网站| 中日韩精品视频在线观看| 午夜欧美在线一二页| 日韩特黄一级片| 精品久久久久久久久久国产 | 99在线精品免费视频九九视 | 蜜桃传媒视频麻豆第一区免费观看| 久久aimee| 鲁丝一区二区三区免费| 国产精品亚洲人成在99www| 欧美性xxxx69| 成人午夜av| 国产免费色视频| 中文av一区| 国产高清www| 日韩午夜激情| 国产一区视频免费观看| 日韩二区三区四区| 国产成人在线综合| 粉嫩av亚洲一区二区图片| 挪威xxxx性hd极品| 2020国产精品| 国产探花视频在线| 亚洲人成人一区二区在线观看| 中文字幕亚洲欧美日韩| 亚洲一区国产视频| 国产精品一区二区6| 欧美亚洲自拍偷拍| 国产男女猛烈无遮挡| 欧美成人精品1314www| 熟妇人妻一区二区三区四区| 亚洲人成欧美中文字幕| 黄色免费在线看| 性色av一区二区三区| 日本久久免费| 91视频8mav| 亚洲妇女av| 伊人久久av导航| 在线观看一区视频| 性生交免费视频| 国产精品资源站在线| 国产高清自拍视频| 亚洲三级在线观看| 精品欧美一区二区三区免费观看| 欧美亚洲一区二区在线观看| av免费观看在线| 亚洲人成毛片在线播放| 99在线播放| 日韩暖暖在线视频| 五月亚洲婷婷| 先锋影音日韩| 亚洲国产欧美国产综合一区| 五月天激情视频在线观看| 国产iv一区二区三区| 女人黄色一级片| 亚洲高清三级视频| 国产精品国产三级国产aⅴ| 亚洲精品福利在线| 97超碰在线公开在线看免费| 日韩av男人的天堂| 白白在线精品| www.午夜色| 视频一区欧美日韩| 艳妇乳肉豪妇荡乳xxx| 国产精品高潮久久久久无| 九九热在线免费观看| 日韩女优av电影| 欧美精品电影| 日韩美女视频中文字幕| 成人免费直播在线| 天天爱天天做天天操| 久热综合在线亚洲精品| 黄色在线免费播放| 亚洲精品国产第一综合99久久| 国产无遮挡又黄又爽又色视频| 亚洲国产精品成人一区二区| 国产鲁鲁视频在线观看特色| 国产精品视频内| 国产成人ay| 成人久久久久久久久| www.亚洲人| 国产一二三四在线| 91精品国产免费| 免费a在线看| 国产一区红桃视频| 精品国产一区二区三区久久久樱花| 欧美不卡在线播放| 成人性生交大片| 一区二区三区免费高清视频| 日韩一区二区电影在线| 黄色网在线免费观看| 国产精品欧美日韩久久| 成人av二区| 超碰在线公开97| 国产精品美女久久久久久| 中文字幕一区二区三区四区视频| 亚洲视频欧洲视频| 三级成人在线| 亚洲不卡1区| 麻豆一区二区在线| 国产在线观看免费视频软件| 欧美日韩精品欧美日韩精品一 | 丝袜美腿综合| 国产三区在线视频| 久久免费午夜影院| 中文字幕在线看人| 亚洲午夜色婷婷在线| 国产精品字幕| 色涩成人影视在线播放| 麻豆91精品91久久久的内涵| 小泽玛利亚一区| 欧美一区二区不卡视频| 性欧美videoshd高清| 国产欧美丝袜| 噜噜噜久久亚洲精品国产品小说| 少妇大叫太粗太大爽一区二区| 欧美视频在线免费| 国产精品影院在线| 成人欧美一区二区三区黑人孕妇| 欧美成人一区二免费视频软件| 日韩欧美中文视频| 精品免费在线视频| 黄色av网址在线免费观看| 国产精品入口日韩视频大尺度| 欧美hd在线| 少妇极品熟妇人妻无码| 欧美网站在线观看| av电影在线观看| 99在线高清视频在线播放| 免费欧美日韩| 国产3级在线观看| 精品国产一区二区三区四区四 | 欧美日韩国产在线播放网站| caoporm免费视频在线| 国产精品一区二区三区四区五区| 国产精品入口66mio| 99热6这里只有精品| 亚洲第一精品夜夜躁人人躁| 日韩在线短视频| wwwjizzjizzcom| 久久久精品欧美丰满| 国产伦精品一区二区三区免.费| 欧美—级a级欧美特级ar全黄| 亚洲国产合集| 国产黄色一区二区三区| 欧美性猛交xxxx| 国产福利视频在线| 九九九九九精品| 黄网站免费久久| 久久精品视频7| 欧美精品在线免费| 欧美午夜精彩| 久久久久久久久久久久国产精品|