精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

騰訊大數據實時湖倉智能優化實踐

大數據 數據湖
本次分享題目為騰訊大數據實時湖倉智能優化實踐。數據湖計算部分,Spark 作為 ETL Batch 任務的主要批處理引擎,Flink 作為準實時計算的流處理引擎,StarRocks 和 Presto 作為即席查詢的 OLAP 引擎。

一、湖倉架構

騰訊大數據的湖倉架構如下圖所示:

圖片

這里分為三個部分,分別是數據湖計算、數據湖管理和數據湖存儲。

數據湖計算部分,Spark 作為 ETL Batch 任務的主要批處理引擎,Flink 作為準實時計算的流處理引擎,StarRocks 和 Presto 作為即席查詢的 OLAP 引擎。數據湖管理層以 Iceberg 為核心,同時開放了一些簡單的 API,支持用戶通過 SDK 的方式去調用。在 Iceberg 之上構建了一套 Auto Optimize Service 服務,幫助用戶在使用 Iceberg 的過程中實現查詢性能的提升和存儲成本的降低。數據湖底層存儲基于 HDFS 和 COS,COS 是騰訊云的云對象存儲,可以滿足云上用戶的大規模結構化/非結構化存儲需求,在上層計算框架和底層存儲系統之間,也會引入 Alluxio 構建了一個統一的存儲 Cache 層,進行數據緩存提速。本次分享的重點主要是圍繞智能優化服務(Auto Optimize Service)展開。


二、智能優化服務

圖片

智能優化服務主要由六個部分組成,分別是:Compaction Service(合并小文件)、Expiration Service(淘汰過期快照)、Cleaning Service(生命周期管理和孤兒文件清理)、Clustering Service(數據重分布)、Index Service(二級索引推薦)和 Auto Engine Service(自動引擎加速)。以下就各模塊近期做的重點工作展開介紹。

1. Compaction Service

(1)小文件合并優化

小文件合并有讀和寫兩個階段,由于 Iceberg 主要以 PARQUET/ORC 列存格式為主,讀寫列存面臨著兩次行列轉換和編解碼,開銷非常大。針對這個痛點,我們對 Parquet 存儲模型進行了分析,主要由 RowGroup、Column Chunk、Page 以及 Footer 組成,相對位置如下圖所示,不同列的最小存儲單元以 Page 級別組織,數據水平方向上以 RowGroup 大小劃分數據塊,以便上層引擎按照 RowGroup 級別分配 task 加載數據。

圖片

基于存儲模型的特點,我們針對性地采用了 RowGroup Level 和 Page Level 兩種拷貝優化,對于大文件合并大文件且僅涉及重新壓縮、僅涉及列裁剪的場景,使用 RowGroup Copy;對于小文件合并大文件、不涉及列變化、不涉及 BloomFilter 的場景,使用 Page Copy。

圖片

下面是我們內部全部升級優化之后的落地效果,合并時間&資源減少 5 倍多。

圖片

(2)更多優化

我們還增強了 Delete Files 合并優化和增量 Rewrite 策略。

在大規模 Update 的場景下,會產生大量的 Delete Files,數據讀取時會頻繁地進行 Delete File Apply Data File 的操作,這個過程是串行的,I/O 開銷巨大。當合并的速度低于 Delete File Apply 的速度,就會因為積攢了大量的 Delete Files 導致合并失敗。針對這個痛點,我們使用 Left Anti Join 拆分出了關聯 Delete File 的 DataFile 和未關聯 Delete File 的 DataFile,然后將兩者進行 Union All。此外還在 Delete File Apply Data File 的過程中使用了 Bloom Index 加速尋找,及時刪除未關聯 Data File 的 Delete File。

增量 Rewrite 優化會通過在 DataFile 中引入 Modify Time 來決策,進行分區級別的增量更新。

圖片

2. Index Service

(1)Iceberg Core Framework

Iceberg 較 Hive 增加了 min-max 索引,記錄了 DataFile 所有 column 列的最大值和最小值,在執行引擎計算時可以協助做文件級別的過濾,但是文件級別的索引粒度較粗,在隨機寫數據的時候 min-max 存在交叉,導致索引失效。所以我們在這個基礎之上進一步拓展了二級索引,來提高 Data Skipping 的能力,加速查詢。索引的構建和加載過程在 Iceberg Core 層的框架支持實現如下:

圖片

(2)Iceberg scan metrics

對于專注于業務開發的用戶來說,索引的選擇往往是比較困難的,如何精準的判斷是不是需要索引,需要什么索引,索引是否有效,索引是否會帶來副作用等,往往需要經過一些額外的任務來進行分析,如果靠用戶自己的決策選擇,獲得大規模的適配收益很難。基于這個想法,我們做了智能推薦索引的支持,而智能的推薦,首先是需要一套 metrics 框架的支持,能夠記錄表的 Scan,Filter 等各種事件,收集 Partition Status 信息,然后對這些事件進行分析,統計列的查詢頻次,過濾條件,根據規則區分高/低基數列等。最后根據分析結果,進行 Index 的推薦。

圖片

(3)索引智能推薦流程

整個端到端的 Index Service 流程如下圖:1)首先是 SQL 提取,由于我們獲取到的 SQL 是引擎優化后的,并不是原始 SQL,所以需要進行 SQL 重構。2)是索引粗篩,根據拿到的信息,比如列和分區的查詢頻度,初步判斷怎么建立索引是有效的。3)開始嘗試構建索引,支持構建分區級別增量索引。4)在用戶無感知的情況下進行任務雙跑。5)根據雙跑結果進行索引優化的效果評估。6)將索引優化數據輸出給用戶,推薦用戶使用。7)由于索引構建是復雜的,一個表會被多任務引用,一個任務也會去訪問多張表,我們提供任務級別和表級別的索引構建,盡可能實現表級和任務級的同步優化。

圖片

3. Clustering Service

由于 Iceberg 的 min-max 索引在隨機寫的情況下是普遍失效的,導致 Data Skipping 能力較差,所以如果需要精確覆蓋 min-max,可以將數據進行重排分布。當用戶進行單列查詢的時候,提前對數據列排序寫入,如果是多列查詢的情況,由于無法保證多個列都分布在一個文件中,我們使用 Z-order,對每個列進行數字化處理,采樣計算 Range-ID,生成交錯位Z-Value,根據 Z-Value 進行重分區,可以保證不同列之間的相對有序性。

圖片

實際業務中,Data Clustering 和 Data Skipping 都實現了四倍以上的效果提升。

圖片

4. AutoEngine Service

相對于 OLAP 引擎來講,Iceberg 表,Hudi 表都是外表,這些外表基本都是 TB 級別,使用 StarRocks,Doris 查詢外表并不能發揮 OLAP 的查詢優勢。AutoEngine Service 通過收集 OLAP 引擎的 Event Message,對相應的分區進行加熱,也就是將相關分區數據路由到 StarRocks 集群,上層引擎可以在 StarRocks 集群中發現該分區的元數據,由此實現基于存儲計算引擎的選擇優化。

圖片


三、場景化能力

1. 多流拼接

關于多流拼接,這里舉個例子簡單說明, 如圖所示,有兩個 MQ 同時往下游寫數據,MQ1 更新列 data1,MQ2 更新列 data2,最終根據 id 聚合,取時間戳 orderColumn 排序最靠前的一條,作為 join 之后的 source。要實現這個合并更新能力,往往需要外接各種臨時存儲 Redis/Hbase/MQ 等組件。

圖片

那在 Iceberg 層面是怎么優化的呢?由于 Iceberg 本身支持事務和列級的更新刪除操作,類似于代碼倉庫的 Branch 概念,因此可以通過打 tag 的方式去標記狀態。具體實現是,初始化階段,數據寫入主流程,同時多流往其他 Merged Branch 去寫入,寫完之后的話會有一個異步的 Compaction 任務,定期和主流程合并,當用戶在讀的時候,直接讀取 Merged Branch。

圖片

2. 主鍵表

通過多流 Join 的實現方法依賴 Compaction Service 的調度性能,當數據規模不斷增加,多流 join 聚合計算更新的拼接方式可能存在性能瓶頸,所以我們也引入主鍵表作為行級更新的另一種實現方式。比如這里我們根據 id 分成四個桶,存在多個任務往一個桶去寫數據,一個桶內的數據是有序的,那么下游在讀取桶數據的時候會更輕松。但是當 id 的基數很大的時候,比如當 id 為 4/8/16 的時候,都會往一個桶內寫數,會產生 DataFile 的重疊,在下游從桶內讀數的時候,就需要合并一個桶內的多個 DataFile 到一個 Reader 處理。如果分桶數量設置的不合適,單點壓力就會過大,此時可以使用 Rescale 實現桶的彈性擴縮容。另外在桶的基礎上擴展列族 Column Family 的概念,相當于每個列都作為獨立的文件寫入,多個 Column Family 行拼接 Full Outer Join 即可。

圖片

3. In Place 遷移

由于對數據湖的高階特性能力的需要,很多業務做了架構的升級,同時也面臨著存量 Thive(騰訊自研 Hive)和 Hive 的數據遷移到 Iceberg。這里需要重點支持的工作包括:存儲數據的遷移,計算任務的遷移。

圖片

首先存儲數據的遷移,我們提供了 data in-place 的方案,不搬移原來的 data files,僅僅重新生成 Iceberg 新表所需的 metadata 即可,遷移的過程支持了 STRICT/APPEND/OVERWRITE 等三種模式。

其次是計算任務的遷移支持, 我們改進支持了新的 Name Mapping 機制,增強支持了 Identity partition pruning 能力,使得對于場景的 built-in functions 裁剪能力取得數量級性能提升,優化實現如下:

圖片

4. PyIceberg

Iceberg Table Spec 是開發性的實現,可以支持多種語言 API 接入,AI生態圈數據科學等主要以 Python 環境為主,要求高性能 Native 解碼,對 JVM 環境無強依賴,PySpark 雖然具備接入 Iceberg 的能力,但是太重了。我們可以直接利用 PyIceberg 能力,無JVM 依賴,加載解碼一次即可,提供廣泛的機器學習類庫的優勢,拓展 Python的技術棧到 Iceberg 元數據層面,構造 Pandas,Tensorflow,Pytorch 等不同的 DataFrame,方便進行數據分析和 AI 模型訓練的編程探索,我們內部也深度支持了 PyIceberg SQL 的列裁剪和謂詞下推能力,結合 DuckDB 做一些小數據集的算法快速調試。

圖片


四、總結和展望

未來還將從以下方面著手,進行實時湖倉的優化:

圖片

1. Auto Optimize Service

  • 冷熱分離降本提效
  • 物化視圖提速
  • AE 服務智能化感知
  • Compaction 能力打磨
  • 更多 Transform UDF Partition Pruning 優化

2. 主鍵表優化

拓展 Deletion Vector,解決謂詞下推必須聯合去重的性能問題

3. AI 探索

  • 落地適合模型訓練的湖倉格式。
  • 探索實現分布式 dataFrame,整合 metadata 和引擎。
責任編輯:姜華 來源: DataFunTalk
相關推薦

2023-10-13 07:25:50

2023-06-28 07:28:36

湖倉騰訊架構

2024-12-16 08:34:13

2024-06-12 07:30:08

2017-01-04 10:29:37

Spark運維技術

2016-12-15 21:41:15

大數據

2021-06-04 07:24:14

Flink CDC數據

2024-08-27 09:12:36

2023-07-27 07:44:07

云音樂數倉平臺

2013-04-23 14:36:54

2014-08-20 09:40:56

大數據實踐項目

2022-05-23 13:30:48

數據胡實踐

2024-09-03 14:59:00

2023-08-29 10:20:00

2021-07-05 10:48:42

大數據實時計算

2023-03-27 21:24:18

架構數據處理分析服務

2023-10-16 07:22:50

點贊
收藏

51CTO技術棧公眾號

精品一区二区三区在线观看视频| 亚洲一级在线播放| 欧美交a欧美精品喷水| 色网站国产精品| 一区二区三区偷拍| 草逼视频免费看| 欧美亚洲在线| 久久国产精品久久久久| 午夜视频在线观看国产| 在线观看精品| 伊人一区二区三区| 欧美在线播放一区| 国产激情视频在线播放| 久久久精品五月天| 欧美高清一级大片| 在线免费观看视频| 国产成人福利av| 欧美午夜寂寞影院| 国产aaa免费视频| 香港伦理在线| 99精品国产一区二区三区不卡| 国产精品视频中文字幕91| 久久久久久久久久久久国产| 国产videos久久| 精品久久久久久最新网址| 在线观看免费黄网站| 国产精选在线| 亚洲六月丁香色婷婷综合久久| 欧美日韩亚洲免费| 亚洲免费黄色片| 极品尤物av久久免费看| 日韩免费观看视频| 久久丫精品久久丫| 国产精品7m凸凹视频分类| 亚洲美女av网站| 亚洲精品久久一区二区三区777| 精品国产美女a久久9999| 色哟哟在线观看一区二区三区| www.男人天堂网| 午夜免费福利在线观看| 国产日韩欧美a| 久久国产精品久久精品国产| 蜜桃av噜噜一区二区三区麻豆| 美女久久久精品| 欧美亚洲伦理www| 久久影院一区二区| 欧美久久影院| 久久影院资源网| 乱老熟女一区二区三区| 天天精品视频| 日韩午夜免费| 久久精品视频播放| 一级二级黄色片| 国产又黄又大又爽| 亚洲久久一区二区| 久久久噜久噜久久综合| 美女的奶胸大爽爽大片| 外国成人激情视频| 北条麻妃一区二区三区中文字幕| 懂色av粉嫩av浪潮av| 成人vr资源| 一区二区欧美亚洲| www..com.cn蕾丝视频在线观看免费版| 天堂一区二区三区四区| 国产视频精品自拍| 亚洲一级中文字幕| 少妇精品久久久一区二区| 国产一区av在线| 欧美极品jizzhd欧美18| 97久久视频| 超碰91人人草人人干| 欧美片一区二区| 在线成人黄色| 日本在线观看天堂男亚洲| 波多野结衣在线电影| 五月婷婷丁香六月| 亚洲精品一二三**| 日韩三级高清在线| 亚洲视频天天射| 欧美人成在线观看ccc36| 日韩精品在线视频| 免费观看av网站| 欧美少妇xxxx| 久久久久北条麻妃免费看| 印度午夜性春猛xxx交| 欧美日韩国产成人精品| 久久久日本电影| 麻豆久久久久久久久久| 日韩高清不卡一区二区| 91亚洲一区精品| 色婷婷av一区二区三区之e本道| 91香蕉国产在线观看软件| 日韩高清av电影| 国产在线激情视频| 五月激情综合网| 午夜免费看视频| 日韩视频一二区| 亚洲人成电影在线播放| 成人在线观看高清| 亚洲理论在线| 国产日韩综合一区二区性色av| 国产肥老妇视频| 久久久久久久久97黄色工厂| 艳母动漫在线观看| 中文在线免费视频| 制服丝袜国产精品| 日本丰满少妇裸体自慰| 偷偷www综合久久久久久久| 91国产视频在线播放| 一级黄色大毛片| www激情久久| 蜜桃网站在线观看| 播放一区二区| 亚洲第一二三四五区| 亚洲天堂精品一区| 中文精品在线| 亚洲iv一区二区三区| 毛片网站在线观看| 亚洲成人在线免费| 91欧美视频在线| 伊人成综合网yiren22| 欧美精品三级| 久久午夜a级毛片| 天天综合网入口| 国产老肥熟一区二区三区| 日本一区二区三区视频免费看| 日本在线观看高清完整版| 欧美在线不卡视频| 日本免费福利视频| 欧美日本三区| 国产欧美一区二区白浆黑人| 牛牛影视精品影视| 欧美日韩国产在线| 国产高潮失禁喷水爽到抽搐| 97精品国产福利一区二区三区| 日韩av手机在线| 91成人免费网站| 性一交一乱一色一视频麻豆| 丁香五精品蜜臀久久久久99网站| 视频一区二区三区在线观看| 人狥杂交一区欧美二区| 欧美成人一区二区三区在线观看| 99porn视频在线| 午夜影院免费视频| 亚洲影视在线观看| 成人三级做爰av| 2023国产精品久久久精品双| 国产精品一区二区三区在线播放| 久草在线网址| 日本韩国欧美在线| 国产色视频一区二区三区qq号| 亚洲成人原创| 国产精品乱码| 136福利第一导航国产在线| 精品国产sm最大网站免费看| 国产一级淫片免费| 成人sese在线| 黄色免费视频大全| 美日韩中文字幕| 国产精品成人久久久久| 成人亚洲综合天堂| 在线视频欧美区| 亚洲精品天堂网| 九九在线精品视频| ijzzijzzij亚洲大全| 亚洲国产精品免费视频| 欧美黑人xxx| 欧美一区二区在线观看视频| 婷婷丁香久久五月婷婷| 中国黄色a级片| 日韩国产精品久久| 在线成人性视频| 中文一区二区三区四区| 97香蕉久久超级碰碰高清版| 精品乱码一区二区三四区视频 | 91人成网站www| 国产秀色在线www免费观看| 日韩免费看网站| 香蕉免费毛片视频| 久久精品免视看| 一二三av在线| 亚洲日韩成人| 亚洲高清视频一区二区| 成人乱码手机视频| 97人人模人人爽人人喊中文字| 免费国产在线视频| 欧美丰满一区二区免费视频| 久久精品国产亚洲av麻豆色欲| 久久毛片高清国产| 特级西西444www| 亚洲福利免费| 午夜午夜精品一区二区三区文| 另类视频一区二区三区| 26uuu另类亚洲欧美日本老年| 91吃瓜网在线观看| 精品国产区一区| 精品国产www| 亚洲一区二区三区在线| 男人舔女人下部高潮全视频| 久久99国产精品成人| 超碰成人免费在线| 日本不卡电影| 精品视频高清无人区区二区三区| 国产精品蜜月aⅴ在线| 国产69精品久久久久9| 69视频在线| 亚洲国产精品yw在线观看| 一级黄色短视频| 欧美午夜精品久久久久久久| 成人性生活毛片| 久久精品亚洲乱码伦伦中文| 四虎永久免费观看| 另类调教123区| 欧美日韩第二页| 国产精品av一区二区| 在线观看欧美激情| 精品日韩一区| 午夜精品久久久久久久无码| 国产精品久久免费观看| 韩国精品一区二区| 欧美日韩国产精品激情在线播放| 久久久国产精品| 欧美一区国产一区| 日韩亚洲欧美综合| 在线观看日韩精品视频| 韩国毛片一区二区三区| 四虎永久在线精品无码视频| 国内久久视频| 日韩人妻精品一区二区三区| 精品国产中文字幕第一页| 国产在线一区二区三区四区| 麻豆国产一区二区三区四区| 国产美女被下药99| av免费在线一区| 欧美专区福利在线| 岛国av在线网站| 欧美激情国产日韩精品一区18| 老司机免费在线视频| 中文字幕在线观看日韩| 黄网在线免费| 亚洲欧美日韩国产成人| 五月婷婷丁香网| 亚洲国模精品一区| 欧美一区二区黄片| 亚洲成人久久网| 高h震动喷水双性1v1| 日韩欧美一区二区视频| 国产男男gay网站| 欧美精品久久99久久在免费线 | 国内精品一区视频| 日韩禁在线播放| 亚州精品国产精品乱码不99按摩| 精品国产乱码久久久久久免费| www.蜜臀av.com| 欧美成人一区二区三区在线观看| 午夜精品久久久久久久96蜜桃 | 色网站在线视频| 国精产品一区一区三区mba视频| 岛国毛片在线播放| 黑人巨大精品欧美黑白配亚洲| 五月天av在线播放| 国产曰批免费观看久久久| 中文字幕在线视频一区二区三区 | 西西大胆午夜视频| 91天堂素人约啪| 四虎永久免费在线观看| 国产精品天天摸av网| 四虎影视一区二区| 一区二区三区四区国产精品| 日韩精品国产一区二区| 欧美午夜精品久久久久久人妖| 国产男人搡女人免费视频| 欧美日韩日本视频| av手机免费看| 亚洲精品国产精品久久清纯直播| 色播色播色播色播色播在线 | 国产欧美日韩一级| 成年人视频网站免费观看| 免费高清在线视频一区·| 6080国产精品| 99久久99久久精品免费观看| 国产美女免费无遮挡| 亚洲欧洲美洲综合色网| 精品少妇久久久久久888优播| 岛国av在线不卡| 在线播放一级片| 亚洲爱爱爱爱爱| 国产福利在线观看| 欧美乱妇高清无乱码| 亚洲精品成人图区| 成人av色在线观看| 久久精品论坛| 中文字幕欧美日韩一区二区| 极品尤物久久久av免费看| av免费中文字幕| 韩日精品视频一区| 免费在线观看你懂的| 日韩一区欧美一区| 日韩欧美成人一区二区三区| 欧美美女黄视频| 午夜在线视频观看| 美女黄色丝袜一区| 欧美黑人巨大xxxxx| 51精品国产人成在线观看| 免费看成人吃奶视频在线| 男女裸体影院高潮| 美女精品一区二区| 粉嫩av蜜桃av蜜臀av| 亚洲一区在线电影| 国产一区二区三区四区五区 | 成人午夜sm精品久久久久久久| 亚洲在线观看视频网站| 国产一区二区三区探花| www成人免费| 精品综合免费视频观看| 免费毛片视频网站| 亚洲一区二区三区三| 一级特黄aaa大片在线观看| 中文字幕天堂av| 亚洲裸色大胆大尺寸艺术写真| 欧美精品在线观看播放| 色婷婷av一区二区三区之e本道| 亚洲天堂av在线免费| 欧美6一10sex性hd| 国产精品美女av| 美女呻吟一区| 免费看污污视频| 人禽交欧美网站| 中文字幕5566| 亚洲成a人片综合在线| 国产又粗又大又爽| 亚洲天堂一区二区三区| 美女av在线免费看| 国产精品裸体一区二区三区| 在线精品小视频| 天天做天天干天天操| 中文字幕精品在线不卡| 亚洲 日本 欧美 中文幕| 日韩精品欧美激情| 中文字幕影音在线| 久久精彩视频| 99精品国产一区二区青青牛奶 | 日韩成人一级大片| 欧美高清性xxxx| 精品人伦一区二区三区蜜桃网站 | 亚洲黄色三级视频| 欧美videossexotv100| 91麻豆一二三四在线| 91久久精品一区| 欧美在线黄色| 国产一级二级av| 亚洲综合久久久久| 国产成人自拍一区| 性色av一区二区三区免费| 国产精品三p一区二区| 久久黄色片视频| 91视频免费观看| 免费精品一区二区| 色婷婷综合成人| 欧美第一在线视频| 17c丨国产丨精品视频| 成a人片亚洲日本久久| 久久久精品免费看| 在线中文字幕日韩| 色999久久久精品人人澡69| 六月婷婷激情网| 成人网男人的天堂| 99久久久久久久久| 中文字幕精品—区二区| 91精品视频一区二区| 奇米777四色影视在线看| 成人爱爱电影网址| 无码人妻aⅴ一区二区三区有奶水| 伊人一区二区三区久久精品 | 韩国在线一区| 好吊一区二区三区视频| 在线一区二区三区| 国产精品久久久久久福利| 亚洲va电影大全| 亚洲三级国产| 亚洲色图27p| 精品国产一区二区三区久久久蜜月| 国内精彩免费自拍视频在线观看网址| 欧美精品一区在线发布| 激情国产一区二区| 日本一区二区不卡在线| 中文字幕精品一区久久久久| 中文字幕av一区二区三区四区| 日韩av片在线看| 自拍偷拍国产精品| 日本免费不卡视频| 国产裸体写真av一区二区| 在线欧美一区| 天堂а√在线中文在线鲁大师| 精品国产1区二区| 成人在线视频免费| 一二三四视频社区在线| 国产精品不卡一区| 韩国av在线免费观看| 国产精品视频播放|