精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

告別數據無序:得物數據研發與管理平臺的破局之路

開發 架構
得物作為一家數據驅動型互聯網企業,數據使用的效率、質量、成本,極大影響了公司的商業競爭力。而數據鏈路上最關鍵的系統是計算存儲引擎和數據研發平臺。其中計算存儲引擎決定了數據的使用成本,數據研發平臺則決定了數據的交付效率、數據質量以及數據架構合理性。

一、背景介紹

二、產品功能架構

三、數據建設的“駕駛艙” - 數據研發套件

    1. 系統架構解析

    2. 數據同步技術解析

    3. 數據研發套件任務遷移方案解析

    4. 功能建設與遷移進展

四、公司數據資產的“底盤” - 數據架構技術

    1. Onedata數據架構方法論及工具體系

    2. 統一ODS自動化采集入倉方案解析

    3. 規范數據建模與自動化指標研發方案解析

    4. 當前落地進展與效果

五、數據生產的“剎車片” - 數據質量技術

    1. Galaxy的數據質量工具體系

    2. 當前落地進展與效果

六、數據研發之路的“輔助駕駛” - 智能化數據研發

    1. Galaxy的智能化演進路線

    2. 智能SQL代碼續寫方案解析

    3. 當前落地進展與效果

七、后續規劃

    1. 長期規劃一:智能ETL Agent

    2. 長期規劃二:Data Fabric

    3. 長期規劃三:數據邏輯化

一、背景介紹

為什么得物需要自建大數據研發與管理平臺?

得物作為一家數據驅動型互聯網企業,數據使用的效率、質量、成本,極大影響了公司的商業競爭力。而數據鏈路上最關鍵的系統是計算存儲引擎和數據研發平臺。其中計算存儲引擎決定了數據的使用成本,數據研發平臺則決定了數據的交付效率、數據質量以及數據架構合理性。

得物數據生產鏈路得物數據生產鏈路

過去整套大數據基礎設施我們都使用云上商業化產品(下文簡稱“云平臺”),但在各方面已遠無法匹配上得物長期的業務發展。目前得物大數據面臨著如下挑戰:

圖片圖片

因此24年技術部正式啟動大數據系統自建,Galaxy數據研發與管理平臺為其中一個重要項目,負責面向參與數據生產的用戶,提供離線和實時數據的采集同步、研發運維、加工生產、數據資產管理以及安全合規的能力,滿足業務長期發展對于數據架構、數據質量、數據交付效率的訴求。

二、產品功能架構

下圖為整體產品功能架構,其中藍色部分為當前已落地功能,灰色部分為規劃中的功能。

Galaxy數據研發與管理平臺產品功能架構Galaxy數據研發與管理平臺產品功能架構

圖片

24年立項開始至今,我們主要專注在4個最核心能力的建設,分別為:數據研發套件、數據架構技術、數據質量技術、智能化數據研發。如果把數據研發平臺比喻成一輛汽車,那么這四部分的定位如下圖所示:

圖片圖片

下文會對這些關鍵技術實現、落地進展以及Galaxy數據研發平臺的架構演進,進行解析。

三、數據建設的“駕駛艙” - 數據研發套件

系統架構解析

數據研發套件包含數據研發IDE、數據資產系統、離線任務調度系統三部分,在平臺中的定位類似于“汽車的駕駛艙”,為數據工程師提供豐富的工具集,控制全公司的數據流動與計算。整體系統架構如下圖所示:

圖片圖片

數據同步技術解析

數據同步也叫數據集成,它是Galaxy數據研發平臺的核心組件之一,主要用于公司各種異構數據源與數據倉庫進行數據傳輸,打通數據孤島。它作為大數據鏈路加工的起點和終點,不僅用于數倉ODS層(Operational Data Store,保存原始數據)的入倉構建,也負責將數倉數據回流(出倉)到消費側的各種數據源中。

離線數據同步

離線數據同步是最為主流的一種數據同步模式,以批量讀寫的形式將源表以全量或增量的形式周期性的寫入目標表。目前Galaxy數據研發套件支持了多種類型數據源的離線同步,包括:

圖片圖片

目前Galaxy數據研發套件的離線同步內核基于Spark Jar進行實現,下圖為離線數據同步架構:

Galaxy數據研發套件離線數據同步架構Galaxy數據研發套件離線數據同步架構

離線數據同步的具體實現執行流程(以MySQL同步至得物自建離線存儲系統為例):

MySQL離線同步至得物自建離線存儲系統的執行流程MySQL離線同步至得物自建離線存儲系統的執行流程

實時數據同步

離線數據同步存在著一些局限性,主要有:

  • 對在線數據庫壓力大,即使是讀庫也可能影響線上部分業務的穩定性。而如果單獨為數據入倉申請一個備庫,又會帶來較大的額外成本;
  • 大表同步時間長(可達7小時)此類任務基本無法保障下游重要數據產出的SLA;
  • 需要在短時間傳輸大量數據,對網絡帶寬依賴高;
  • 數據時效差,最快也是T+H的延遲,無法滿足實時報表等對時效性敏感場景的需求。

因此需要實時數據同步的能力對此類場景進行補充。我們主要支持兩種實時同步方案:

1)基于業務庫binlog的的實時入倉

對比離線數據入倉,基于binlog的實時入倉可以避免對數據庫造成壓力,減少了對網絡帶寬的依賴,同時對于超大規模的表可以大幅縮短基線加工時長。但此方案依然需要(小時/天)將增量數據和全量數據做Merge處理和存儲,這會產生冗余的計算和存儲成本,且時效性也較差,因此本質上只能為離線數倉場景服務。

圖片圖片

2)實時鏡像同步

通過實時計算引擎Flink CDC將變更數據實時更新到存儲系統中,保持數倉ODS表和來源數據庫表的增全量同步,整體架構更加簡單,并減少ODS層的批計算和冗余存儲成本。目前規劃通過Paimon、Iceberg等開放Lakehouse能力來實現離線存儲系統的實時事務性更新。根據實際業務場景,也可以直接將數據實時寫入StarRocks等支持更新的OLAP數據庫中。

數據研發套件任務遷移方案解析數據研發套件任務遷移方案解析

在過去得物的全部數據加工任務全部運行在云上數據平臺,因此除了對齊產品能力外,我們還需要將數據加工任務從云平臺“平滑”的遷移到Galaxy研發平臺。

由于調度系統的故障風險極大,一旦異常很可能由于依賴錯亂導致數據異常或停止調度導致的數據產出延遲。因此我們將Galaxy研發套件的平臺層遷移和調度層遷移進行解耦,以便將調度系統的遷移節奏放緩。

首先進行風險較低的研發平臺層遷移,讓業務可以盡快上線,便于優化數據研發流程和數據資產管理能力。此階段任務的調度依然運行在云平臺。之后再進行調度層的遷移,這個階段用戶基本無感,完成后則徹底不再依賴云平臺。

圖片圖片

因此架構上一套研發平臺需要同時適配兩套調度系統(云任務調度+Galaxy自研調度系統 ),并支持逐步往自研Galaxy調度的平滑演進。

為了讓調度遷移的過程需要如同“數據庫主備切換”一樣,盡量讓用戶無感,我們使用了影子節點的方案,以實現遷移流程的業務無感、可灰度、可回滾。影子節點本質是一個Shell任務,當調度系統啟動它后,它會通過Rest API檢測對方調度系統中實體節點的狀態,并與它保持狀態同步。通過影子節點,我們可以實現按照任意調度任務id進行灰度遷移,調度遷移本質就是將云平臺的實體節點替換為影子節點。如下所示:

基于“影子節點”的雙調度互通方案基于“影子節點”的雙調度互通方案

功能建設與遷移進展

1)功能對齊與優化

目前Galaxy研發套件已完成與原云數據研發平臺的主鏈路功能對齊,具備數據研發與資產管理的全套流程,同時還針自建Spark引擎查詢和運維、在線數據入倉等方面進行定向優化。提效成果:

圖片

臨時SQL查詢性能優化

通過簡化調用鏈路+Spark Driver預啟動等查詢加速技術,平均每個Query可以比原云數據研發平臺固定節約35s+。

減少查詢等待時間:290+人日/月

在線數據入倉自動化提效在線數據入倉自動化提效

通過工單申請即可實現MySQL數據入倉。自動幫用戶創建同步數據源、增/全量ODS表、同步任務、增量Merge任務,并自動賦權以及數據初始化。根據用戶調研和埋點分析,每個數據入倉需求可提效30min+。

提效效果:20+人日/月

2)業務遷移進展

目前我們已完成數據平臺、數據挖掘、數據分析團隊的全部任務遷移(占得物全域的44%),并完成了算法團隊的POC。同時還將上述團隊的臨時取數業務遷移到了自建Spark引擎,從而實現云上商業版計算引擎的DEV資源縮容400+cu,總計可節省臨時取數計算成本約2萬+/月。

四、公司數據資產的“底盤”-數據架構技術

目前,公司業務用數越來越敏捷和頻繁,而數據資產卻沒有做到“好找敢用”,大量的重復數據和數據煙囪也隨之出現。這不僅導致大量數據二義性問題,同時也使計算存儲成本難以控制。以離線數倉社區&交易的試點域為例,重復冗余表達到了54%,重復指標達到了35%。這本質上是缺乏數據架構體系的建設,數據架構是公司數據管理的“骨架”和“路線圖”,它如同“汽車的底盤”,忽視數據架構可能導致數據的無序增長以及業務的決策錯誤。

Onedata數據架構方法論及工具體系

Galaxy數據研發平臺基于“Onedata”的數據架構方法論,建立了統一的數據采集和生產規范,使數據的新增更加合理、易用,提高數據的復用度、研發效率、交付質量,降低使用成本。這是一種“內啡肽”式的數據建設,前期需要花費一定時間進行數據模型的設計并遵守數據研發規范,但從業務的長遠發展來看,這是必須要走的一步。

目前我們已在數據采集入倉和數據研發兩個環節完成了數據架構能力建設,確保數據的入口(ODS)以及數據倉庫的規范性,并再后續通過旁路數據治理的手段進行存量數據的規范化。如下圖所示:

Onedata數據架構工具體系Onedata數據架構工具體系

融入了Onedata數據架構技術體系(紅色部分)后的Galaxy數據研發平臺架構如下圖所示:

圖片圖片

融入Onedata規范數據生產能力(紅色部分)的Galaxy研發平臺技術架構

下文主要對兩個關鍵模塊,統一ODS自動化入倉平臺、Onedata數據建模的實現方案進行解析。

統一ODS自動化采集入倉方案解析

ODS(Operational Data Store),為操作數據層,是整個數倉最基礎的一層,是原始數據采集入倉的第一個環節。Onedata的核心理念之一是所有的數據采集有統一的規范和入口。因為隨意的從在線庫進行采集同步會導致大量重復的數據存儲,以及過長浪費的表存儲生命周期。

由于數據的采集入倉本身沒有過度復雜的業務邏輯,因此Galaxy數據研發平臺實現了自動化數據采集入倉能力,提供在線數據源到數倉ODS層的標準化采集和管理能力。無需研發代碼的同時,產生的數據都是嚴格滿足架構規范的。具體價值有:

  • 避免重復ODS數據存儲
  • 通過庫owner+數倉owner雙重審批,避免不合理的數據入倉
  • 控制ODS表生命周期,避免存儲成本浪費
  • 全流程自動化,提高ODS層數據研發效能

目前支持MySQL和TiDB的全量采集同步和增量采集同步。同時,開啟自動更新模式的入倉任務,還會訂閱來源MySQL表的變更消息,并自動更新同步任務。關鍵流程如下:

自動化數據入倉流程


規范數據建模與自動化指標研發方案解析

Onedata在數據研發環節,核心采用維度建模的理論。它構建了公司級的一致性維度、標準化的事實表以及可靈活分析的匯總表和無二義性的指標。并將數據進行清晰的分層,將公司內部分散、異構的數據整合成一套可信、可復用、可分析的數據資產。其主要價值有:

  • 保證維度和指標一致性:通過維度和業務過程的概念建模,確保維度表和事實表的全局唯一性;同時通過原子要素的指標建模,確保指標口徑的全局無二義性。
  • 提升開發效率:數據工程師無需重復構建維度表和基礎事實表,直接復用數倉公共層的成果;同時指標原子要素定義完成后,指標和匯總表的代碼全部可以系統自動化生成和優化,大幅提高效率,也減少出錯的可能性。
  • 增強數據可解釋性:明確的表業務描述以及字段關聯的指標和維度,以及清晰的星型/雪花模型關系,使數據的消費側更方便的使用數據。
  • 事前治理:嚴格根據架構規范進行數據研發,禁止重復表的新增,約束數據表的生命周期、數據依賴等,避免事后運動式治理。

Onedata核心概念、建模流程以及配合工具如下圖所示:

Onedata的數據建模流程Onedata的數據建模流程

其中最為關鍵部分為“指標建模”。我們將指標的口徑組成拆成了三部分組成:原子指標、業務限定、統計周期,同時在其物化到表上的時候再確定統計粒度。通過原子要素的組合定義指標可以確保同樣的指標在公司全局只會有一個,以及標識出不同的匯總表、應用表中的指標是否為同一個。另外當原子口徑發生了變化,系統也可以根據血緣關系找到受影響的指標和表,讓owner進行握手確認,確保口徑變更一致性。例如下圖所示:

圖片圖片

1個原子指標口徑變更,影響了7個關聯指標、2張表的同步變更

從上圖我們也可以看到,原子口徑的變更影響非常大,即使可以基于血緣進行變更握手管控,人工修改邏輯也容易改錯或遺留。因此我們實現了自動化指標代碼生成的能力,基于原子口徑自動化生成指標及其物化表的加工邏輯。

指標代碼自動化生成方案:

將指標按來源表分組,并將其的組成原子要素(原子指標+業務限定+統計周期+統計粒度)進行SQL邏輯的組裝、優化、方言翻譯,具體流程為:

圖片圖片

數據建模與指標SQL生成案例:

1.數據建模

圖片圖片

圖片圖片

2.代碼生成

圖片圖片

圖片圖片

圖片圖片

3.代碼優化 - 指標SQL優化規則

圖片圖片

圖片圖片

圖片圖片

圖片圖片

圖片圖片

圖片圖片

當前落地進展與效果

1)統一自動化ODS采集入倉

目前已實現通過工單申請的方式一鍵完成MySQL和TiDB的數據進行增/全量自動化采集入倉能力,無需人工編寫代碼即可實現規范的數據入倉。產品效果如下:

圖片圖片

業務成果:

  • 業務域落地:目前已在得物內部各域全面落地統一ODS入倉能力。2025年Q3,得物全域新增的入倉任務93.6%是通過Galaxy自動化采集入倉平臺自動化生成的;
  • 表生命周期規范:25年新增ODS表生命周期定義率較24年Q4提升7.4倍,節約了大量離線存儲;
  • ODS存儲增量控制:通過源頭規范數據入倉,配合數據治理團隊使數倉ODS層存儲季度增幅降低:32%->8%

2)規范建模與自動化指標代碼生成

目前已完成數倉規劃->概念建模->明細表維度建模->指標建模->指標代碼自動化生成->匯總表代碼自動化生成的Onedata規范建模研發全流程,產品效果如下:

圖片圖片

圖片圖片

圖片圖片

圖片圖片

業務成果:

  • 商家域數倉Onedata一期落地效果:完成了40+數據資產沉淀與規范化汰換改造,以及190+應用指標定義與上架,同時沉淀了100+公共派生指標。通過數據規范化重構、二義性問題的解決以及自動化代碼生成的能力,可實現商家數據需求數倉開發效率提升40+%,每迭代線上需求吞吐量提升75%->90%。
  • 社區域數倉Onedata一期落地效果:完成1200+應用指標的定義與上架,實現100%無二義性。通過精品資產的規范建設與切換,通過復用公共層數據,實現5+萬/月的成本下降。由于數據二義性的解決以及資產規范度的提高,實現數倉和分析師用于口徑oncall和業務取數的人力成本減少約10+人日/月。

五、數據生產的“剎車片” - 數據質量技術

得物數倉發展至今,不僅用于高管決策以及數據報表的場景,同時和得物線上業務做了非常強的耦合,各域均存在P0級資損風險場景,例如:社區數倉的運營投放、算法數倉的新品商業化、交易數倉的費率折扣、營銷域、用戶域等等。這些數據直接應用于線上業務,任何的數據質量問題都可能導致公司、商家、用戶的利益受損,以及業務對數倉的信心丟失。

然而過往數倉的數據交付只是停留在快速提供數據以發揮業務價值這一步,業務和研發對數據質量和穩定性保障重視度嚴重不夠,并且沒有明確生產變更和數據質量校驗的SOP,同時也沒有健全的工具體系支撐,全靠數據工程師的自我修養,導致歷史上很多核心數據加工任務沒有保障或者保障不全面,不斷引發P級故障。

Galaxy的數據質量工具體系

數據質量的相關工具就如同“汽車的剎車片”,可以想象沒有剎車在路上行駛是如何的危險。因此我們在Galaxy數據研發平臺建設之初就同步進行了數據質量工具的開發。目前所建立起來的離線數倉質量加固SOP及配合的工具如下:

離線數倉質量加固SOP離線數倉質量加固SOP

目前重點建設的2個核心功能,分別為:數據質量校驗規則,用于監控生產數據質量并進行及時阻斷止血,避免下游數據污染;以及數據變更管控流水線,在數據生產變更的環節嵌入消費場景打標、自動化風險掃描、code review、自動化數據測試、發布審批等功能,以全面保障數據質量。融入了數據質量技術體系(紅色部分)后的Galaxy數據研發平臺架構如下圖所示:

融入數據質量能力(紅色部分)后的Galaxy數據研發平臺架構融入數據質量能力(紅色部分)后的Galaxy數據研發平臺架構


當前落地進展與效果

數據質量校驗規則

Galaxy數據研發平臺已經實現了完善的數據質量規則校驗能力,用戶在Galaxy數據研發IDE上面向數據標準進行高效的質量規則定義,系統會自動生成校驗SQL隨著任務的發布一起下發到調度系統中執行。同時支持了強規則(主路執行,數據異常阻斷任務執行)和弱規則(旁路執行,數據異常進行告警)兩種規則運行場景,應對不同的場景訴求。產品效果如下所示:

圖片圖片

場景覆蓋方面已經實現了表非空校驗、表波動校驗、字段主鍵校驗、字段非空校驗、字段波動校驗、字段枚舉校驗、自定義SQL校驗等15種規則,覆蓋了離線數倉100%的校驗場景。

同時通過批量導入、弱轉強等提效工具幫助離線數倉團隊在25年Q3新增了1200+質量規則,全量P0任務質量規則覆蓋率達到96%,非P0任務86%。并結合發布管控流水線能力,實現了P0場景任務100%變更覆蓋表級規則,且金額等高風險字段100%變更覆蓋字段級規則。

數據變更流水線

目前已經完成了完整的變更管控流水線的能力,主要功能包括:消費場景打標、靜態風險掃描、Code Review、冒煙測試、數據探查、數據比對、發布審核。產品效果如下所示:

圖片圖片

其中,場景打標方面,離線數倉末端任務(ADS和回流)98.3%打標了數據消費場景,對于全鏈路分析數據重要性和消費場景起到了巨大的作用;變更管控方面,靜態掃描節點已實現了48個風險掃描規則,覆蓋了94%的已知風險場景,當前系統自動化風險識別率98%(剩余為人工CR發現的問題),平均每雙周可事前攔截600+起風險事件。

六、數據研發之路的“輔助駕駛”- 智能化數據研發

過去10年,通過開源大數據組件的興起,大幅度降低了企業構建大數據Infra的難度,在一定程度上實現了企業間的“數據平權”。而在企業內部,由于數據同步、ETL研發調度、資產管理、數據治理等復雜的技術導致找數和用數門檻非常高,因此大部分場景都是提需求給數倉團隊進行數據加工,那么數據團隊的交付效率就變成了公司各業務線數據化經營決策的瓶頸。

Galaxy的智能化演進路線

我們計劃分3個階段(L1~L3)建設Galaxy數據研發平臺的智能化能力,來提升數據研發效率,降低業務自主進行數據研發的門檻,實現公司內部不同部門和崗位間的“數據平權”。如下所示:

Galaxy數據研發智能化演進路徑Galaxy數據研發智能化演進路徑

當前我們處于L1的Copilot階段,通過在數據研發流程中,旁路嵌入基于專家經驗規則和大模型的智能SQL代碼續寫、智能任務診斷、智能SQL代碼糾錯與優化、 智能質量規則推薦等應用,輔助用戶進行高效數據研發。嵌入Copilot后的Galaxy研發平臺整體架構如下,主要關注紅色部分:

數據智能化L1階段的Galaxy研發平臺技術架構數據智能化L1階段的Galaxy研發平臺技術架構


下文主要對當前較為成熟的功能,智能SQL代碼續寫的實現方案進行解析。

智能SQL代碼續寫方案解析

SQL代碼續寫的重點在于工程鏈路,大模型上我們選擇適合代碼生成的小參數模型,當前使用了Qwen-2.5-coder,后續會進行其他模型的實驗。系統流程如下:

智能SQL代碼續寫系統流程智能SQL代碼續寫系統流程

關鍵模塊功能描述:

圖片圖片

當前落地進展與效果

目前Galaxy研發平臺已經落地了智能代碼續寫、智能任務診斷、智能SQL糾錯與優化3個Copilot應用,具體業務效果如下:

圖片圖片

其中高活用戶的智能代碼續寫功能開啟率為98.5%,整體采納率趨勢和我們做的優化動作如下:

智能SQL續寫采納率趨勢智能SQL續寫采納率趨勢

(2025年04月25日~2025年09月09日)

七、后續規劃

后續Galaxy數據研發平臺會持續完善現有功能提升產品體驗,同時在智能ETL Agent、Data Fabric、數據邏輯化三個前沿方向進行探索,通過技術先進性為公司數據業務帶來更多的價值。

長期規劃一:智能ETL Agent

核心目標:數據研發提效,并降低數據研發門檻

ETL Agent核心能力是需要將用戶的自然語言業務需求翻譯成數據表的SQL加工邏輯,其本質上就是“NL2SQL”的傳統命題。然而,如果讓大模型直接分析用戶的問題,那么它需要嘗試從底層混亂的物理表結構中生成目標SQL,這會將業務語義的復雜性完全壓給大模型,導致同一指標因表結構理解偏差或字段映射錯誤而產生不同結果。

Galaxy的ETL Agent會采用“NL2Metric2SQL”的方案。通過大模型進行自然語言的解析,結合向量數據庫的相似度匹配實現NL2Metric的能力,然后基于Onedata數據模型和指標語義層,將自然語言的用數需求準確翻譯為指標原子要素(原子口徑、業務限定、統計周期、統計維度),并自動構建ETL加工鏈路。如下圖案例:

智能ETL Agent用戶流程案例智能ETL Agent用戶流程案例

這也是Galaxy智能化的L2階段,這個階段將數據研發分成了專家數據研發以及智能數據研發。專家模式依然按傳統SQL任務進行數據研發。而智能研發則以自然語言形式的數據需求作為輸入,通過提前將Onedata數據模型存儲在RAG的向量數據庫中,然后根據數據需求內容進行分詞,按相似度從RAG中匹配出相關的指標要素構建出提示詞,并請求大模型獲得正確的指標要素。

圖片圖片

實現智能ETL Agent后的智能化L2階段Galaxy研發平臺架構(紅色部分為Agent相關模塊)

長期規劃二:Data Fabric

核心目標:減少非必要的離線數據存儲成本

傳統的數據集成(數據入倉)方案是通過離線或實時數據同步工具將公司內部各數據源的數據全量或增量地抽取、清洗、加載到一個中心化的數據倉庫中。但這種方案在技術上存在三個問題:

  • 離線存儲成本大:傳統的數據集成方式,離線數倉的ODS層會拷貝全部所需在線數據的副本。然而其中很大一部分的數據僅用于短期分析,或用于對RT不敏感的查詢場景,這些數據在離線數倉中物化存儲的ROI極低,造成了大量存儲成本浪費。
  • 數據搬遷成本大:隨著業務的發展,公司的數據源可能分布在不同地域、不同云環境。周期性的將海量數據同步至中心化數倉,將產生巨大的網絡帶寬成本和入倉等待時間。同時入倉需要與數倉工程師進行需求溝通,也存在大量協作成本。
  • 數據一致性問題:數據同步有顯著延遲,在離線同步的場景下,分析的數據會有天級延遲。

Data Fabric(數據編織)是一種全新的數據集成架構方案,核心理念是 “不移動數據,移動計算”。 技術實現方案上以外表的形式來封裝源端表,通過統一的元數據系統,將源端表(外表)和離線表(內表)統一管理起來,使用起來對用戶無感。在執行計算時,通過Spark引擎的跨源聯邦查詢能力,直接從各源端數據庫(一般為備庫或抽數庫)將數據查詢回來后進行分布式計算。下圖展示了Data Fabric與傳統數據集成的區別:

圖片圖片

長期規劃三:數據邏輯化

核心目標:計算存儲成本降低,數據研發與運維提效

通過視圖或參數化視圖進行整條數據鏈路的構建,那么整條鏈路就完全不需要任何存儲成本,計算成本也僅在視圖查詢時才發生。但這樣會導致一個問題,當視圖邏輯復雜,嵌套層級多時,查詢效率非常低,且對相同視圖的查詢都需要重新計算。因此我們需要對一些關鍵的視圖進行物化,物化后的視圖,在查詢時可以直接訪問其物化表,實現查詢性能的大幅提升。

數據邏輯化架構,會存在兩層,上層為由用戶定義的物理表以及虛擬視圖組成的邏輯層,對用戶感知;下層為物理表和系統自動生成的視圖物化表組成的物理層,對用戶不感知,具體如下圖所示:

數據邏輯化的架構分層數據邏輯化的架構分層

數據邏輯化的關鍵技術之一為視圖物化表的命中。當某個視圖存在物化表時,需要將對應查詢范圍的數據直接翻譯成物化表的查詢,而不去展開視圖查詢,以提升查詢性能。技術鏈路如下圖所示:

數據邏輯化的視圖物化命中改寫鏈路數據邏輯化的視圖物化命中改寫鏈路

另一項關鍵技術為視圖的物化策略與回收策略。系統需要定期通過算法識別出在滿足產出時效的前提下,整體計算和存儲成本最低的物化方案。例如下方案例:

數據邏輯化的視圖物化與回收策略數據邏輯化的視圖物化與回收策略

目前全域優化場景簡單且有效的算法有遺傳算法、模擬退火算法等。通過評估在一定存儲成本限制下,哪些視圖的物化組合,可以使用整體計算cost最低。

將數據虛擬化技術和ETL Agent能力結合,我們可以實現系統自托管的智能數據研發,即Galaxy智能化的L3階段。

責任編輯:武曉燕 來源: 得物技術
相關推薦

2020-04-20 13:30:34

商業模式物聯網平臺物聯網

2020-12-04 17:59:54

物聯網安全IoT

2022-04-21 11:52:16

零信任網絡安全

2020-06-08 17:26:35

TORRAS

2025-05-21 09:41:23

2020-06-17 10:52:52

物聯網新基建技術

2024-11-12 14:19:53

2021-08-17 10:13:19

大數據數字經濟數據技術

2020-11-30 15:04:23

大數據

2021-12-24 16:38:04

零信任

2024-12-23 13:55:34

2023-09-04 18:57:01

API接口數據中心

2024-02-05 13:28:00

Excel優化服務器

2023-06-29 08:22:43

數據Excel模板

2022-09-01 08:42:36

SQL數據項目

2023-08-24 07:33:28

2023-08-09 20:43:32

2023-07-07 19:26:50

自建DTS平臺

2025-04-28 09:35:36

點贊
收藏

51CTO技術棧公眾號

美女精品导航| 亚洲精品字幕在线观看| 精品国产一区二区三区四区| 日本大香伊一区二区三区| 亚洲成人一区二区三区| 99热这里只有精品9| 一本色道久久综合| 色噜噜狠狠狠综合曰曰曰| 日韩精品xxx| 视频二区不卡| 夜夜亚洲天天久久| 日本精品一区二区三区高清 久久 日本精品一区二区三区不卡无字幕 | 黄色一级视频免费看| 久久理论电影| 亚洲精品av在线播放| av在线网址导航| 亚洲精品88| 亚洲精选视频在线| 奇米视频888战线精品播放| 亚洲国产精品suv| 日本不卡中文字幕| 97精品视频在线| 国产一二三四区| 欧美久久综合网| 亚洲国产精久久久久久久| 亚洲a级黄色片| 韩国美女久久| 精品电影在线观看| 91精品国产毛片武则天| 97电影在线看视频| 99精品一区二区| 亚洲专区国产精品| 在线观看免费黄色小视频| 久久精品一区二区国产| 性欧美暴力猛交69hd| 男女男精品视频网站| 亚洲最好看的视频| 日韩黄色高清视频| 手机免费看av片| 综合中文字幕| 日韩一区二区三区精品视频 | 国产成人毛片| 欧美性猛交xxxxx免费看| 久久99久久久久久| 青草视频在线免费直播 | 国产日韩在线观看视频| 欧美亚洲日本国产| 亚洲精品中文字幕无码蜜桃| 中文字幕资源网在线观看免费 | 欧美大片免费观看在线观看网站推荐| 伊人影院综合网| 精品久久91| 亚洲一区www| 免费观看a级片| 欧美日韩国产免费观看视频| 国产一区二区三区在线视频| 中文字幕免费高清| 欧美久久综合网| 色婷婷综合成人| 制服丨自拍丨欧美丨动漫丨| 久久伦理在线| 欧美猛少妇色xxxxx| 欧美黑吊大战白妞| 精品99视频| 欧美一级大胆视频| 手机av免费观看| 久久精品国产色蜜蜜麻豆| 国产狼人综合免费视频| 国产乱人乱偷精品视频| 免费av网站大全久久| 国产日韩欧美一二三区| va视频在线观看| 国产ts人妖一区二区| 国产在线精品二区| 四虎精品成人免费网站| 日本一区二区视频在线| 伊人久久大香线蕉精品| 欧美一卡二卡| 欧美性猛xxx| 午夜剧场高清版免费观看| 精品一级视频| 亚洲激情免费观看| 青青青视频在线播放| 欧美在线亚洲| 日韩美女视频免费在线观看| 一区二区视频播放| 国产91对白在线观看九色| 久久精品国产一区二区三区不卡| 狠狠v欧美ⅴ日韩v亚洲v大胸| 中文字幕亚洲视频| 91午夜在线观看| 成人免费网站www网站高清| 91精品婷婷国产综合久久 | 亚洲国产日韩在线观看| 91亚洲国产成人精品一区二区三| 亚洲春色在线视频| 丁香花在线高清完整版视频| 欧美一a一片一级一片| 在线观看网站黄| 免费av一区二区三区四区| 久久精品亚洲国产| 五月天激情四射| 国产精品18久久久久久vr| 欧美激情论坛| 羞羞污视频在线观看| 色狠狠av一区二区三区| 久久久久久久久久久久国产精品| 国产在视频线精品视频www666| 久久影院免费观看| 91精品国产高清一区二区三密臀| 黑人巨大精品欧美一区| 欧洲高清一区二区| av影视在线| 91麻豆精品国产自产在线观看一区| 久久久久9999| 韩国亚洲精品| 91九色综合久久| 第一页在线观看| 天天综合网天天综合色| 中文字幕亚洲日本| 天天射综合网视频| 国产精品777| 外国精品视频在线观看 | 久久这里只有精品9| 成人avav在线| 最新av网址在线观看| 日本久久一区| 亚洲天堂免费在线| 国产成人无码精品亚洲| 国产成人综合自拍| 亚洲免费视频播放| 免费一区二区三区四区| 亚洲人在线视频| 日本视频网站在线观看| 9人人澡人人爽人人精品| 欧美 亚洲 视频| 国产精区一区二区| 日韩中文字幕不卡视频| а中文在线天堂| 久久精品亚洲一区二区三区浴池| 乱人伦xxxx国语对白| 国产精品45p| 欧美激情视频在线免费观看 欧美视频免费一 | 国产99在线 | 亚洲| 日韩中文字幕1| 欧美在线视频一区二区三区| 26uuu亚洲电影| 亚洲美女视频网| 亚洲欧美综合另类| 成人黄色大片在线观看 | 国产成人日日夜夜| 国产精品一区在线免费观看| 精品国产一区二区三区性色av | 午夜69成人做爰视频| 国产一区二区三区黄视频| 成年人黄色在线观看| 成人综合日日夜夜| 欧美精品免费播放| 亚洲欧美高清视频| 偷拍亚洲欧洲综合| 精品久久久久久中文字幕人妻最新| 亚洲欧美日韩国产一区二区| 欧美精品欧美精品| 91超碰碰碰碰久久久久久综合| 宅男66日本亚洲欧美视频| 在线观看国产黄| 亚洲精品成人精品456| 亚洲图片欧美另类| 老鸭窝毛片一区二区三区| 午夜精品一区二区在线观看的| 黄色精品视频| 久久国产精品电影| 免费观看a视频| 一本大道综合伊人精品热热| 波多野结衣家庭教师在线观看| 国产精品一区二区视频| 日韩视频在线视频| 禁果av一区二区三区| 91情侣偷在线精品国产| www视频在线观看| 亚洲一区999| 性做久久久久久久久久| 日韩欧美福利视频| 日本精品在线免费观看| 99精品视频中文字幕| 在线观看免费视频高清游戏推荐| 亚洲蜜桃视频| 久久久久资源| 国产精品国产亚洲精品| 91av在线免费观看| 日本高清视频在线观看| 亚洲精品在线观看视频| 日韩av免费播放| 亚洲一区二区三区在线| mm131丰满少妇人体欣赏图| 激情欧美一区二区三区在线观看| 黄色国产一级视频| 亚洲精品在线观看91| 久久精品日韩精品| 国产高清视频一区二区| 日产精品久久久一区二区福利 | 欧美一级淫片播放口| 免费a在线看| 亚洲美女自拍视频| www.蜜臀av| 精品视频一区三区九区| 久久精品久久精品久久| 中文字幕一区二区三区色视频| 99久久免费看精品国产一区| 国内精品视频一区二区三区八戒| 黄www在线观看| 国产精品www.| 老汉色影院首页| sdde在线播放一区二区| 精品欧美日韩| 中文字幕区一区二区三| 国产日韩欧美在线视频观看| 欧美日韩免费看片| 97在线视频观看| 污片视频在线免费观看| 久久夜色精品亚洲噜噜国产mv| 黄色影院在线播放| 亚洲男人的天堂在线播放| 亚洲欧美另类视频| 欧美一区二区三区免费在线看| 少妇一级淫片日本| 色哟哟日韩精品| 久久亚洲天堂网| 香蕉成人伊视频在线观看| 综合五月激情网| 国产精品私人影院| www.av天天| 久久久精品综合| 极品人妻一区二区三区| 99久免费精品视频在线观看| 欧美xxxx黑人| 国产成人自拍网| 免费高清视频在线观看| 国产美女av一区二区三区| 想看黄色一级片| 国产一区日韩二区欧美三区| 九九热99视频| 九九在线精品视频| 中文字幕视频三区| 精品一区二区免费看| 天堂视频免费看| 狠狠色狠狠色合久久伊人| 中文字幕成人在线视频| 经典三级在线一区| 亚洲天堂网站在线| 国产成人午夜精品影院观看视频 | 亚欧日韩另类中文欧美| 激情视频在线观看一区二区三区| 成人春色在线观看免费网站| 国产精品久久久久久久久久直播| youjizz亚洲| 九九九九久久久久| 精品理论电影| 中文字幕中文字幕在线中心一区| 偷偷www综合久久久久久久| 99亚洲精品视频| 激情婷婷欧美| 久久无码高潮喷水| 日韩1区2区3区| 亚洲综合激情视频| 国产成人一区在线| 800av在线播放| 国产喷白浆一区二区三区| 99精品中文字幕| 一区二区三区高清不卡| 日韩黄色一级大片| 欧美在线短视频| 国产精品亚洲lv粉色| 精品国产乱码久久久久久影片| 亚洲AV成人无码一二三区在线| 夜夜嗨av色综合久久久综合网| 麻豆av在线导航| 国模精品视频一区二区三区| 伊人久久精品一区二区三区| 国产精品中文字幕在线| 97se亚洲国产一区二区三区| 精品国产综合| 欧美国产美女| 国产96在线 | 亚洲| 丝袜亚洲另类丝袜在线| 91亚洲一区二区| 久久综合中文字幕| www.97视频| 懂色av中文一区二区三区天美 | a成人v在线| 91在线播放视频| 精品久久久久久久久久久下田| 成人手机在线播放| 久久久精品午夜少妇| 国产在线观看中文字幕| 91在线视频在线| 影音先锋男人资源在线观看| 天天综合色天天综合| 怡春院在线视频| 亚洲国产成人av在线| 香蕉视频在线看| 欧美性一区二区三区| 久久久久久亚洲精品美女| 欧美精品欧美精品系列c| 欧美在线亚洲综合一区| 亚洲最大综合网| 99久久99久久精品免费看蜜桃| 国产精品国产三级国产传播| 日韩欧美中文在线| 亚洲AV无码一区二区三区少妇| 一道本无吗dⅴd在线播放一区| xxxcom在线观看| 91久久久在线| 成人亚洲一区二区| 欧美日韩黄色一级片| 国产成人综合在线观看| 美国一级片在线观看| 一本大道综合伊人精品热热| 日本成人动漫在线观看| 久久精品国产亚洲一区二区| 天天综合网站| 麻豆精品视频| 99精品热6080yy久久| 中文字幕在线播放一区二区| 中文字幕亚洲综合久久菠萝蜜| 国产精品午夜一区二区| 日韩美女av在线| 台湾佬中文娱乐网欧美电影| 国产精品久久久久久久久婷婷| 欧美福利电影在线观看| 日韩视频在线观看一区二区三区| 中文字幕第一页久久| 日韩黄色片网站| 亚洲欧美综合v| 中文字幕在线高清| 另类视频在线观看+1080p| 亚洲精品社区| 日韩成人av一区二区| 亚洲福利视频三区| 免费成人在线看| 2019最新中文字幕| 秋霞在线一区| 欧美女人性生活视频| 久久久久99精品一区| 岛国av中文字幕| 一区二区日韩精品| 视频在线日韩| 亚洲v欧美v另类v综合v日韩v| 日韩一区精品字幕| www.4hu95.com四虎| 欧美日韩免费观看一区三区| 永久av在线| 91精品在线看| 国产精品a久久久久| 四虎永久免费观看| 精品久久久久久久久国产字幕| 日韩在线观看视频一区二区三区| 亚州精品天堂中文字幕| 亚洲va久久| 九九热在线免费| 亚洲四区在线观看| 懂色av蜜臀av粉嫩av分享吧| 97人人爽人人喊人人模波多| 亚洲最大在线| av在线网址导航| 夜夜嗨av一区二区三区| 手机看片福利永久| 国产suv精品一区二区三区88区| 第一sis亚洲原创| 一级日本黄色片| 天天综合网天天综合色| www.在线播放| 91成人免费看| 国产精品久久久久9999高清| 久久美女免费视频| 91精品在线观看入口| 国产激情在线播放| 日韩精品一区二区三区四区五区| 久久超碰97中文字幕| 国产在线观看免费视频今夜| 亚洲欧洲成视频免费观看| 欧美少妇激情| 日本免费黄色小视频| www国产精品av| 国产精品探花视频| 2019亚洲男人天堂| 午夜激情久久| 男男做爰猛烈叫床爽爽小说 | 欧美人体大胆444www| 成人激情黄色网| 国产欧美成人| 日本精品在线免费观看| 亚洲精品网址在线观看| 高清在线一区二区| 国产精品涩涩涩视频网站| 亚洲精品ww久久久久久p站| 男操女在线观看| 成人精品一二区| 久久成人免费网| 日日夜夜综合网|