Databricks決定開源其Delta Lake數(shù)據(jù)湖
為了消除 Databricks 競爭對手的疑慮,Databricks 周二表示,它正在開源所有 Delta Lake API,作為 Delta Lake 2.0 版本的一部分。該公司還宣布將把 Delta Lake 的所有增強功能貢獻給 Linux 基金會。

Cloudera、Dremio、谷歌(Big Lake)、微軟、甲骨文、SAP、AWS Snowflake、HPE(Ezmeral)和 Vertica 等 Databricks的競爭對手對該公司提出了批評,質(zhì)疑 Delta Lake 是開源的還是專有的,因此搶走了一定份額的潛在客戶。
Ventana Research 研究總監(jiān)馬特·阿斯萊特(Matt Aslett)說:“新公告應該為用戶提供連續(xù)性和清晰度,并有助于消除關于 Delta Lake 是專有還是開源的混淆(部分由競爭對手引發(fā))。”
Constellation Research 首席分析師 Doug Henschen 表示,隨著這些公告的發(fā)布,Databricks 正在消除客戶的擔憂和競爭性批評。
“在競爭性交易中,Snowflake 等競爭對手會向潛在客戶指出 Delta Lake 的某些方面是專有的,”Henschen 說,并補充說 Databricks 客戶可以相信他們的數(shù)據(jù)在一個開放平臺上,而不是鎖定在 Delta Lake 中。
Databricks 將 Delta Lake 稱為數(shù)據(jù)庫湖,一種同時提供存儲和分析功能的數(shù)據(jù)架構,這與以原生格式存儲數(shù)據(jù)的數(shù)據(jù)湖和存儲結構化數(shù)據(jù)(通常以 SQL 格式)的數(shù)據(jù)倉庫的概念形成對比。
商業(yè)開源市場競爭加劇
隨著數(shù)據(jù)湖市場上的商業(yè)開源項目越來越多,Databricks 的 Delta Lake 會發(fā)現(xiàn)自己面臨新的競爭,包括為超大型分析表提供高性能查詢的 Apache Iceberg。
“還有一些開源項目最近開始商業(yè)化,例如用于 Apache Hudi 的 OneHouse 以及 Starburst 和 Dremio 都推出了他們的 Apache Iceberg 產(chǎn)品,”Amalgam Insights 首席分析師 Hyoun Park 說。“隨著這些產(chǎn)品的推出,Delta Lake 面臨著來自其他開源 Lakehouse 格式的壓力,因為 Lakehouse 市場開始分裂并且技術人員有多種選擇,因此在功能上變得更加強大,”Park 補充道。
Ventana 的 Aslett 說,該領域的許多其他參與者都專注于 Apache Iceberg 作為 Delta Lake 表的替代品。與以行和列存儲數(shù)據(jù)的傳統(tǒng)表相比,Delta 表可以使用 ACID(原子性、一致性、隔離性和持久性)事務來存儲元數(shù)據(jù),并幫助加快數(shù)據(jù)導入。
4 月,Google 宣布支持 Big Lake 和 Iceberg,本月早些時候,Snowflake 宣布在私人預覽版中支持 Apache Iceberg 表。Henschen 說,與 Databricks 的開源戰(zhàn)略一樣,Iceberg 的公告旨在吸引潛在客戶,這些客戶可能擔心向一家供應商承諾,以及未來可能無法訪問自己的數(shù)據(jù)。
Gartner 前研究副總裁 Sanjeev Mohan 表示,面對新的競爭,Databricks 轉(zhuǎn)向開源 Delta Lake 是一個很好的舉措。
Delta Lake 2.0 提供更快的查詢性能
該公司表示,Databricks 的 Delta Lake 2.0 將于今年晚些時候全面推出,預計將為數(shù)據(jù)分析提供更快的查詢性能。
Databricks 周二還發(fā)布了第二版 MLflow——一個用于管理端到端機器學習生命周期 (MLOps) 的開源平臺。該公司表示,MLflow 2.0 附帶 MLflow Pipelines,它為數(shù)據(jù)科學家提供基于他們正在構建的模型類型的預定義、生產(chǎn)就緒模板,使他們能夠加速模型開發(fā),而無需生產(chǎn)工程師的干預。
據(jù)分析師稱,MLflow 2.0 將成為數(shù)據(jù)科學家更成熟的選擇,因為機器學習生產(chǎn)仍然是一個具有挑戰(zhàn)性的過程,并且將算法模型轉(zhuǎn)換為安全管理資源上的生產(chǎn)級應用程序代碼仍然很困難。
“這個領域有許多供應商解決方案,包括 Amazon Sagemaker、Azure 機器學習、谷歌云 AI、Datarobot、Domino Data、Dataiku 和 Iguazio。但與超大規(guī)模和 Databricks 的統(tǒng)一方法相比,Databricks 是一個中立的供應商數(shù)據(jù)和模型管理是 MLOps 供應商的一個差異化因素,這些供應商專注于模型操作化的編碼和生產(chǎn)挑戰(zhàn),”Amalgam 的 Park 說。
Henschen 表示,發(fā)布 MLflow 2.0 的舉措簡化了將流式傳輸和流式分析引入生產(chǎn)數(shù)據(jù)管道的途徑,并補充說,許多公司在 MLOps 方面遇到了困難,即使在成功創(chuàng)建機器學習模型后也會失敗。






























