邁向現(xiàn)代數(shù)據(jù)平臺(tái)的兩個(gè)步驟
在構(gòu)建數(shù)據(jù)科學(xué)產(chǎn)品時(shí),一個(gè)重要的方面是讓您的數(shù)據(jù)可用并準(zhǔn)備使用。您需要一個(gè)平臺(tái)將數(shù)據(jù)帶到一起,并在整個(gè)公司中服務(wù)。但是你如何發(fā)展這樣一個(gè)數(shù)據(jù)平臺(tái)?閱讀數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)湖泊,湖泊和數(shù)據(jù)網(wǎng)格時(shí),很容易丟失。它們是如何不同的,什么應(yīng)該是第一步?
不同的數(shù)據(jù)平臺(tái)解決方案
> Databricks’ perspective on DWH vs Data Lake vs Lakehouse
數(shù)據(jù)平臺(tái)是將數(shù)據(jù)帶到整個(gè)公司中的數(shù)據(jù)的環(huán)境。數(shù)據(jù)倉(cāng)庫(kù)是第一個(gè)企業(yè)中央數(shù)據(jù)平臺(tái)。但是,隨著各種數(shù)據(jù)格式和源,它們并不足夠靈活。引入數(shù)據(jù)湖可以容易地從任何源以任何格式存儲(chǔ)原始數(shù)據(jù)。這是通過(guò)推遲模式創(chuàng)建和數(shù)據(jù)解釋來(lái)實(shí)現(xiàn)的,直到實(shí)際使用數(shù)據(jù)。這些湖泊經(jīng)常轉(zhuǎn)向所謂的數(shù)據(jù)沼澤,在那里沒(méi)有人能夠有效地真正使用數(shù)據(jù)。添加了所有數(shù)據(jù),但沒(méi)有準(zhǔn)備對(duì)數(shù)據(jù)進(jìn)行使用。繼任者是LakeHouse,數(shù)據(jù)湖與數(shù)據(jù)庫(kù)工具相結(jié)合,以輕松創(chuàng)建數(shù)據(jù)的可用視圖。替代方案是數(shù)據(jù)網(wǎng),它不會(huì)集中數(shù)據(jù),但是利用多個(gè)分散的數(shù)據(jù)環(huán)境,以更好地跨團(tuán)隊(duì)進(jìn)行規(guī)模。我稍后會(huì)更徹底地覆蓋數(shù)據(jù)網(wǎng)格。
但首先,讓我們看看我們實(shí)際解決的問(wèn)題。這些不同數(shù)據(jù)平臺(tái)的驅(qū)動(dòng)程序是什么?我將從烏托邦理想開(kāi)始,我們正在追逐,繼續(xù)在實(shí)踐中出現(xiàn)的平臺(tái),并用你可以采取的兩步包裝。在數(shù)據(jù)平臺(tái)方向上的兩個(gè)步驟,使機(jī)器學(xué)習(xí)解決方案,授權(quán)數(shù)據(jù)科學(xué)家,并分享內(nèi)部工作方式。
烏托邦理想
如果來(lái)自所有部門的所有數(shù)據(jù),則不會(huì)很容易訪問(wèn)。從一個(gè)中心位置訪問(wèn),使您的所有數(shù)據(jù)科學(xué)家們可以在需要時(shí)獲得所需的數(shù)據(jù)。他們可以專注于先進(jìn)的機(jī)器學(xué)習(xí),而數(shù)據(jù)工程師可以確保數(shù)據(jù)已準(zhǔn)備好使用。
讓我們見(jiàn)面Jane,我們的專家數(shù)據(jù)科學(xué)家。她正在開(kāi)發(fā)一個(gè)新的數(shù)據(jù)科學(xué)產(chǎn)品:收入預(yù)測(cè)。中央數(shù)據(jù)平臺(tái)提供了客戶,產(chǎn)品和銷售的所有數(shù)據(jù)。Jane在平臺(tái)中構(gòu)建完整數(shù)據(jù)集并將其加載到她的Jupyter Lab環(huán)境中。在與模型的目標(biāo)與業(yè)務(wù)的一系列對(duì)齊之后,她很快開(kāi)發(fā)了模型的第一版。
因此,該平臺(tái)提供了科學(xué)家需要開(kāi)發(fā)她的模型的一切,包括數(shù)據(jù),計(jì)算和工作環(huán)境。平臺(tái)開(kāi)發(fā)人員(云和數(shù)據(jù)工程師)確保它是可擴(kuò)展,實(shí)時(shí)和性能的。它們還提供數(shù)據(jù)譜系,數(shù)據(jù)治理和元數(shù)據(jù)等附加服務(wù)??茖W(xué)家們完全賦予了工程困難。這在視覺(jué)上表示如下:
> Utopian world: Single data platform taking care of all the data issues. Image by author.
在左側(cè),各個(gè)部門使用相應(yīng)的數(shù)據(jù)運(yùn)行其應(yīng)用程序。在技術(shù)產(chǎn)品公司中,這包括在特定領(lǐng)域努力的團(tuán)隊(duì)。數(shù)據(jù)可以居住在任何存儲(chǔ)中:MS Excel文件,數(shù)據(jù)庫(kù),CSV文件,Kafka主題,云桶,您將其命名為。
在中間,數(shù)據(jù)平臺(tái)團(tuán)隊(duì)提取該數(shù)據(jù),并將其加載到數(shù)據(jù)湖的著陸區(qū)。第一步是標(biāo)準(zhǔn)化日期和數(shù)字格式和列名稱的方面。這可以包括為歷史觀點(diǎn)拍攝數(shù)據(jù)的快照。生成的數(shù)據(jù)集收集存儲(chǔ)在所謂的“暫存”圖層中。然后將數(shù)據(jù)組合并放置在靜電層中。策級(jí)層是包含相干數(shù)據(jù)集,唯一標(biāo)識(shí)符和清晰關(guān)系的數(shù)據(jù)存儲(chǔ)。因此,我將此稱為DWH(數(shù)據(jù)倉(cāng)庫(kù))。但是,它可以是任何可用存儲(chǔ),包括大規(guī)模云數(shù)據(jù)庫(kù)(BigQuery),Hive表,Blob存儲(chǔ)(S3)或Delta Lake Parquet文件。該策級(jí)層的目標(biāo)是提供易于使用所有數(shù)據(jù)的總視圖。
在右側(cè),數(shù)據(jù)科學(xué)團(tuán)隊(duì)使用平臺(tái)的工作環(huán)境和數(shù)據(jù)集來(lái)解決它們的用例。
當(dāng)這不起作用
理想的聲音很棒。不幸的是,簡(jiǎn)的真實(shí)體驗(yàn)略有不同:
Jane需要一些額外的數(shù)據(jù)集可以在數(shù)據(jù)平臺(tái)上提供。為了獲得頭部開(kāi)始,金融部門為初步分析提供了一些CSV出口。簡(jiǎn)探測(cè)了預(yù)測(cè)需要在產(chǎn)品組上報(bào)告,而這些數(shù)據(jù)是在各個(gè)產(chǎn)品上。在幾個(gè)會(huì)議之后,她了解哪些內(nèi)部產(chǎn)品名稱屬于哪些組。產(chǎn)品的收入在組件中分開(kāi),部分是基礎(chǔ)產(chǎn)品,部分是附加組件。折扣是另一個(gè)故事;因?yàn)樗鼈儚目傎~單中減去了,因此歸屬變得有點(diǎn)棘手。另一個(gè)驚喜。三個(gè)月前公共產(chǎn)品煥然一新,重命名,結(jié)合一些舊的利基產(chǎn)品。隨著一些困難而且只丟棄最小的數(shù)據(jù),她管理將舊數(shù)據(jù)與大多數(shù)類似的新產(chǎn)品匹配。
管理數(shù)據(jù)平臺(tái)的數(shù)據(jù)工程師呢?好吧,他們只是入門:
最后,拾取了數(shù)據(jù)工程機(jī)票,數(shù)據(jù)工程師開(kāi)始提取,加載和轉(zhuǎn)換各種數(shù)據(jù)集。第一個(gè)步驟很容易,但現(xiàn)在他們需要在數(shù)據(jù)上創(chuàng)建可用視圖。他們需要與各種(可能)未來(lái)的用戶交談以了解哪些轉(zhuǎn)變很重要。他們與簡(jiǎn)言組織了一些細(xì)化會(huì)議。然后他們需要返回?cái)?shù)據(jù)產(chǎn)生部門以弄清楚數(shù)據(jù)實(shí)際意味著什么,以及它如何映射到區(qū)域。該部門忙于一些新的內(nèi)部產(chǎn)品。因此,他們將數(shù)據(jù)工程師轉(zhuǎn)發(fā)給數(shù)據(jù)科學(xué)團(tuán)隊(duì),這顯然已經(jīng)完成了一些準(zhǔn)備工作。
簡(jiǎn)而言之,這不是非常順利的。
有一些關(guān)鍵問(wèn)題:
- 數(shù)據(jù)科學(xué)家需要能夠創(chuàng)建使用情況特定的轉(zhuǎn)換。
- 平臺(tái)團(tuán)隊(duì)需要準(zhǔn)備他們不擁有的域的數(shù)據(jù),以便于使用案例他們無(wú)法正常工作。
- 數(shù)據(jù)平臺(tái)團(tuán)隊(duì)成為數(shù)據(jù)科學(xué)家團(tuán)隊(duì)的瓶頸。
由此產(chǎn)生的解決方法
為了能夠解釋和轉(zhuǎn)換與特定用例相關(guān)的高度詳細(xì)數(shù)據(jù),您需要很多域知識(shí)。每個(gè)用例還需要特定的數(shù)據(jù)準(zhǔn)備。因此,數(shù)據(jù)工程師可以只做數(shù)據(jù)科學(xué)家所需的一部分。雖然數(shù)據(jù)科學(xué)家潛入商業(yè)案例,但他們獲得了很多域名知識(shí)。這使它們能夠準(zhǔn)備數(shù)據(jù)。
這導(dǎo)致以下解決方法:
> Extra data storage within the data science teams. Image by author.
數(shù)據(jù)科學(xué)團(tuán)隊(duì)現(xiàn)在將數(shù)據(jù)從中央數(shù)據(jù)平臺(tái)轉(zhuǎn)換為其模型培訓(xùn)的準(zhǔn)備。盡管數(shù)據(jù)平臺(tái)理想地提供完全可用的數(shù)據(jù)集,但實(shí)際上它太簡(jiǎn)單,對(duì)所有客戶來(lái)說(shuō)都不足夠了。
這種新的情況有一些好處:
- 數(shù)據(jù)科學(xué)家變得更加自我。
- 數(shù)據(jù)工程師不必為組織中的每個(gè)人創(chuàng)建視圖。它們可以專注于數(shù)據(jù)的標(biāo)準(zhǔn)化接口。
- 數(shù)據(jù)工程師可以專注于保持?jǐn)?shù)據(jù)最近并提供良好的訪問(wèn)方法。
但是,有些事情仍然出了問(wèn)題:
- 數(shù)據(jù)科學(xué)家的數(shù)據(jù)集及其生產(chǎn)流水線與數(shù)據(jù)平臺(tái)具有相同的標(biāo)準(zhǔn)。它們不會(huì)監(jiān)視,并不適用于失敗,并且任務(wù)調(diào)度并不標(biāo)準(zhǔn)化。
- 通過(guò)更分散的轉(zhuǎn)換,多個(gè)數(shù)據(jù)科學(xué)團(tuán)隊(duì)正在重新發(fā)明眾所周知的輪子。
新的理想:數(shù)據(jù)網(wǎng)格
稍后,已經(jīng)出現(xiàn)了數(shù)據(jù)網(wǎng)格的概念(請(qǐng)參閱此有趣的博客文章和此操作。數(shù)據(jù)來(lái)自組織中的多個(gè)位置。數(shù)據(jù)網(wǎng)格而不是創(chuàng)建所有組合數(shù)據(jù)的單個(gè)表示,而不是創(chuàng)建所有組合數(shù)據(jù)的單個(gè)表示。為了使數(shù)據(jù)公司廣泛可用,每個(gè)團(tuán)隊(duì)的數(shù)據(jù)也被視為該團(tuán)隊(duì)的產(chǎn)品。該公司的團(tuán)隊(duì)還要注意創(chuàng)建其數(shù)據(jù)的可用意見(jiàn)。在這種情況下,機(jī)器學(xué)習(xí)(ML)產(chǎn)品團(tuán)隊(duì)(數(shù)據(jù)科學(xué)家)還將將其轉(zhuǎn)換的數(shù)據(jù)作為產(chǎn)品提供給其他數(shù)據(jù)科學(xué)家。他們從各種其他產(chǎn)品團(tuán)隊(duì)中獲取自己的數(shù)據(jù)。因此,每個(gè)產(chǎn)品團(tuán)隊(duì)(或團(tuán)隊(duì)團(tuán)隊(duì))不僅開(kāi)發(fā)了他們的產(chǎn)品,而且還向其他團(tuán)隊(duì)提供了可用的景色。在我解釋的是優(yōu)勢(shì)之前,讓我畫出新的情況:
> A data mesh approach. Image by author.
在左側(cè),部門或產(chǎn)品團(tuán)隊(duì)將通用數(shù)據(jù)作為服務(wù)提供。雖然一組規(guī)范化表(DWH)是一種可能性,但它也可以包括事件流(Kafka)或Blob存儲(chǔ)。這需要產(chǎn)品團(tuán)隊(duì)中的更多數(shù)據(jù)工程功能。而不是帶有數(shù)據(jù)工程師的中央團(tuán)隊(duì),數(shù)據(jù)工程師現(xiàn)在正在分布在所有產(chǎn)品團(tuán)隊(duì)中,包括分析和ML團(tuán)隊(duì)。
在中間,中央數(shù)據(jù)平臺(tái)已從數(shù)據(jù)產(chǎn)品團(tuán)隊(duì)(要求域知識(shí))更改為數(shù)據(jù)平臺(tái)作為服務(wù)團(tuán)隊(duì)(需要技術(shù)知識(shí))。他們開(kāi)發(fā)內(nèi)部平臺(tái),授權(quán)所有團(tuán)隊(duì)創(chuàng)建自己的數(shù)據(jù)存儲(chǔ)實(shí)例,功能存儲(chǔ),數(shù)據(jù)處理,數(shù)據(jù)譜系,調(diào)度,過(guò)程監(jiān)控,模型工件,模型服務(wù)實(shí)例等。因此,先前數(shù)據(jù)平臺(tái)團(tuán)隊(duì)的所有技術(shù)技能都用于創(chuàng)建工具。這樣,每個(gè)團(tuán)隊(duì)都可以成為自己(小規(guī)模)數(shù)據(jù)平臺(tái)團(tuán)隊(duì)。這確保了整個(gè)公司的工作和高標(biāo)準(zhǔn)的統(tǒng)一方式。
在右側(cè),數(shù)據(jù)科學(xué)團(tuán)隊(duì)不僅是數(shù)據(jù)的消費(fèi)者,還不僅是數(shù)據(jù)的制作者。他們的特征工程和數(shù)據(jù)宣傳的結(jié)果與其他數(shù)據(jù)科學(xué)團(tuán)隊(duì)共享。
這有很多好處:
- 在域知識(shí)是創(chuàng)建的轉(zhuǎn)換。
- 數(shù)據(jù)平臺(tái)團(tuán)隊(duì)瓶頸被刪除。
- 自給自足的產(chǎn)品團(tuán)隊(duì)。
挑戰(zhàn)是:
- 將中心平臺(tái)設(shè)置為服務(wù)團(tuán)隊(duì)。
- 防止新的中央數(shù)據(jù)平臺(tái)成為成為新瓶頸的服務(wù)團(tuán)隊(duì)。
- 以共同的工作方式將所有團(tuán)隊(duì)納入這種新方法。
在此設(shè)置中,中央平臺(tái)作為服務(wù)團(tuán)隊(duì)(或團(tuán)隊(duì))具有關(guān)鍵作用。它們以簡(jiǎn)單的自行服務(wù)方式設(shè)置并提供基礎(chǔ)架構(gòu)和軟件服務(wù)。當(dāng)他們創(chuàng)建平臺(tái)作為服務(wù)時(shí),該團(tuán)隊(duì)不需要大量的域特定知識(shí)。它只專注于技術(shù)方面,使其成為可重復(fù)的,并與所有團(tuán)隊(duì)分享解決方案。這促進(jìn)設(shè)置尺度非常好!我的同事Ruurtjan陣列在這個(gè)博客中展示了如何從團(tuán)隊(duì)成分角度來(lái)實(shí)現(xiàn)縮放。然而,有一個(gè)大風(fēng)險(xiǎn):采取瀑布方法。
數(shù)據(jù)網(wǎng)格方法解決了與數(shù)據(jù)重用相關(guān)的域知識(shí)的難度。這是通過(guò)將數(shù)據(jù)的責(zé)任移動(dòng)到生產(chǎn)和使用該數(shù)據(jù)的團(tuán)隊(duì)的責(zé)任來(lái)完成。而不是擁有所有數(shù)據(jù)的中央團(tuán)隊(duì),我們現(xiàn)在需要一個(gè)中央團(tuán)隊(duì),以方便所有團(tuán)隊(duì)管理他們的數(shù)據(jù)。
陷阱是在讓這個(gè)中央團(tuán)隊(duì)開(kāi)始和運(yùn)行時(shí)采取瀑布方法。在船上之前,不要?jiǎng)?chuàng)建所有必需的基礎(chǔ)架構(gòu)和服務(wù)。只要沒(méi)有使用服務(wù)的單一團(tuán)隊(duì),就沒(méi)有增加值。因此,您需要迭代地增長(zhǎng)和改善服務(wù),而團(tuán)隊(duì)則可以使用它。
第二個(gè)風(fēng)險(xiǎn)是使平臺(tái)成為服務(wù)團(tuán)隊(duì)決定了工作方式。這將使團(tuán)隊(duì)成為整個(gè)公司的瓶頸。在敏捷和迭代的方法中,一些團(tuán)隊(duì)需要新的工具或服務(wù),該服務(wù)尚未為公司采用準(zhǔn)備好生產(chǎn)。作為服務(wù)團(tuán)隊(duì)的平臺(tái),而不是限制那些早期的采用者,而是應(yīng)該允許和賦予新工具和服務(wù)的發(fā)現(xiàn)和試驗(yàn)。讓他們授權(quán)產(chǎn)品團(tuán)隊(duì)并加入軍隊(duì)。這將為兩支球隊(duì)提供分享工具和服務(wù)的經(jīng)驗(yàn)進(jìn)一步跨本公司。
是否可以轉(zhuǎn)換到數(shù)據(jù)網(wǎng)?是否有可能在中央數(shù)據(jù)平臺(tái)和數(shù)據(jù)網(wǎng)之間具有內(nèi)容?我們?nèi)绾蝿?wù)實(shí)地采取第一步?我們盡快收獲盡快收益。在一個(gè)針對(duì)您組織的基礎(chǔ)架構(gòu)功能上量身定制的解決方案中。此帖子的其余部分將解釋如何轉(zhuǎn)換到可實(shí)現(xiàn)機(jī)器學(xué)習(xí)解決方案,授權(quán)數(shù)據(jù)科學(xué)家的數(shù)據(jù)平臺(tái)的轉(zhuǎn)換,并分享內(nèi)部工作方式。
第一步:輕量級(jí)的中央數(shù)據(jù)平臺(tái)
您可以創(chuàng)建該數(shù)據(jù)平臺(tái)的第一步是什么?不幸的是,沒(méi)有餅干刀模板。該方法應(yīng)依賴于具體情況,包括現(xiàn)有的技術(shù)堆棧,可用技能和能力,流程和一般Devops以及MLOPS成熟。我可以給你通用的建議,希望有一個(gè)有用的滲透率。
一種方法是將以前版本的優(yōu)勢(shì)與未來(lái)的墊腳石結(jié)合起來(lái),更高級(jí)版本(如數(shù)據(jù)網(wǎng)格):
- 數(shù)據(jù)工程師專注于提取和負(fù)載,變換最小。
- 域特定(數(shù)據(jù)科學(xué))團(tuán)隊(duì)專注于高級(jí)轉(zhuǎn)換。
- 工具應(yīng)提供授權(quán)團(tuán)隊(duì)。
該方法是創(chuàng)建一個(gè)輕量級(jí)的中央數(shù)據(jù)平臺(tái),包括以下步驟:
- 使用特定用例拍攝一個(gè)數(shù)據(jù)科學(xué)團(tuán)隊(duì)。
- 設(shè)置一支團(tuán)隊(duì),包括平臺(tái)工程師和數(shù)據(jù)工程師。
- 該平臺(tái)工程師提供數(shù)據(jù)科學(xué)團(tuán)隊(duì),其中包含分析環(huán)境,包含至少存儲(chǔ)和處理。
- 數(shù)據(jù)工程師從源表中加載原始數(shù)據(jù),添加基本標(biāo)準(zhǔn)化轉(zhuǎn)換,并將其提供給使用案例團(tuán)隊(duì)。與平臺(tái)工程師一起,他們創(chuàng)造了所需的服務(wù)。
- 數(shù)據(jù)科學(xué)家與數(shù)據(jù)平臺(tái)工程師合作,在調(diào)度,運(yùn)行和運(yùn)行數(shù)據(jù)轉(zhuǎn)換,模型訓(xùn)練循環(huán)和模型服務(wù)時(shí),可以成為自我。他們與數(shù)據(jù)工程師合作,專業(yè)化其數(shù)據(jù)轉(zhuǎn)換。
在這種情況下,數(shù)據(jù)科學(xué)家仍然必須做很多數(shù)據(jù)播種。但是,我們接受它而不是假設(shè)不會(huì)發(fā)生,而是為他們提供最佳工作的工具。
這種方法的一個(gè)關(guān)鍵方面是從一個(gè)用例開(kāi)始焦點(diǎn)。數(shù)據(jù)工程師,平臺(tái)工程師和數(shù)據(jù)科學(xué)家首先解決這一案例。與此同時(shí),他們?cè)谏院箝_(kāi)發(fā)必要的工具方面獲得經(jīng)驗(yàn)。
結(jié)果如下:
> A lightweight data platform, as a step toward the data mesh. Image by author.
在左側(cè),我們保留了原始情況,部門或產(chǎn)品團(tuán)隊(duì)只是開(kāi)發(fā)或運(yùn)營(yíng)生產(chǎn)實(shí)例。這限制了公司廣泛的變化。
在中間,數(shù)據(jù)工程師專注于具有高質(zhì)量管道的輕量級(jí)數(shù)據(jù)建模。他們主要有助于加載數(shù)據(jù),并提供標(biāo)準(zhǔn)化的訪問(wèn)方法。他們具有強(qiáng)大的技術(shù)焦點(diǎn),包括基礎(chǔ)設(shè)施和服務(wù)。
在右側(cè),數(shù)據(jù)科學(xué)團(tuán)隊(duì)專注于根據(jù)所有必需的域知識(shí)創(chuàng)建數(shù)據(jù)產(chǎn)品。他們通過(guò)從客戶(使用他們的數(shù)據(jù)產(chǎn)品)和上游數(shù)據(jù)來(lái)源的團(tuán)隊(duì)來(lái)獲得所述域知識(shí)。他們運(yùn)行所有必需的分析和轉(zhuǎn)換,同時(shí)由平臺(tái)作為服務(wù)團(tuán)隊(duì)支持。他們有一個(gè)強(qiáng)大的領(lǐng)域和用例焦點(diǎn)。
在底部,平臺(tái)作為服務(wù)團(tuán)隊(duì)的工作組件創(chuàng)建可重用組件。因此,他們具有技術(shù)焦點(diǎn)。他們?yōu)榫哂杏蛎裹c(diǎn)的數(shù)據(jù)科學(xué)團(tuán)隊(duì)提供服務(wù)。作為服務(wù)團(tuán)隊(duì)的平臺(tái)應(yīng)由其要求推動(dòng)。
下一步:跨團(tuán)隊(duì)擴(kuò)展和分享
下一步是擴(kuò)展??梢栽诟鞣N維度上完成縮放,包括獲取更多源數(shù)據(jù)集,接入更多的數(shù)據(jù)科學(xué)團(tuán)隊(duì),或者將更多的授權(quán)平臺(tái)添加為服務(wù)(思考要素存儲(chǔ),型號(hào),依此類推)。同樣,這些選擇取決于情況。
目前,讓我們參加一個(gè)典型的步驟:接入更多數(shù)據(jù)科學(xué)團(tuán)隊(duì)。第一支球隊(duì)的登上隊(duì)確保了發(fā)達(dá)的服務(wù)很有用。第一個(gè)團(tuán)隊(duì)是推出的客戶。作為服務(wù)團(tuán)隊(duì)的平臺(tái)確保了良好的市場(chǎng)適合內(nèi)部客戶。下一個(gè)團(tuán)隊(duì)?wèi)?yīng)該更快,更順利地運(yùn)行。
使用多個(gè)團(tuán)隊(duì)使用該服務(wù),下一個(gè)障礙將是允許在數(shù)據(jù)科學(xué)團(tuán)隊(duì)之間共享數(shù)據(jù)。這可能需要服務(wù)的一些變化和工作方式。但如果達(dá)到該里程碑,平臺(tái)倡議將真正改善所有后續(xù)團(tuán)隊(duì)的生活。這導(dǎo)致以下情況:
> Scaling up by on-boarding more teams
與上一個(gè)圖像相比,我們現(xiàn)在有一個(gè)額外的數(shù)據(jù)科學(xué)團(tuán)隊(duì),開(kāi)發(fā)欺詐檢測(cè)產(chǎn)品。他們應(yīng)該能夠從平臺(tái)工程師中重用開(kāi)發(fā)的服務(wù)并從第一支預(yù)測(cè)團(tuán)隊(duì)中重復(fù)使用數(shù)據(jù)。
以下步驟:專業(yè)化和縮放
不要忘記這些數(shù)據(jù)平臺(tái)舉措的目標(biāo)。目標(biāo)是啟用更多數(shù)據(jù)產(chǎn)品。因此,除了登上多個(gè)數(shù)據(jù)科學(xué)團(tuán)隊(duì),還可以努力向生產(chǎn)模式工作。授權(quán)第一個(gè)(少數(shù))團(tuán)隊(duì)實(shí)際嵌入他們的模型預(yù)測(cè)到業(yè)務(wù)中。
使用這些平臺(tái),流程和工作方式,下一步不太清楚。有很多機(jī)會(huì)可以提高服務(wù)素質(zhì)和團(tuán)隊(duì)合作。
根據(jù)業(yè)務(wù)需求,可以提高所提供服務(wù)的質(zhì)量。也許需要一個(gè)實(shí)時(shí)特征存儲(chǔ),一個(gè)新的型號(hào)服務(wù)平臺(tái),自動(dòng)ml工具或更好的模型監(jiān)控?
就球隊(duì)的一致性而言,可能需要一些班次。也許很多案例需要一個(gè)“客戶360視圖”,這可能導(dǎo)致創(chuàng)建一個(gè)團(tuán)隊(duì)來(lái)管理該統(tǒng)一視圖,具有一些自動(dòng)生成的功能。各種類似的常見(jiàn)問(wèn)題可以用作創(chuàng)建新的常見(jiàn)解決方案的主動(dòng)性。
總結(jié)
通過(guò)對(duì)其開(kāi)發(fā)的敏捷方法,我已經(jīng)顯示了一種朝著更多數(shù)據(jù)驅(qū)動(dòng)組織移動(dòng)的方式。該帖子希望將您的情況進(jìn)行比較,而不是將任何解決方案提出“最佳方式”。
這種方法的關(guān)鍵組成部分是:
- 敏捷(內(nèi)部)客戶集中的方法。
- 平臺(tái)思考。
- 刪除瓶頸,同時(shí)提供一個(gè)靈活性的平臺(tái),并賦予數(shù)據(jù)科學(xué)團(tuán)隊(duì)。
- 自由團(tuán)隊(duì),自由和自主。它們可以自由地使用適合它們的服務(wù),并可以自主準(zhǔn)備他們的數(shù)據(jù)。




























