精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

算法工程師為什么成天做數據,都做哪些數據?

新聞 大數據 算法
國外有一個著名的大佬(我忘記名字了)曾經說過,算法工程師有70%的時間是投入在數據上的,花在模型和調參上的只有不到20%。

[[353273]]

 

為什么很少做模型

在大家想象當中,可能算法工程師做的事情是今天看paper,明天把paper實現了,后天就上線使用,然后公司的收入刷刷漲,我們的工資、級別也跟著漲。但實際上,大多數崗位下的工程師日常并不是這樣。國外有一個著名的大佬(我忘記名字了)曾經說過,算法工程師有70%的時間是投入在數據上的,花在模型和調參上的只有不到20%。

這句話大家可能或多或少都聽過,但是想必都不是很理解,為什么會這樣呢?為什么不能多花點時間做模型呢?原因也很簡單,并非不想,而是不能。

不能的原因也很有很多,我隨便舉幾個最常見的。

框架限制

模型不能隨便動的原因有很多,一般來說最常見的是框架的限制。這種情況在大公司和小公司里都有,比如之前我在某大公司的時候,公司的框架非常成熟,以至于很少寫代碼去實現某一個模型,而更多的是可視化界面的連線以及設置操作。問題來了,在這個場景當中,可視化界面當中可選的模型是固定的,都是基礎團隊開發好的,他們開發好了這么多模型,我們就只能使用這么多模型,除非我們脫離這整個流程,但顯然這是不可能的。

所以當時在很長的一段時間里,我們只能在有限的模型當中做選擇。直到后來,公司開發出了新的框架工具,可以讓我們自己定制神經網絡的代碼實現深度模型,這才鳥槍換炮迎來了全面升級。

小公司雖然不像大公司這樣有一套成熟且不易改動的框架,但是一般也會有自己的一套流程。比如公司前人留下來鏈路是基于開源xgboost開發的,你想要使用TensorFlow訓練神經網絡模型代替原有的xgboost,一般來說這是肯定有效果的,也一定會迎來提升。但問題是,你可能需要把訓練模型、線上調用模型的整個鏈路都重構。很多算法工程師的開發能力不太行,而且也不太愿意做工程重構的事情,再加上這塊工作量也不小,所以很容易出現的情況就是,大家都明知道怎么做比較好,但是由于投入比較多,大家也都不愿意做,一直delay。

效果難保證

第二個原因是paper上的一些模型和做法,效果其實是很難保證的。如果你讀過paper會發現paper的結論往往都有很多前提。比如某某特定的數據或者是場景,前期強大的recall以及過濾系統,或者是完善的特征準備等等。paper里不會把這些都寫出來,它只會寫上做法以及結果。所以這就導致了,很多paper里寫得天花亂墜的方法,實際應用起來效果可能并不好。

這也不是paper吹牛,而是你沒有同樣的條件。舉個例子,阿里的數據埋點非常精準,精準到用戶從打開app到關閉app的每一個動作和行為都有記錄,每一個商品或者是模塊在用戶處展示了多少時間,甚至是用戶翻頁的速度都有全面完整的記錄。就這種數據,一般規模的小公司根本做不了。你做不了這個數據,你就沒有paper里那些精準的特征。那你如何保證你使用阿里的模型也有同樣的效果呢?

優先級問題

我們都知道,事情根據緊急以及重要可以分成四類,不重要不緊急、緊急不重要、緊急且重要、重要不緊急。很多人也都知道,最重要的事情是把那些重要且不緊急的事情做好。說起來大家都會說,但是實際上未必人人都會這么選。

當你面臨KPI考核壓力的時候,一線的工程師可能就只能盯著緊急的事情做。因為他們需要趕緊做出一點成績來完成自己的業績,完成自己業績的最好方法絕不是去升級或者是更新模型,而是找一些特征做一做,或者是使用一些取巧的方法看看能否提升效果。花時間去更新模型,付出的勞動很大,也不一定有效果。但是做特征代價很小,做了一個沒效果,可以再做一個,迭代也快。

這其實并不完全是工程師鼠目寸光,也是整個職場氛圍的影響的結果。大家都看重業績和績效,以至于大家都陷入了局部最優解,但是卻離整體最優解越來越遠。

要想避免這種情況,需要有高瞻遠矚、統籌規劃的架構師或者是leader,能夠抗住升級模型的風險壓力。對可能出現的情況以及將來要做的事情有充足、詳細的規劃,并且有足夠的經驗應對各種可能出現的事情。但是大家也都知道,擁有這種能力的leader在職場里鳳毛麟角。大公司里都不多見,小公司里就更加難得了。

做哪些數據

說完了模型的問題,我們來聊聊數據,既然不能頻繁地變更模型,工程師們就只能更多地來做數據了,那么工程師們到底又在做哪些數據,需要花費這么多時間呢?

訓練數據

大公司里有完整的流程,我們把流程設計好了之后,訓練數據、測試數據、模型訓練以及部署可以一條龍流水線作業。但是在中小型公司里,這往往是做不到的。

原始數據是不能直接用來訓練模型的,這中間需要復雜的處理流程。首先,需要做采樣。就拿CTR預估的場景來舉例,一般情況下真實場景下的點擊率不會超過10%。但是模型訓練一般正負樣本的比例是1:3左右,那么這就需要我們對負樣本進行采樣。

采樣你還不能直接采,因為可能這些樣本當中還存在很多臟數據或者是非法的數據。我們需要先把這些有問題的數據過濾了之后,再進行采樣,這樣才能保證我們的數據是干凈的。采樣了之后,我們需要進行特征和字段的查找補全。因為數據往往是分開存儲的,比如用戶的基礎信息是一張表,用戶的行為數據又是一張表,商品的信息是一張表,各種各樣的數據存放在各種各樣的地方。我們有了樣本之后,還需要去查找很多的數據,才能把所有需要用到的字段搜集齊。

當我們搜集了所有需要的數據之后,我們才能開始真正樣本的制作,也就是使用這些我們查找以及搜集到的原始數據生成輸入模型的樣本特征。每一個特征可能都有自己獨特的生成邏輯,這也是一個龐大的工程。這一步做完還沒結束,還會需要把數據轉化成模型需要的格式。比如tfdata或者是tensor、json之類的。

這么一系列步驟,大公司一般都有一整套完整的自動調度流程, 工程師們不需要操心,只需要拿來用就好了。但是在中小型公司,可能就只有一些手動工具了,需要數據都需要手工去跑一些任務或者是腳本。跑的過程當中還有可能會失敗以及遇到各種問題,雖然說起來平平無奇,也沒什么價值,但這些事情都是需要工作量的。

新的特征

特征怎么做?在kaggle之類比賽當中,可能就是使用pandas寫兩個函數,或者是幾行處理的邏輯就搞定了。但實際上絕不是這么簡單。

我舉一個最簡單的例子好了,比如我們將年齡進行歸一化,做成一個標準化年齡的特征。這個簡單吧,我們就用比較簡單的最大最小值歸一化方法好了,公式是:

算法工程師為什么成天做數據,都做哪些數據?

歸一化之后,這個特征值會被縮放到0-1的區間里。但是這里面用到了兩個參數,一個是最大值,一個是最小值。這兩個參數怎么來?你可能會覺得這還不簡單,我們遍歷下數據不就知道了。但問題是這個數據你并不是只用一次,以后每次生成訓練數據都需要生成這個特征,難道每次跑的時候都手動遍歷一下數據找下最大最小值嗎?而且數據是在變化的,每一天用戶年齡的最大和最小值可能都不一樣,假如說我們要跑好幾天的訓練數據怎么辦?

設計一個新的特征是簡單的,但是里面的一些參數會讓事情變得復雜,我們往往需要設計復雜的機制來將新完成的特征加入流程。

效果分析

還有一塊數據處理的大頭在效果分析,效果分析有兩種,第一種是做一些之前沒有的指標以及相關的分析,或者是應老板的要求做一些業務指標的分析,達成我們的績效。

比如像是最基礎的CTR、CVR、收入等數據,也有像是老板臨時起意想要看的某些數據。比如分析一下某些特征的分布,比如看一下某個特定族群中樣本的數量或者是數據的情況,等等等等,不一而足。

第二種是我們模型做出來之后的效果分析,如果說模型的效果還,那還好。如果效果不好,問題就來了,我們怎么樣確定是哪里出了問題?是因為模型本身的性能不足呢?還是我們的特征不夠或者是特征當中存在問題呢?還是我們的數據質量不高呢?還是說什么地方存在bug呢?

算法不像是工程,工程當中絕大多數事情是確定的,結果不對一定是因為邏輯有bug,那么只要仔細測試,分析原因,總能解決。那種難以復現,找不到原因的問題非常罕見。但是算法不一樣,大多數情況下并沒有絕對的錯誤和正確,甚至沒有絕對的原因。我們扮演的角色更多地像是偵探,根據一些蛛絲馬跡推測導致問題的原因,然后用實驗嘗試著解決,在這個過程當中就涉及到大量的數據處理和分析的工作。

比如,如果你懷疑是某些特征分布有問題導致了模型效果不好,那么你需要分析特征的分布。如果你懷疑是數據存在bug,那么你需要設計方案,篩選數據,仔細甄別數據當中的問題,驗證自己的想法。如果你覺得是訓練數據量不夠,那么你需要增大訓練量,設計對比實驗……總之,想要排查問題都需要大量的數據分析,絕不僅僅是看看代碼,想一想就能有結論的。

感想

很多想要從事算法的人真正做了算法之后,往往會有幻滅感。會有一種強烈的面試造航母,入職擰螺絲的感覺。原因也很簡單,我們面試的時候問的是各種各樣的模型,各種先進的理念和方法,但是入職之后面臨的工作卻是各種各樣的數據分析以及數據準備。比如我當年大部分時間都在寫SQL做數據,我一度懷疑公司的職位安排。

但當我理解了這一切的運作機制之后,我就理解了。實際的工作場景和線上算法比賽不同,線上比賽我們可以使用各種各樣的trick來提升成績。還可以搞各種跨界混搭,比如今年的騰訊算法大賽的冠軍的做法就是把BERT應用在了用戶行為分析的場景下。但是在實際的場景當中,由于系統以及各方面的制約,這些想法都是很難實現的而且效果也難保證,最終還是要落實到基本的數據支撐上來。

打個不確切的比方,各種各樣的算法模型就好像是工具箱里的各式工具,我們僅僅了解工具是沒用的。最重要的是要理解使用工具的場景,從而可以根據需要選擇最合適的工具。但很遺憾的是,我們對數據以及場景的理解是很難量化的,所以面試的時候只能退而求其次問你工具的使用了,長此以往很多人本末倒置,搞錯了核心競爭力,出現對面試的種種非議也就不奇怪了。

 

責任編輯:張燕妮 來源: 今日頭條
相關推薦

2015-08-19 13:32:04

2021-10-13 09:00:00

大數據數據工程師工具

2017-11-09 14:12:44

大數據軟件工程師算法工程師

2021-03-24 15:15:34

數據工程師開發工具

2023-03-11 22:10:20

數據工程師算法數據庫

2021-01-29 17:26:03

大數據開發工程師

2020-08-05 08:25:58

大數據Java技術

2019-04-26 14:27:07

大數據數據科學數據工程師

2021-03-23 10:04:55

數據工程師工具數據分析

2015-03-17 15:29:03

創業公司后端工程師應用開發

2009-02-11 13:15:54

軟件工程師女工程師google

2023-11-02 11:49:22

2018-06-03 14:26:00

阿里工程師內網代碼

2013-03-04 09:55:39

工程師軟件工程師

2017-05-05 10:45:45

大數據動向

2020-12-18 11:55:27

編程面試

2016-04-08 14:32:32

全棧工程師世界

2015-03-04 10:03:09

2017-10-05 07:08:16

數據工程師ETL數據集

2018-11-15 15:55:44

前端工程師Web云計算
點贊
收藏

51CTO技術棧公眾號

中文字幕欧美人妻精品一区| 久久久久国产精品视频| 青草影院在线观看| 国语一区二区三区| 日本韩国一区二区| 麻豆中文字幕在线观看| 亚洲精品一区二区口爆| 亚洲一区日本| www.日韩.com| 国产十八熟妇av成人一区| 性感美女一区二区在线观看| 成人欧美一区二区三区| 俄罗斯精品一区二区| 无码人妻久久一区二区三区不卡| 93在线视频精品免费观看| 精品久久久久久无| 9久久婷婷国产综合精品性色| 快射视频在线观看| 91热门视频在线观看| 91久久嫩草影院一区二区| 中日韩精品视频在线观看| 手机在线电影一区| 国产视频精品va久久久久久| 色国产在线视频| 国产夫妻在线播放| 亚洲人精品午夜| 日本不卡一区二区三区视频| 超碰在线观看av| 美国毛片一区二区| 欧美一级电影在线| 久久久精品国产sm调教网站| 精品99在线| 日韩精品www| 不许穿内裤随时挨c调教h苏绵 | 国产乱码精品一区二区三区四区| 91精品国产福利在线观看 | 姬川优奈av一区二区在线电影| 亚洲六月丁香色婷婷综合久久| 日本欧美色综合网站免费| 秋霞网一区二区| 国产一区高清在线| 国产视频观看一区| 成人a v视频| 亚洲欧美视频一区二区三区| 久久人人97超碰精品888| 亚洲 欧美 国产 另类| 国产欧美日韩影院| 亚洲天堂男人天堂女人天堂| 精品中文字幕在线播放| 国产精品qvod| 亚洲第一国产精品| 麻豆tv在线观看| 亚洲精品一区二区三区中文字幕| 在线不卡中文字幕播放| 亚洲国产日韩欧美在线观看| 激情亚洲影院在线观看| 色婷婷亚洲精品| 成人免费观看毛片| 成人私拍视频| 91成人免费在线视频| 日韩 欧美 高清| 欧美舌奴丨vk视频| 色哟哟一区二区三区| 99精品人妻少妇一区二区| 日韩脚交footjobhd| 午夜欧美一区二区三区在线播放| 成人国产在线看| 手机电影在线观看| 亚洲成人精品在线观看| 妞干网在线视频观看| 国模私拍一区二区国模曼安| 黑人精品xxx一区一二区| 欧美女人性生活视频| 瑟瑟视频在线看| 在线亚洲欧美专区二区| 免费看污污网站| 电影一区中文字幕| 欧美成人伊人久久综合网| 国产视频精品视频| 国产剧情在线观看一区| 自拍偷拍亚洲精品| 麻豆亚洲av熟女国产一区二| 一区在线视频| 国产成人97精品免费看片| 97人妻精品视频一区| 韩国一区二区视频| 国产91免费视频| 日韩精品视频在线观看一区二区三区| 久久精品综合网| 在线观看福利一区| 国产网红女主播精品视频| 日韩欧美在线观看| 中文字幕在线视频精品| 超碰97成人| 亚洲日本中文字幕| 成年人二级毛片| 99精品福利视频| 国产精品羞羞答答| 亚洲精品一区二区三区不卡| 久久蜜桃香蕉精品一区二区三区| 午夜精品一区二区在线观看的 | 美女精品一区最新中文字幕一区二区三区| 亚洲人成在线一二| 国产黄色片在线免费观看| 亚洲影院一区| av电影成人| 成年网站在线| 亚洲v日本v欧美v久久精品| 欧美精品无码一区二区三区| 精品视频国内| 一区二区三区精品99久久 | 99在线热播精品免费99热| 国产精品久久久久久婷婷天堂 | 亚洲精品视频在线播放| 日本午夜在线观看| 久久午夜精品一区二区| 91文字幕巨乱亚洲香蕉| 91官网在线| 欧美天天综合色影久久精品| 亚洲色图欧美自拍| 精品久久影视| 91av在线国产| 超碰免费在线97| **欧美大码日韩| 手机看片福利日韩| 亚洲综合图色| 9.1国产丝袜在线观看 | 伊人久久大香| 亚洲图片制服诱惑| 国产又黄又猛又粗又爽| 国产成人av一区二区| 中文字幕一区二区中文字幕 | 色88888久久久久久影院野外| www日本在线观看| 一区二区蜜桃| 成人免费视频网| 国产福利第一视频在线播放| 精品国产乱码久久久久久虫虫漫画| 99久久99精品| 天天做天天爱天天综合网| 国产精品久久99久久| 日韩av地址| 欧美日韩一二三四五区| 熟妇高潮一区二区| 日韩五码在线| 国产日韩二区| 阿v视频在线| 精品国产乱码91久久久久久网站| 丁香花五月激情| 国产一区二区电影| 国产又粗又长又爽视频| 不卡一区视频| 久久国产精品久久久久| 国产绿帽刺激高潮对白| 亚洲日本成人在线观看| 麻豆精品国产传媒| 精品99视频| 麻豆av一区| 美女100%一区| 色偷偷偷综合中文字幕;dd| 在线视频精品免费| 国产精品污污网站在线观看| 天天干天天干天天干天天干天天干| 欧美综合一区| 成人午夜两性视频| 18在线观看的| 精品国产精品网麻豆系列| 国产精品1000| 久久欧美一区二区| 国产小视频精品| 亚洲最新色图| 国产精品久久久久av福利动漫| 精品极品在线| 亚洲午夜久久久影院| 一级黄色片网站| 一区二区三区中文免费| 黄色av网址在线观看| 天堂一区二区在线免费观看| 午夜精品亚洲一区二区三区嫩草 | 日本黄色免费在线| 中文字幕精品在线视频| 国产毛片一区二区三区va在线| 亚洲欧美日韩电影| 屁屁影院国产第一页| 日韩电影在线一区二区| 亚洲国产精品女人| 日本国产精品| 91在线观看免费高清完整版在线观看| 好吊日av在线| 国产一区二区成人| 丰满人妻一区二区三区免费视频| 精品美女永久免费视频| 中国1级黄色片| 丁香六月久久综合狠狠色| 欧在线一二三四区| 欧美福利电影在线观看| 欧美极品视频一区二区三区| 亚洲精品一区av| 国模精品视频一区二区三区| 成年人视频在线看| 精品国产一区二区三区久久久蜜月| 一级一片免费看| 一区二区三区四区不卡视频| 午夜在线观看一区| 丁香婷婷综合色啪| 妺妺窝人体色www在线观看| 欧美午夜一区二区福利视频| 天堂精品一区二区三区| 日韩精品亚洲aⅴ在线影院| 亚洲影院污污.| 国产一区一一区高清不卡| 国语自产精品视频在免费| 麻豆视频免费在线观看| 亚洲天堂av女优| 五月天婷婷视频| 欧美videossexotv100| 一级片视频网站| 在线看国产日韩| 天堂中文在线网| 亚洲午夜一区二区| 无码人妻精品一区二区三区夜夜嗨| 久久―日本道色综合久久| 日本黄色动态图| 成人网页在线观看| 国产91在线免费观看| 蓝色福利精品导航| 男女无套免费视频网站动漫| 中文日韩在线| 国产精品无码人妻一区二区在线| 欧美成人一品| 天天在线免费视频| 亚洲色图网站| 日本一区二区三区四区五区六区| 三级电影一区| 性欧美videosex高清少妇| 伊人精品一区| 欧美人与性禽动交精品| 综合国产视频| 欧美一区2区三区4区公司二百| 极品尤物一区| 日本亚洲欧洲色| 超碰97免费在线| 久久久女女女女999久久| 好了av在线| 欧美精品一区在线播放| 欧美激情办公室videoshd| 亚洲小视频在线| 成a人v在线播放| 日韩精品免费在线视频观看| 好吊色一区二区三区| 欧美日韩国产大片| 91亚洲国产成人精品一区| 欧洲av一区二区嗯嗯嗯啊| 国产精品第5页| 色94色欧美sute亚洲线路二| 日韩大片免费在线观看| 亚洲第一狼人社区| 韩国av中文字幕| 欧美日韩国产一区中文午夜| 国产大片中文字幕| 色欲综合视频天天天| 麻豆成人免费视频| 色8久久人人97超碰香蕉987| 一级淫片免费看| 宅男噜噜噜66一区二区66| 在线观看毛片网站| 中文字幕在线视频久| 亚洲免费伊人电影在线观看av| 韩国中文字幕hd久久精品| 精品国产免费人成在线观看| 日韩一二三四| 在线日韩av观看| 国产区视频在线| 久久久精品一区| 亚洲男同gay网站| 欧美精品videos性欧美| 中文在线аv在线| 国产精品扒开腿做爽爽爽的视频| 精品成人av| 成人羞羞视频免费| 久9re热视频这里只有精品| 精品久久精品久久| 欧美1区二区| 欧美日韩亚洲在线| 手机亚洲手机国产手机日韩| 一区二区精品视频| 欧美激情视频一区二区三区在线播放| 免费看黄色a级片| 欧美福利影院| 北条麻妃在线一区| 另类小说欧美激情| 91女神在线观看| caoporn国产精品| 日韩一级av毛片| 国产精品免费视频一区| 久草精品视频在线观看| 欧美性色19p| 中文字幕在线观看高清| 亚洲第一福利网| 成人精品福利| 九九热精品在线| 亚洲欧洲自拍| 亚洲a成v人在线观看| 色哟哟精品丝袜一区二区| 亚州欧美一区三区三区在线| 你懂的视频一区二区| 日韩一级片播放| 国产sm精品调教视频网站| 三级电影在线看| 一区二区三区欧美| 日韩一级在线视频| 日韩欧美三级在线| 幼a在线观看| 欧美诱惑福利视频| 成人国产一区二区三区精品麻豆| 国产一区免费在线观看| 日韩一区二区在线| 少妇久久久久久被弄到高潮| 美女网站久久| 一级全黄裸体片| 26uuu欧美| 中日韩精品视频在线观看| 欧美久久久久久蜜桃| 国产精品久久久久一区二区国产| 欧美巨乳在线观看| 日韩另类视频| 日本一区二区在线视频| 在线成人av| 五月激情五月婷婷| 国产精品午夜春色av| 你懂的国产视频| 日韩欧美国产麻豆| 午夜小视频在线观看| 国产精品美乳一区二区免费| 国产福利一区二区精品秒拍| 成人毛片100部免费看| 免费看黄色91| 四虎影成人精品a片| 色综合久久久久| 色一情一乱一区二区三区| 欧美激情一区二区三区高清视频| 欧美成人免费全部网站| 欧美亚洲另类在线一区二区三区| 国产精品久久久久9999高清| 国产精品熟女一区二区不卡| 国产精品免费看片| 91成品人影院| 一区二区三区视频观看| 樱花草涩涩www在线播放| 久久99久久99精品蜜柚传媒| 欧美视频一区| 激情综合激情五月| 亚洲乱码中文字幕| 国产美女明星三级做爰| 欧美成人精品在线| 精品视频一区二区三区| 欧美少妇一级片| 国产电影一区二区三区| 欧美性x x x| 欧美日韩一区二区在线观看| 在线观看完整版免费| 国产精品久久久久久久av电影 | 美女福利一区二区| 久久香蕉综合色| 日韩国产在线一| 免费在线观看污| 欧美中文字幕一区| 成人国产免费电影| 99免费在线观看视频| 亚洲精品午夜av福利久久蜜桃| 国产探花在线看| 亚洲男同1069视频| 亚洲图片中文字幕| 欧美激情欧美激情| 欧美变态网站| 污污的网站18| 亚洲女厕所小便bbb| www.色日本| 日韩av成人在线| 成人激情免费视频| 国产精九九网站漫画| 五月天一区二区| 美女欧美视频在线观看免费 | 中文字幕日韩av| 久久久加勒比| 久艹视频在线免费观看| 91亚洲精品乱码久久久久久蜜桃| 波多野结衣二区三区| 最近2019好看的中文字幕免费| 99国内精品久久久久| 九一国产精品视频| 欧美韩国日本不卡| 黄色三级网站在线观看| 日本不卡高字幕在线2019| 四虎国产精品免费观看| 中文字幕av观看| 欧美日韩一区二区三区高清 | 欧洲永久精品大片ww免费漫画| 成人免费在线播放| 亚洲av成人片色在线观看高潮 |