從地獄到天堂:一個運維主管的日志分析系統(tǒng)血淚史
作者:老王不加班
上海某視頻公司運維主管,10年IT老兵,專業(yè)踩坑,偶爾填坑
第一章:年輕氣盛的選擇 - 自建系統(tǒng),我們可以的!
2023年初,我剛升任運維主管,在上海這個互聯(lián)網(wǎng)氛圍濃厚的城市里,總覺得自己應(yīng)該做點什么證明實力。老板找我談話:"老王啊,咱們公司日均產(chǎn)生1TB的日志數(shù)據(jù),現(xiàn)在都堆在那里吃灰,你看能不能搞個系統(tǒng)分析一下用戶行為?"
我當(dāng)時很自信地說:"沒問題!我研究過,用Elasticsearch + Kafka + Kibana這套技術(shù)棧,業(yè)界很成熟,我們完全可以自己搞定。"老板眼睛一亮:"預(yù)算多少?"我心想,自建嘛,除了硬件成本,其他都是開源的,應(yīng)該不會太貴,"大概50萬美金硬件投入就夠了。"
然后,現(xiàn)實給了我一記響亮的耳光。。。

延伸閱讀,點擊鏈接了解 Akamai Cloud Computing
我?guī)е业娜齻€大數(shù)據(jù)工程師開始了這個項目。 Alex是個技術(shù)狂人,對新技術(shù)總是充滿熱情,但有時候會鉆牛角尖;Bob比較穩(wěn)重,總是會提醒我們注意風(fēng)險,但執(zhí)行力很強(qiáng);Carol是我們的數(shù)據(jù)專家,對各種數(shù)據(jù)處理技術(shù)都很精通,就是有點完美主義。
光是做技術(shù)方案就讓我們頭疼了一個月。Alex興奮地說:"我們可以用最新的Elasticsearch 8.0版本,性能更好!"Bob皺著眉頭:"但是穩(wěn)定性怎么樣?我們是生產(chǎn)環(huán)境。"Carol則在糾結(jié):"數(shù)據(jù)分層存儲的策略到底怎么設(shè)計?熱數(shù)據(jù)保留多久?"
最終我們決定把IDC建在美國東部,那里的帶寬和電力成本相對合理。硬件清單出來后我差點暈倒:25臺物理服務(wù)器,每臺配置都不便宜,加上存儲、網(wǎng)絡(luò)設(shè)備,初始投資直接飆到了65萬美金!
更要命的是,我發(fā)現(xiàn)Elasticsearch的企業(yè)版許可證按內(nèi)存收費。我們需要2TB內(nèi)存的集群,銷售報價讓我徹底傻眼:每月4萬美金的許可費!"不是說開源免費嗎?"我質(zhì)問銷售。"開源版本沒有安全認(rèn)證、沒有機(jī)器學(xué)習(xí)、沒有官方支持,您確定要用在生產(chǎn)環(huán)境嗎?"銷售笑得很職業(yè)。
部署過程更是一言難盡。我們四個人連續(xù)加班兩個月,Alex負(fù)責(zé)Elasticsearch集群調(diào)優(yōu),經(jīng)常為了一個參數(shù)配置爭論到深夜;Bob負(fù)責(zé)Kafka集群,每天都在處理各種稀奇古怪的問題;Carol負(fù)責(zé)數(shù)據(jù)管道,對每個字段的處理都要精益求精。我則要協(xié)調(diào)整個項目,還要應(yīng)付老板的催促。
每天都有新問題冒出來,系統(tǒng)的復(fù)雜度遠(yuǎn)超我們的預(yù)期。好不容易系統(tǒng)跑起來了,每月運營成本讓我更崩潰:硬件折舊1萬美金,ES許可證4萬美金,電費和冷卻5千美金,我們四個人的工資4萬美金,各種雜七雜八的費用1萬美金,總計每月10萬美金!老板看到賬單時的表情,我至今難忘...
第二章:Murphy定律永遠(yuǎn)不會遲到 - 當(dāng)災(zāi)難降臨的那個深夜
系統(tǒng)運行了半年,我以為終于可以松口氣了。Alex也不再每天盯著監(jiān)控看了,Bob開始研究其他項目,Carol甚至開始做一些數(shù)據(jù)分析的探索。直到那個該死的周五晚上,一切都變了。
晚上11點,我正準(zhǔn)備下班,監(jiān)控告警瘋狂響起。我的心瞬間涼了半截,趕緊叫上Alex他們一起登錄服務(wù)器查看。磁盤IO利用率飆到了100%,查詢響應(yīng)時間從幾百毫秒暴增到幾十秒!原來是我們低估了數(shù)據(jù)增長速度,視頻業(yè)務(wù)爆發(fā),日志量從1TB增長到了2TB,而我們當(dāng)初配置的存儲完全扛不住這個IO壓力。
更要命的是,由于IO瓶頸,Elasticsearch開始頻繁GC,節(jié)點不斷掉線重連,索引損壞,數(shù)據(jù)丟失。Alex急得滿頭大汗,不停地調(diào)整JVM參數(shù);Bob在重啟各種服務(wù),試圖挽救集群;Carol看著數(shù)據(jù)一點點丟失,眼睛都紅了。我們連夜搶救,但為時已晚,系統(tǒng)徹底崩潰,半年的歷史數(shù)據(jù)全部丟失!
老板周一來上班看到系統(tǒng)掛了,臉色比鍋底還黑:"老王,這就是你說的成熟技術(shù)棧?"我只能硬著頭皮說:"我們立即重建,這次一定沒問題!"
于是開始了地獄般的一個月重建過程。重新采購硬件,這次全部換成高性能NVMe SSD,成本又增加了30萬美金。重新部署系統(tǒng),重新調(diào)優(yōu)參數(shù),重新導(dǎo)入數(shù)據(jù)。Alex累得直接在機(jī)房睡了三天,Bob的黑眼圈比熊貓還重,Carol開始懷疑人生:"老王,我們是不是選錯路了?"
最痛苦的是,我們四個人完全被這個系統(tǒng)綁架了。24小時待命,半夜被叫起來處理故障是家常便飯。我老婆都說我:"你是嫁給了Elasticsearch嗎?"一個月后,系統(tǒng)重新上線,但我們的信心已經(jīng)被徹底擊垮。每天都在擔(dān)心下一次故障什么時候來臨,這時候月度成本已經(jīng)飆升到了12萬美金!
第三章:柳暗花明又一村 - Traffic Peak拯救了我的職業(yè)生涯
轉(zhuǎn)機(jī)出現(xiàn)在一次上海的技術(shù)meetup上。我正在臺上分享我們的"血淚經(jīng)驗",臺下一個Akamai的技術(shù)專家找到我:"老王,你聽說過Traffic Peak嗎?"我心想,又是一個想賣產(chǎn)品的銷售,但出于禮貌還是聽了他的介紹。
然后我被震撼了!他說:"你們現(xiàn)在月度成本12萬美金對吧?我們只要2-3萬美金,包含所有服務(wù)。而且,20分鐘部署完成,無需運維團(tuán)隊,亞秒級查詢,15個月熱數(shù)據(jù)保留,20-50倍數(shù)據(jù)壓縮。"我越聽越心動,但還是有疑慮:"數(shù)據(jù)安全怎么保證?""運行在Akamai的全球基礎(chǔ)設(shè)施上,安全性比你們自建的高幾個數(shù)量級。"
回去后我做了詳細(xì)調(diào)研,發(fā)現(xiàn)Traffic Peak確實厲害:Hydrolix的專利壓縮技術(shù),存儲成本降低95%;實時索引,查詢性能吊打我們的ES集群;全托管服務(wù),我們只需要關(guān)注數(shù)據(jù)分析,不用管基礎(chǔ)設(shè)施。最關(guān)鍵的是,試用期免費!
我偷偷搭建了一個測試環(huán)境,把一部分?jǐn)?shù)據(jù)導(dǎo)入Traffic Peak。結(jié)果讓我目瞪口呆:部署時間真的只用了20分鐘!原來需要30秒的復(fù)雜查詢,現(xiàn)在0.5秒返回結(jié)果;1TB原始數(shù)據(jù)壓縮到50GB;運維工作量基本為零!我激動地跑去找老板:"我找到救星了!"
老板聽完我的匯報,沉默了5分鐘,然后說:"你確定這次不會再出幺蛾子?""我用人格擔(dān)保!而且有一個月試用期,不滿意隨時可以退回來。"
切換過程簡直不要太順利!Akamai的技術(shù)團(tuán)隊幫我們做數(shù)據(jù)遷移,整個過程我們幾乎不用動手。一周內(nèi),我們就完全切換到了Traffic Peak。更神奇的是,系統(tǒng)穩(wěn)定性比我們自建的好太多,兩個月過去了,沒有出過一次故障,沒有半夜被叫醒過一次!
最大的驚喜還在后面。由于不用再維護(hù)那個要命的ES集群,Alex、Bob、Carol終于從運維地獄中解放出來了。Alex開始研究機(jī)器學(xué)習(xí)算法,Bob專注于數(shù)據(jù)架構(gòu)優(yōu)化,Carol則利用Traffic Peak的強(qiáng)大分析能力做用戶行為分析。三個月后,Carol興奮地跑來找我:"老王,我們搞出了一個用戶畫像分析產(chǎn)品!"
通過分析用戶觀看行為、偏好、時長等數(shù)據(jù),他們幫助內(nèi)容團(tuán)隊精準(zhǔn)推薦,用戶留存率提升了15%!市場部聽說后,主動找我們合作,想把這個能力包裝成產(chǎn)品賣給其他視頻公司。年底的時候,我們運維部門不僅沒有花錢,還給公司賺了50萬美金!
老板年會上當(dāng)眾表揚:"老王的團(tuán)隊從成本中心變成了利潤中心,每個人額外獎勵10萬!"
現(xiàn)在回頭看這段經(jīng)歷,從自建到托管的對比太明顯了:月度成本從12萬美金降到2.5萬美金,部署時間從2個月縮短到20分鐘,運維人員從4個人全職變成0人,故障頻率從每周都有變成2個月0故障,查詢性能從30秒提升到0.5秒,團(tuán)隊狀態(tài)從累成狗變成解放了去創(chuàng)新。
尾聲:給所有運維兄弟的忠告
如果你也在考慮自建日志分析系統(tǒng),請聽我一句勸:除非你有錢有人有時間燒,否則直接上托管服務(wù)!
自建系統(tǒng)的隱性成本太高了,硬件投資是無底洞,運維成本被嚴(yán)重低估,故障風(fēng)險讓人夜不能寐,團(tuán)隊被綁架無法創(chuàng)新。而托管服務(wù)的優(yōu)勢太明顯了,成本透明可控,性能穩(wěn)定可靠,最重要的是團(tuán)隊解放去做更有價值的事情。
讓專業(yè)的人做專業(yè)的事,我們運維工程師的價值不應(yīng)該浪費在重復(fù)造輪子上,而應(yīng)該去創(chuàng)造更大的業(yè)務(wù)價值!現(xiàn)在我每天準(zhǔn)時下班,周末陪家人,Alex、Bob、Carol做著有趣的數(shù)據(jù)分析項目,老板對我們滿意得不得了。這就是我想要的生活!

—————————————————————————————————————————————————
如您所在的企業(yè)也在考慮采購云服務(wù)或進(jìn)行云遷移,
點擊鏈接了解Akamai Linode解決方案,現(xiàn)在申請試用可得高達(dá)500美元專屬額度






















