未來(lái)的監(jiān)控大屏是給AI智能體看的,你知道嗎?
有很多企業(yè)在做數(shù)據(jù)庫(kù)的監(jiān)控大屏,監(jiān)控大屏這個(gè)東西在中國(guó)信息系統(tǒng)發(fā)展的二三十年里一直是在不斷的演進(jìn)的。大屏做得越來(lái)越漂亮,上面的數(shù)據(jù)也越來(lái)越有價(jià)值,但是我覺(jué)得監(jiān)控大屏的發(fā)展已經(jīng)走到了一個(gè)瓶頸點(diǎn)上。因?yàn)殡S著信息化的發(fā)展速度越來(lái)越快,信息系統(tǒng)的建設(shè)也越來(lái)越復(fù)雜,無(wú)論是信息系統(tǒng)的數(shù)量還是指標(biāo)的復(fù)雜程度都已經(jīng)超出了視覺(jué)分析的極限了。現(xiàn)在的監(jiān)控大屏在很大程度上來(lái)看已經(jīng)成為一種形式,顯示的內(nèi)容,顯示的目的,如何通過(guò)大屏去做監(jiān)控,都已經(jīng)無(wú)法真正發(fā)揮作用。
前陣子優(yōu)諾的傲寒總路過(guò)南京,因?yàn)闀r(shí)間十分有限,只能在石頭城下的咖啡廳做了個(gè)小聚。他們是中國(guó)做數(shù)字孿生最早的一批企業(yè),在早期的時(shí)候我也跟他提過(guò)那種花花綠綠的動(dòng)畫(huà)似乎對(duì)運(yùn)維不那么直觀。真正的想要讓運(yùn)維人員理解系統(tǒng),了解系統(tǒng)的現(xiàn)狀,數(shù)字表格可能還是最直觀和有效的。不過(guò)那時(shí)候客戶喜歡的就是逼真的仿真顯示,他們當(dāng)時(shí)是國(guó)內(nèi)仿真顯示做得最好的產(chǎn)品。
再次聊到這個(gè)問(wèn)題的時(shí)候,他給我演示了他們最新的一些動(dòng)態(tài)視覺(jué)技術(shù)。我發(fā)現(xiàn)那些花里胡哨的3D界面消失了,取而代之的是一個(gè)一個(gè)十分形象的動(dòng)畫(huà)方塊,這些方塊讓我們很方便直觀地了解到業(yè)務(wù)的執(zhí)行情況。結(jié)合算法與模型,不再?gòu)?qiáng)調(diào)大屏上面的仿真性,而是更加深度的去模擬業(yè)務(wù)的真實(shí)的內(nèi)在邏輯,監(jiān)控人員可以十分直觀地感受到業(yè)務(wù)運(yùn)作的狀況,發(fā)現(xiàn)業(yè)務(wù)可能存在的堵點(diǎn)和風(fēng)險(xiǎn)。
另外一點(diǎn)大變化是,依托于系統(tǒng)中采集到的豐富的數(shù)據(jù),通過(guò)優(yōu)諾動(dòng)態(tài)視覺(jué)引擎提供的業(yè)務(wù)仿真回放功能,讓這套系統(tǒng)能夠在業(yè)務(wù)問(wèn)題分析,業(yè)務(wù)故障溯源上也能發(fā)揮巨大的作用。
我當(dāng)時(shí)的第一感覺(jué)是,這才是數(shù)字孿生系統(tǒng)該有的模樣。數(shù)字孿生系統(tǒng)本身就是為了解決問(wèn)題而投資去建設(shè)的,不僅僅是為了滿足人們的視覺(jué)感官。更重要的是系統(tǒng)能夠幫助我們?nèi)シ治鰳I(yè)務(wù),發(fā)現(xiàn)和解決問(wèn)業(yè)務(wù)中的問(wèn)題。
回到數(shù)據(jù)庫(kù)運(yùn)維領(lǐng)域,我們目前建設(shè)的大部分?jǐn)?shù)據(jù)庫(kù)監(jiān)控系統(tǒng)都是基于傳統(tǒng)的網(wǎng)管思維的,采集的指標(biāo)主要的目的是為了做展示。采集回來(lái)的數(shù)據(jù)需要做成儀表盤,才能讓人使用。所以現(xiàn)在談到數(shù)據(jù)庫(kù)可觀測(cè)性的時(shí)候,很多人都會(huì)和我討論Grafana。而事實(shí)上,這與我所認(rèn)知的可觀測(cè)性完全不是一個(gè)東西。
目前基于Grafana的可觀測(cè)性面臨三大問(wèn)題:第一個(gè)是隨著數(shù)據(jù)庫(kù)系統(tǒng)越來(lái)越多,如果一個(gè)企業(yè)有幾百套甚至上萬(wàn)套數(shù)據(jù)庫(kù),做那么多儀表盤去給誰(shuí)看?有朋友要說(shuō)了,Grafana可以設(shè)置預(yù)警規(guī)則,有了告警才需要去看儀表盤。那么第二個(gè)問(wèn)題又來(lái)了,Grafana如何才能較為精準(zhǔn)的告警?依靠基線閾值嗎?每天誤報(bào)幾千次上萬(wàn)次的告警,是不是會(huì)讓你崩潰?假如說(shuō)你已經(jīng)解決了第二個(gè)問(wèn)題,那么第三個(gè)問(wèn)題又來(lái)了,在數(shù)據(jù)庫(kù)國(guó)產(chǎn)化時(shí)代里,你的現(xiàn)場(chǎng)有真正深入理解這些數(shù)據(jù)庫(kù)的DBA嗎?恐怕原廠的售后服務(wù)人員里也沒(méi)幾個(gè)是他們自己數(shù)據(jù)庫(kù)產(chǎn)品的真正專家吧。即使是運(yùn)維Oracle的 時(shí)代,一線監(jiān)控人員也不可能是專家,專家一般都在三線呢。
我覺(jué)得傳統(tǒng)的監(jiān)控已經(jīng)走進(jìn)了死胡同,而實(shí)際上AI監(jiān)控才是監(jiān)控系統(tǒng)的未來(lái)。實(shí)際上無(wú)論是生成式AI還是傳統(tǒng)AI算法,都可以模仿專家的思維方式來(lái)解讀和分析數(shù)據(jù)。采集回來(lái)的監(jiān)控?cái)?shù)據(jù)不一定要使用儀表盤展示出來(lái),但是必須經(jīng)過(guò)AI算法去進(jìn)行分析。通過(guò)小模型計(jì)算后發(fā)現(xiàn)的問(wèn)題再交給基于大語(yǔ)言模型的生成式AI去做匯總分析,最后總結(jié)出問(wèn)題與發(fā)現(xiàn),并產(chǎn)生相關(guān)告警,可能是未來(lái)監(jiān)控系統(tǒng)的基本建設(shè)思路。
投入大量資金建設(shè)的監(jiān)控系統(tǒng),最終是要發(fā)揮出應(yīng)有的作用的。1分鐘發(fā)現(xiàn)問(wèn)題,5分鐘定位問(wèn)題,10分鐘解決問(wèn)題,這是目前銀行IT運(yùn)行保障的目標(biāo),可能也是絕大多數(shù)關(guān)鍵業(yè)務(wù)系統(tǒng)的運(yùn)維目標(biāo)吧。要實(shí)現(xiàn)這樣的目標(biāo),依靠傳統(tǒng)的人肉運(yùn)維,人肉監(jiān)控,幾乎是不可能的。只有當(dāng)坐在監(jiān)控大屏后面搞監(jiān)控的變成了一個(gè)AI智能體,這個(gè)目標(biāo)才能真正實(shí)現(xiàn)。



































