專訪程顯峰:APM大行其道 折射出運維與管理之痛
原創顯峰,藍海訊通(包含SaaS級OneAPM與企業級blueware兩塊業務品牌)的***運營官,10年IT領域經驗,知名技術顧問;MongoDB中文社區的發起人,并作為AdMaster***布道師且共同創建了北京研發中心,曾任積木盒子技術副總裁,擁有悉尼大學碩士學位及哈爾濱工業大學學士學位。
“我跨的領域稍微多,但大部分時間都在做技術管理的工作。”
與顯峰認識已經有很長的一段時間,記得曾經在AdMaster的時候與顯峰做了個關于敏捷的專訪,當時他一直強調國內在管理方面的落差,很少有非常資深的人去做這方面的工程化。也許是由于長期的沉淀和感悟,顯峰認為技術管理交流溝通才是核心價值,能夠快速提高初級程序員的成長。也是如此,顯峰在AdMaster一直負責做技術管理,團隊組建和培訓員工。后來從AdMaster離開后到積木盒子及現在的藍海訊通同樣繼續著技術管理的工作。
今年算是APM的元年,您認為在國內APM一下子蹦進人們的視野里,從而受到業界關注的主要原因在哪里?在管理方面會有哪些改變?
程顯峰:先談談APM是什么。現在大家都在談應用性能管理,實際上國內對這個認識還是很粗淺。APM在中國算是一個元年,但是美國很多互聯網化的企業在2008年已經在使用,比如像IBM、戴爾、惠普這些大企業都有自己的APM解決方案。實際上它并不是一個新的概念,為什么國內現在才被大家所認識到?我覺得很大的原因是中國的軟件生命周期短導致的,國外的一個軟件可能有五年,十年,十五年的生命周期,它的業務系統也非常穩定。但是在國內大部分軟件就沒有那么長。在這種情景下,采用服務性質的軟件的動力是明顯不足的。比如你買了一輛車準備開30年,平時肯定會去精心的保養。但是這輛車只準備開一年,可能就不會太注重保養,或者保養很差。APM就像汽車領域高效的保養,當系統出現問題時能夠很快的發現和報警。
大家經常會問一個問題,APM是不是跟監測一樣?其實APM跟監測的性質不一樣,監測能發現問題,并不能診斷問題,但它在某種程度上確實有監測的效果。就像一個體溫計,知道你這個人體溫39度已經發燒了,卻無法斷定你問題出在哪里。我們可以把APM看成CT機,它知道你哪一個部位出現了什么問題,能清晰地定位出來。
再看運維,目前Operation是非常缺乏的。很多IT企業往往是重研發輕運維,主要是系統生命周期非常短,所以運維投入不夠。
國外的情形就像飛機一樣,正常運作能達到十幾年,極其注重安全和穩定性,所以特別的精心地保養,每年的費用也很高,對于國內的大型企業也是這樣子,生產系統運營時間長。實際上國內金融、電信、能源,這些行業客戶很早就應用APM。所以說今年APM被業界所接受,那是互聯網化的一個結果,并不是很早的一個概念。
為什么APM越來越重要?這其實要從IT系統運維面臨幾個困境說起:
***個,系統越來越復雜,越來越分布式。
第二個,有很多遺留的系統,要兼顧這些五年、十年前的系統正常運行,這就給運維造成很大的壓力。
第三個,業務始終是動態變化的。
大家都知道,IT公司運維每天都在應對不同的變化。在傳統運維上有很多職責,在這種復雜的情形下會導致被拖死在一個泥潭當中,無法抽身去做一些更有附加值的事情。在美國運維叫IT Operation Analysis,也稱為ITOA(IT運營系統分析),那是基于大數據對IT的配置、性能、數據泄露、合規性等所有的指標都有一個整體的分析。
從分析的角度去理解非常好,能解決大量的問題。問題是你沒有APM,分析需要的數據就無從而來。數據分析從傳統意義上基本是來源于三個方面:基于網絡的數據、基于日志的數據、基于APM的數據。廣義上這幾方面都是APM行業,但是如果從狹義上去理解這種基于探針(Agent)技術的APM,它所提供的數據是網絡和日志幾乎無法比擬的。
***,先說日志。如果開啟的日志比較多,你會淹沒在大量的日志事件和噪聲當中,提取非常困難。但是開啟的級別非常低就會發現問題根本無法定位。實際上日志的力度非常難以控制,而且也是一個事后分析的方式,延后性比較突出和明顯。
第二,網絡雖然有全量數據,ITOA運行在比較重要的網絡真實結構圖中,而網絡出現故障后診斷時最重要的指標為MTTR(平均恢復時間)。可是網絡故障對平均修復時間來講,幫助的意義并不大,只能定位到機器或者HOST這種級別,實際上對診斷問題的幫助從現在的復雜程度看定位不清晰。所以,現在要提升到應用級別的定位才能解決問題。
APM根據ITOA這種理念,包括可行性分析、性能等所有的維度都列出來,是在所有的ITOA成分里面最難的。一個可用性分析的監控自己就可以搞定,不過關于Performance的實現。有第三方機構在美國做了一個深入的調研,大家一致公認Performance性能是ITOA里頭***有技術含量的。所以,當它比較難以實現的時候,我認為應該找一個合作伙伴,就像硬件里頭最難的芯片,IT公司很少自主研發芯片,大家都通過合作的方式,節省開發成本以及人力投入。
更多時候大家需要轉變的是思路,從而獲取整體上IT運營價值,而不是從某種緯度上去節省費用,應當從長遠的角度分析是否具有投入的價值。
根據你這么多年的管理經驗,你認為一個優秀的團隊應該具備哪些能力和特點呢?
程顯峰:首先我覺得作為一個技術公司來講,技術能力無疑還是公司最重要的能力。而我們在做應用性能管理這方面跟其他企業完全不一樣的地方在于業務跟它的技術是完全合二為一的,所以技術就是我們最核心的業務。說到技術能力,我們比較自豪的是用很短的時間在大型商業系統、核心系統里面穩定地運行。并不會拿一些終端客戶的數據來替代我們在核心系統里的數據。同時,我們會主動要求客戶做非常嚴格的POC測試,會幫助他制定測試標準和建議,客戶也會公開公正地去做比較。所以,我們在技術上表現也是非常有信心。
另一個就是服務客戶能力。為什么國外的APM在國內很難用?網絡原因是一方面,更重要的是我覺得對客戶服務和創造價值的一個能力。我們有非常專業的顧問團隊,能幫助客戶極快地解決他們的問題。從長期來看我更希望它是一個非常自省、有內生改進動力的這么一個團隊。包括在整體我們對APM市場的認識,以及預見能力也是非常重要的。
今年國內雖說APM是一個元年,但是APM的發展趨勢,我覺得我們的團隊對這方面的認識還是非常深刻的。OneAPM并不是隨著潮流冒出來,畢竟我們在之前的BlueWare中給企業級做了很多應用性能管理,積累了很多年的經驗。所以我們在這個行業里面有深刻的行業理解,這也是我們核心的能力。
那么在如今的云計算的背景下,運維及運營模式會發生哪些改變呢?
程顯峰:首先運營,這是兩方面的事情。對于OneAPM,它首先是SaaS模式的一個服務,而對我們自身來講,是要把傳統APM云化的一個表現。另一方面,對于我們客戶來講他們也面臨很多云化的事情。所以,未來會有越來越多的企業機構都會把自己傳統的業務放到云端。
云化對APM產品來講是一個非常大的機遇,這也是美國APM技術在2008年發展起來的一個重要原因,像New Relic、AppDynamics的發展,都是借助云計算大勢起來的。其中的原因是客戶使用云后,摒棄掉很多傳統運維的習慣,這個時候能更好的適應現代化工具和新的業務。云簡化了運維,強化它的彈性和管理,這些都是APM特別適合的地方。包括云安全策略以及整體上云給大家帶來的服務理念,APM的思想與云具有天生的融合。包括現在移動互聯網都是APM特別適合的一個場景。我們也跟國內幾乎所有的云廠商有這種合作,相當于把我們的產品跟他的客戶緊密地結合在一起,為其客戶創造非常大的增值的效應。
對于運維,***個是思維上要有一個非常大的轉變。最近亞馬遜在美國開了Reinvent大會,公布它每年Deploy次數是五千萬次,雖然很多人都不相信這個數字,那么五百萬次應該是有的。如果是五百萬次部署,那也是遠遠超出了很多人想象能力,對于運維人員更是***的挑戰。好多運維人員給一年的時間部署五百萬次也沒法完成。
這時候問題發生在哪兒呢?其實亞馬遜的運維是通過技術團隊來完成的,運維團隊只提供一些工具,極其自動化。如果大家真正使用云的話,運維團隊的角色和思維方式都要發生這種轉變,我覺得亞馬遜是比較典型的例子。
我們國內運維人員都在做常規的上線和故障診斷這些事情,國外運維人員不做這些事情,至少有很多先進公司的運維人員是不做這些事情的,這是個趨勢。要求你能開發工具,以及對架構進行非常良好的設計。所以這對運維人員要求高,同時也需要運維人員要考慮的問題。
現在大家討論的東西很多關于DevOps、Operation這樣的話題,實際上這些話題做到***你就會發現還是回到傳統運維做的這些事情。新的運維模式有人提出這樣的觀點,稱ETA(Environment,Tools,Automation=環境工具自動化)。運維肯定會有這樣的工作職責和思維上的轉變,對他們來說才會從本質上去擁抱新一代技術。其實運維最近這些年的技術更迭非常快,之前幾年我們很少聽到大規模的自動化運維。
現在自動化程度不斷在提高,對性能管理要求也在不斷提高,這個實際上對運維人員是個挑戰,同時也是一個機會。
像惠普、戴爾他們都在做監測管理,但主要還是針對大企業。
程顯峰:對,不過通過Gartner報告來看,只針對大企業是必然會失敗的。從互聯網市場上來講,簡單有幾點,***他們不可能做出用戶友好的成品。第二個是他們這種部署的方式和交付的方式完全沒有辦法實現互聯網。第三,他們適應互聯網的動作太慢,他們在這個市場上必然是份額逐漸減少,然后漸漸地失掉市場份額。
如今的移動互聯網的火爆,帶動了創業團隊雨后春筍般涌現,你認為會不會有新的競爭者進入到APM這個領域來?
程顯峰:首先APM本身就是一個小眾的市場,玩家不會很多,即便在美國這種成熟的市場,它的玩家也就是***。另外,APM技術門檻相對來講比較高,而且需要長期通過實踐驗證的一個技術,即便你開發出來,很多人也不會相信你能夠達到一個良好的效果。畢竟你需要考慮到生長和集成,對于后進的玩家有很多不利的因素。但是APM的市場是非常巨大的,我們還是希望有更多的Competitor進入到這個市場。
現在最熱的詞就是云計算和大數據,兩者之間哪一樣都能離不開性能,我們在性能做到提升,這都是本質的一個提升。當性能翻倍了以后,它原來很多不能的事情就變成可能了。比如說有時候經常有比較復雜的廣告算法,不能在規定時間內算完。但是性能提高了以后,它就能算完。
表面上是看性能,實際上對業務的促進是極其巨大的。所以我覺得這個市場前景還是非常的廣闊,我們希望有更多的玩家進入到這個市場,踏踏實實為客戶服務。畢竟現在還屬于初期,市場需要共同培育成熟的這么一個過程。
目前APM隨著PaaS平臺的發展將面臨著一個很大的市場,您認為在業務方面有什么影響?
程顯峰:我應該是國內接觸PaaS比較早的,當時國內的PaaS環境還沒有成熟。且國內云計算廠商沒有提供相應的PaaS平臺,所以業內對國內的PaaS平臺現在持一個比較悲觀的看法,至少PaaS在國內兩三年左右不會有大的動作。如果說PaaS普及后, 是能夠給APM這個產品能帶來巨大的價值。尤其是國外的Heroku與New Relic這種非常典型的強強聯合的合作,國內缺少這樣的平臺。
當然,國內今后有這樣的平臺,我們非常愿意跟他們嘗試著深入合作。PaaS肯定對APM產品有一個巨大的推動效應,但是我們整體上來看國內還是處于一個IaaS的階段。PaaS從市場戰略上還是稍遠一點。




















