云計算時代,硬件為什么仍然非常重要?
加利福尼亞大學圣迭戈分校采用了“云優先”的戰略,他們淘汰了三臺大型機、將盡可能多的計算工作負載轉移到云端、盡可能放棄內部部署軟件,轉而使用軟件即服務。
加利福尼亞大學圣迭戈分校的首席信息官Vince Kellen說:“我很久以前就意識到,CIO們更多地應該是供應鏈領導者,而不是整天關注硬件規格。對于我們大多數的業務問題來說,硬件并不重要。”
越來越多的IT經理也有同感。60多年來,處理器、內存、存儲、以及其他由金屬和硅制成的組件決定了計算機的潛力和局限性。IT部門的核心作用一直是保護和優化這些寶貴的資產,系統管理員和維護人員保持數據中心的運轉。
大約20年前,虛擬化技術實現了硬件細節的抽象,讓基礎設施成為由軟件管理的單一實體。過去10年,云計算進一步推動了這一進程,使硬件成為一種抽象資源,而且對于客戶來說,這個資源越來越多地由別人來管理。
但令人驚訝的是,云實際上正在釋放大量新的硬件創新,從作為所有計算機和云構建基礎的芯片開始。
“這個時代實際上是半導體的黃金時代,”可編程邏輯電路和軟件公司Xilinx總裁兼首席執行官Victor Peng在最近由硅谷思想領袖論壇Churchill Club舉辦的 “The Renaissance of Silicon”活動上這樣表示。芯片制造商Micron總裁兼首席執行官Sanjay Mehrotra補充說:“在過去的40年里,從未有過現在這么更讓人激動的時刻。”
但遠不止是芯片。人們普遍認為,云基礎設施提供商把硬件視為一種商品,通過無限可擴展的構建塊以低成本、菊花鏈的方式連接在一起,并由復雜的軟件進行管理。“對IT經理來說,基礎設施就像是寵物。而對云廠商來說,云就是一種家畜,”Wikibon高級分析師Stu Miniman這么說。
但云也帶來了一些單靠軟件無法解決的棘手問題,這促使云提供商投資數十億美元在基于硬件的解決方案上,來應對遠程基礎設施的局限性。
云本身存在延遲方面的缺點,以及從云存儲中傳輸大量數據所涉及的延遲,這是推動基于硅芯片的網絡加速投資的因素之一。云計算推動物聯網的興起,引發了網絡邊緣新型低功耗設備的發展。
最重要的是,基于云的人工智能技術(如機器學習和深度學習)的普及,正在推動著對硬件架構的投資,以滿足這些應用對處理能力和內存的需求。
Pund-IT首席分析師Charles King認為:“如果沒有硬件方面的進步,那些我們認為理所當然的事情,例如即時啟動的電腦、智能手機、令人驚嘆的游戲視頻、超快速的內存數據庫、大容量存儲系統等等,都會面臨各種局限性,或者成本極高。”
“自從我開始工作以來,人們就說,硬件已死,”Wikibon首席分析師David Vellante說。 “直到現在這個預測也沒有變成現實。”
從本質上講,硬件重不重要不是關鍵,關鍵的是硬件用在哪。
硬件的大規模遷移
結果就是,硬件考量因素正在逐漸從用戶轉移到后端基礎設施——也就是現在的云。這對很多IT經理來說還好。
Advanced Disposal Services是一家廢棄物處理、回收和再循環公司,該公司CIO DougSaunders表示:“我們的五年計劃是將幾乎一切都放在云端,我不想操心硬件方面的問題。”
這位擁有20年IT經驗的資深人士表示,安裝、調整和保護服務器不僅占滿了他全部的工作時間,而且這個過程從初始訂單開始可能需要三個月的時間。“你總會聽到說IT速度太慢,其中一個原因就是硬件。”
軟件定義管理的吸引力很大,甚至內部硬件制造商也不再強調時鐘速度、CPU核心數和存儲容量等規格了,而是突出便捷性和易于管理等特性。
HPE軟件定義和云計算營銷總監Lauren Whitehouse表示,大多數客戶對于汽車中的汽缸數量或者發動機缸體尺寸并不關心,他們希望計算機也是如此。“他們也許不想管理計算機,但他們關心結果。”她指出,HPE的超融合和可組合式產品增長很快,這些產品避免了硬件管理中的很多細節工作。
戴爾最近推出的云平臺“通過獨特的方法,幫助客戶滿足混合云的需求......跨內部、邊緣和公有云提供一種更簡單、具有一致性的操作和軟件基礎設施,” Dell EMC服務器和基礎設施系統產品管理高級副總裁Ravi Pendekanti這樣說道。
對于IT部門而言,這是一個意外的收獲,以前IT部門會聘用大量技術人員來負責安裝和配置硬件,聘用管理員來調節性能并優化利用率。而今天,這些工作崗位正在被以服務水平管理、合同和云調度等方面的職位所取代。根據Statista的數據顯示,全球企業IT運營人員支出預計將從2015年的3150億美元降至2026年的1420億美元。
Hyperion Research研究和技術副總裁Bob Sorensen表示,即使在實驗室和學術機構等高性能計算設備的用戶群中,“也有越來越多的工程師是與硬件無關的,他們更喜歡在虛擬環境或者容器中啟動和運行”。
最重要的是,“IT經理不用再把時間花在機架堆疊和調節各種按鈕的工作上,而是通過軟件管理一切,” Wikibon的Miniman這樣說。
摩爾定律的終結
但是,讓硬件對于用戶是透明的這一訴求正在推動著芯片背后的大量工作,其中一個原因是過去那些推動計算機和服務器性能的核心技術不再保持快速發展。幾年前,磁盤驅動器達到了理論性能峰值,閃存存儲器的速度提升也已經達到了收益遞減的程度。
更根本的問題是,微處理器正面臨發展壁壘。40多年來,基于X86架構的芯片每18到24個月的性能大約會翻一倍,這就是所謂的摩爾定律。然而,芯片的小型化遭遇了物理上的限制,使得發展速度放緩且成本越來越高。
簡而言之,正如谷歌云計算機器學習基礎設施產品管理高級主管Damion Heredia設施蘇所說,“摩爾定律已死”。
通用微處理器“是為了運行很多不同類型的工作負載而生的”,但隨著通用微處理器的增長逐漸轉向專用計算工作負載如機器學習,導致“CPU無法提供解決這些問題的能力”。
這意味著計算機行業必須尋找其他方面的創新才能推動數十年來的增長勢頭。King表示:“硬件仍然很重要,只是硬件不同罷了。”
因此,圖形處理器市場開始飛速發展,這種芯片廣受機器學習軟件應用的歡迎。根據Global Market Insights的預測,到2024年全球GPU出貨量的年增長率將超過30%,收入達到800億美元。
作為這個市場的領導者,Nvidia在去年10月受加密貨幣市場崩盤拖累之前的股價在兩年里翻了兩番。盡管如此,長期前景仍然強勁。
Nvidia企業和邊緣計算解決方案高級總監Justin Boitano表示:“我們對外傳遞的一個重要信息就是,摩爾定律很大程度上已經結束,CPU級的計算性能達到了一個維持穩定的水平。”
不再強調微處理器
Nvidia和其他GPU制造商正在試圖滿足云廠商和系統制造商對新型硬件架構的需求,這種架構將不再強調微處理器性能,而是突出架構本身非常適合機器學習工作負載并行處理的需求。專門用于處理機器學習工作負載的機器會把大部分工作交給GPU,GPU會并行處理數據并將結果反饋給CPU,因此CPU的速度就不需要那么快。
對于某些工作負載來說,這種方法帶來了性能上質的飛躍。人工智能初創公司OpenAI上周獲得了微軟10億美元的巨額投資,該公司曾在去年預測,在2012年到2018年期間,OpenAI最大規模的人工智能訓練中所使用的計算能力增長了30多萬倍,3.5個月就翻一番的速度遠遠超過了摩爾定律的增長速度。
不僅僅是GPU,手機采用的低功耗、精簡指令集計算Arm微處理器也在物聯網設備甚至是AWS ECS實例中尋找新的用途。
英特爾和其他公司也把賭注投向了持久內存,這種新型內存會把存儲的數據保留特性與DRAM的速度優勢結合到一起。持久內存特別適合超大規模場景,這種技術證明了云計算帶來硬件優先級上的變化。“這將是一項具有革命性的技術,”VMware云平臺業務部首席技術官Kit Colbert這樣說。
由于云計算企業正試圖幫助那些將大量數據移入和移出云端的客戶解決延遲和數據傳輸問題,因此市場對網絡硬件的興趣也在激增。Hyperion公司的Sorensen表示:“關鍵在與數據移動,而不是計算能力。可以解決數據移動問題的CPU將會勝出。”
云計算三大巨頭——亞馬遜、微軟和谷歌——總共投資數十億美元在定制硬件上,用于提高自身云平臺的性能或者調優服務來滿足特定的用途,例如人工智能開發等等。云提供商喜歡人工智能。機器學習和深度學習過程會消耗大量數據,消耗的處理能力和所能提供的一樣多。
人工智能芯片
谷歌把自己的云計算戰略重點放在了處理人工智能工作負載上,為此設計了名為TPU的微處理器家族,號稱相比GPU的成本更低性能更高。
TPU的性能突飛猛進,到目前為止還沒有遇到X86面臨的物理局限性。谷歌的Heredia表示,2015年的時候在多層神經網絡ResNet 50上訓練一個深度學習模型的成本超過20萬美元,“而今天,成本比一杯咖啡還便宜”。
其他云提供商也加入到這場硬件大戰中。微軟Project Olympus是一項針對微軟基于OCP構建的云平臺打造一系列服務器結構塊的項目。AWS基于ARM的Graviton處理器從2015年開始開發,到現在已經在AWS EC2實例中實現普及。
“硬件專業化可以將延遲、性價比和功耗/性能比提高10倍,但多年來,大多數計算工作負載一直停留在通用處理器上,”AWS杰出工程師James Hamilton在最近的一篇博客文章中這樣寫道。亞馬遜每年要安裝一百多萬個專用芯片,專門用于機器學習工作負載。
亞馬遜的Nitro項目則是將硬件和軟件結合,消除虛擬化的開銷。Hamilton寫道,亞馬遜每年消耗“數百萬個Nitro ASIC,而且是僅供AWS使用”。除了網絡數據包封裝/解封裝、EC2安全群組實施和微處理器路由等開銷之外,這種硬件配置對于大多數IT部門來說都是不切實際的。
Xilinx公司的Peng表示,“用于特定領域的架構”越來越多地成為人工智能和其他要求苛刻的工作負載一種解決辦法。
英特爾也注意到了對專用處理器的需求,2015年英特爾以167億美元收購了FPGA制造商Altera,以及最近收購的Nervana Systems、Omnitek B.V.和Movidius等專用芯片公司,就很好地證明了這一點。
但這并不是說微處理器就會消亡。根據IDC的數據顯示,2018年全球基于英特爾X86的服務器出貨量增長15.4%,但其中大部分增長來自滿足云服務提供商的需求。
物聯網的因素
雖然擺弄DIP開關和熱插拔磁盤驅動器的時代可能快要結束,但并不是說IT部門就完全不關注硬件了。物聯網熱潮引入了數千種新平臺,這就需要考慮每個平臺底層的硬件因素。
“所有物聯網廠商都有他們自己的解決方案,說到硬件,現在這還是一個非常碎片化的領域,”美國北卡羅來納州卡里鎮首席技術官Peter Kennedey這樣表示。
美國北卡羅來納州卡里鎮正在將基礎設施遷移到云端,把大約25%的基礎設施轉移到超融合平臺上,但該鎮也在安裝智能停車計時器、智能水表,在供水系統中安裝阿片傳感器,甚至是嚙齒動物掉進陷阱的時候發送電子警報。
對于卡里鎮來說,要在云端處理所有這些新數據,延遲和數據量是最大的阻礙,這就需要安裝新的邊緣設備作為收集點和過濾點。“這是一種完全不同的硬件,每個硬件都是一個獨立的設備,而且每個廠商的硬件都是不同的,標準也非常非常新。”
對他來說,“硬件變得前所未有的重要”。
Advanced Disposal Services公司的Saunders表示,系統管理之類的傳統IT技能并不一定適用于這種新型的設備。目前他的公司正在為6000多輛卡車每輛車配備6個攝像頭,用于安全和合規監控等目的。
他說:“你需要一個知道如何創新和創造新收入的團隊,這與坐在辦公桌前監控87臺路由器可是不同的。”所幸的是,智能設備改變業務所帶來巨大的機會,吸引著年輕的IT人員從事這項工作。
云提供商正在通過專用服務和硬件來解決邊緣市場的各種問題,包括模擬云堆棧的內部部署基礎設施等,但隨著未來十年設備數量將近10倍的增長,可以肯定地說,物聯網將讓硬件一直成為關注焦點。
結果就是,IT部門未來今年將面臨大量的硬件…





















