直播周回顧日記Day2:高性能計算云時代 自在如風(fēng)不為硬件所縛
6月21日,亞馬遜云科技聯(lián)合51COT共同推出的這是我的架構(gòu)——直播周系列節(jié)目第二季第二集精彩繼續(xù)。本集邀請到的是亞馬遜云科技高級解決方案架構(gòu)師楊志浩和亞馬遜云科技高性能計算產(chǎn)品經(jīng)理耿煜,由他們共同分享“云端ARM助力HPC客戶擺脫硬件束縛,實現(xiàn)創(chuàng)新”的技術(shù)智慧和實踐經(jīng)驗。基于亞馬遜云科技自研的Graviton實例如何在高性能計算場景下實現(xiàn)降本增效,讓我們一起回顧本期直播:
金風(fēng)慧能的云上之旅
直播一開始楊志浩向我們介紹了金風(fēng)慧能依托云上Graviton 2實例實現(xiàn)高性能計算的案例。金風(fēng)慧能專注于提供新能源數(shù)字化、智能化產(chǎn)品及解決方案,以安全和提質(zhì)增效為核心目標(biāo),覆蓋風(fēng)電場運行的全生命周期。其氣象預(yù)報和功率預(yù)測產(chǎn)品正是部署在基于亞馬遜云科技Graviton實例,Graviton在HPC場景下的優(yōu)越性能,為金風(fēng)慧能實現(xiàn)降本增效提供了有力支撐。楊志浩簡單介紹了金風(fēng)慧能氣象應(yīng)用場景的架構(gòu),通過將來自氣象局、亞馬遜云科技托管的公開數(shù)據(jù)集和觀測儀器的數(shù)據(jù)進行處理、計算、分析,對天氣情況進行預(yù)報,并預(yù)測風(fēng)電場發(fā)電量,實現(xiàn)高效、精準(zhǔn)的電力調(diào)度。

為了滿足海量數(shù)據(jù)的快速、準(zhǔn)確處理,同時兼顧業(yè)務(wù)成本,金風(fēng)慧能的選擇是亞馬遜云科技Graviton。通過將WRF全流程部署在基于Graviton 2的ARM架構(gòu)計算平臺上,保證了計算前后的一致性,滿足長期穩(wěn)定快速運行的算力集群。據(jù)楊志浩介紹,Graviton 2獨特的長期運算價格模式,非常適用于金風(fēng)慧能每日全天候的計算需求。與傳統(tǒng)HPC不同,亞馬遜云科技的云上HPC能夠為客戶提供更加靈活彈性的購買方式,客戶通過預(yù)留實例能夠獲得更高性價比。亞馬遜云科技針對云上HPC的快速部署,還推出了Paraller Cluster服務(wù),為客戶提供單任務(wù)多節(jié)點,多隊列不同實例類型并行計算的靈活選擇。對于數(shù)據(jù)存儲問題,亞馬遜云科技的FSx for Lustre為客戶提供數(shù)據(jù)流轉(zhuǎn)存儲全套解決方案,同時滿足未來單任務(wù)多節(jié)點運行的共享存儲需求。在Graviton 2全套HPC架構(gòu)的助力下,相較于傳統(tǒng)的本地數(shù)據(jù)中心解決方案,金風(fēng)慧能的綜合成本降低了70%。
云計算為高性能計算賦能
隨著數(shù)據(jù)時代不斷加速前進,客戶對運算能力的要求日漸提高。然而傳統(tǒng)的數(shù)據(jù)中心解決方案由于其建設(shè)周期長、成本高,大大增加了企業(yè)成本,阻滯了生產(chǎn)效能。云計算架構(gòu)的靈活優(yōu)勢,幫助HPC突破了硬件束縛。耿煜為我們講述了美國笛卡爾實驗室的案例,借助云計算,笛卡爾實驗室僅用24分鐘就完成172,692個core集群的構(gòu)建,計算峰值達到理論最大峰值的70%,整個測試僅花費2萬美金。耿煜坦言道,如果是采用傳統(tǒng)的數(shù)據(jù)中心建設(shè)方案,全部費用大概需要2,000~3,000萬美金。云上HPC作為全球范圍內(nèi)高性能計算客戶的新寵兒,具備靈活的資源調(diào)度和無限的運算能力,同時有效降低成本,為客戶帶來了全新的云上體驗。
ARM身兼重任,HPC更上一層樓
2018年亞馬遜云科技發(fā)布了自研的第一代ARM架構(gòu)Graviton處理器,并很快推出第一款支持Graviton的實例。而在此之前,x86架構(gòu)處理器曾是亞馬遜云科技的唯一選擇。從x86到ARM,Graviton是否能夠承擔(dān)云計算的核心重任?客戶又是否能獲得平滑的切換?耿煜給出的答案是肯定的。耿煜談道,從亞馬遜云科技視角看,亞馬遜云科技正在不遺余力的打造基于Graviton的整個云上HPC生態(tài)。從市場來看,包括工業(yè)制造、電子芯片設(shè)計、生命科學(xué)、能源、地質(zhì)、天氣,包括智能駕駛等等很多場景實際上都在用ARM架構(gòu)構(gòu)建整個集群。從HPC場景看,HPC相關(guān)軟件也在不斷地向ARM的架構(gòu)進行適配。
亞馬遜云科技定制化解決方案

耿煜為我們展示了HPC工作負(fù)載的四個維度。第一個維度是解耦合工作負(fù)載,相對應(yīng)的維度就是分布的/網(wǎng)絡(luò)化工作負(fù)載,表現(xiàn)出松耦合的特征。從數(shù)據(jù)存儲的體量上來看,有些場景是依賴于海量的數(shù)據(jù),有些則是較輕量的數(shù)據(jù)存儲。亞馬遜云科技基于這四個維度對客戶需求進行劃分,針對不同需求提供全生命周期的定制化ARM架構(gòu)解決方案。
HPC降本增效亞馬遜全程保駕護航
耿煜介紹了5類亞馬遜云科技推出的HPC場景服務(wù)。第一類是亞馬遜云科技最為重要的產(chǎn)品之一——Amazon EC2彈性計算實例,云上客戶可以使用最高達24TB的內(nèi)存的計算實例,滿足對于單節(jié)點性能有很高要求的客戶,搭載的Graviton 2處理器,提高40%的性價比,非常適合高網(wǎng)絡(luò)吞吐且可以適配ARM的計算優(yōu)化型工作負(fù)載。第二類是Parallel Cluster,能夠幫助客戶一鍵式創(chuàng)建集群,客戶只需要編寫簡單的腳本,就能完成集群的快速配置,根據(jù)不同任務(wù)需求,還可以彈性調(diào)整集群大小。第三類是Elastic Fabric Adapter,能為客戶提供高達400G的網(wǎng)絡(luò)存儲。第四類是FSx系列,將HPC場景下的集群分布式文件系統(tǒng)適配到用戶常用的幾大類中,在云上可以提供本地物理服務(wù)器構(gòu)建的節(jié)點所達不到的性能,且其性能隨著存儲容量線性增長,非常適用于HPC任務(wù)受制于存儲的客戶。第五類是Amazon Batch,協(xié)助客戶完成容器化集群的構(gòu)建。亞馬遜云科技通過這5大類服務(wù),為客戶對性價比、高性能、安全性的需求提供了全套解決方案。
靈活自在,成本無憂
區(qū)別于傳統(tǒng)HPC短期計價,亞馬遜云科技運用其云上優(yōu)勢,為客戶提供長期HPC計價模式,助力客戶實現(xiàn)成本壓縮。耿煜介紹道,亞馬遜云科技在為客戶設(shè)計HPC架構(gòu)時,通常會根據(jù)客戶是否有經(jīng)常性的任務(wù)、突發(fā)型任務(wù),并且根據(jù)任務(wù)需求量、任務(wù)是否允許中斷,為客戶量身定制解決方案。同時亞馬遜云科技也支持短期HPC計算算力采購需求,耿煜呼吁,鼓勵客戶更多地使用亞馬遜云科技的云上資源,達到更高的成本優(yōu)化。
這是我的架構(gòu)——直播周系列節(jié)目第二季第二集完美收官,明天各路大咖又將帶來怎樣的思想碰撞,敬請期待!


























