Enfabrica發布EMFASYS:優化大規模AI推理的彈性內存架構
Enfabrica,一家專注于高性能網絡芯片的公司,推出了其彈性內存網絡系統(Elastic Memory Fabric System,EMFASYS)。該系統通過整合其3.2Tbps ACF-S SuperNIC與基于CXL的DDR5內存,為AI集群提供靈活的高性能內存池,有望改變數據中心管理生成式AI內存的方式。
AI推理中的內存瓶頸
生成式AI是迄今為止最復雜的應用之一,其依賴復雜的計算處理海量數據集。大型語言模型(LLM)將信息分解為Token,通過神經網絡傳遞以生成參數——這些參數定義了模型的“思考”能力。更多的Token和參數帶來更強的能力,但也需要巨大的內存資源,每天在AI云服務中處理數十億批次推理調用。
在推理過程中,注意力機制(Attention Mechanism)跟蹤查詢的關鍵元素(Key)和上下文的要點(Value)以生成響應。隨著上下文窗口的擴大——一些模型現可處理數百萬Token——存儲這些Key和Value向量的KV緩存(KV Cache)所需內存迅速超過GPU或其他加速器上高帶寬內存(HBM)的容量。HBM雖然速度快,但成本高昂且容量有限,常常迫使系統通過擴展計算資源來增加內存,這是一種低效且成本高昂的方法。此外,模型權重和激活內存也需占用HBM空間,進一步加劇瓶頸。
EMFASYS通過提供以主機內存速度運行的共享內存池,解決了這一問題,適用于存儲KV緩存和嵌入(Embeddings),使推理更快、更具成本效益。這與行業使用CXL協議聚合同類TB級DDR內存作為HBM快速緩存的趨勢一致,這種“內存百寶箱(Memory Godbox)”的概念在AI工作負載中正獲得關注。
EMFASYS簡介
EMFASYS是一個機架兼容系統,由Enfabrica的ACF-S SuperNIC驅動,該芯片通過多端口800Gbps以太網提供3.2Tbps(400GB/s)的吞吐量。它通過Compute Express Link(CXL)協議連接高達18TB的DDR5內存,支持最多144條CXL通道。與需要CPU、多個NIC(如NVIDIA ConnectX或Broadcom)以及PCIe/CXL交換機的傳統架構不同,EMFASYS將這些功能整合到單一設備中。SuperNIC的一側處理通過400G或800G以太網端口的RDMA網絡,另一側作為PCIe交換機,通過將內存呈現為RDMA目標,簡化AI應用的數據移動。

GPU服務器與EMFASYS內存池之間的數據傳輸通過基于以太網的RDMA實現,利用CXL.mem協議支持零拷貝、低延遲(微秒級)的內存訪問,無需CPU干預。Enfabrica提供的內存分層軟件基于廣泛采用的Infiniband Verbs,運行于現有硬件和操作系統環境,管理傳輸延遲,確保無縫部署,無需重大架構變更。該軟件通過緩存層次結構(Caching Hierarchy)隱藏推理流水線中的延遲,保持高性能,適用于苛刻的工作負載。
EMFASYS針對具有長提示、大上下文窗口或多AI代理的AI用例,這些用例對GPU附帶的HBM造成顯著壓力。通過聚合同類DDR5內存,EMFASYS支持數據中心獨立于計算資源擴展內存,提高資源利用率并降低成本。Enfabrica估計,該系統在高周轉率和長上下文場景中可將每個AI生成Token的成本降低高達50%,同時通過更均勻的服務器任務分配消除瓶頸。
ACF-S SuperNIC內部解析
ACF-S SuperNIC,代號“Millennium”,是一款融合以太網和PCIe/CXL交換的芯片。其設計通過消除機架頂部以太網交換機、網絡接口卡和PCIe交換機的需求,降低計算架的復雜性。該芯片支持在4路或8路GPU服務器集群或超過18個CXL DDR內存通道上實現高吞吐量、零拷貝的數據放置,適用于多種配置。其跨多通道和端口的條帶化(Striping)交易能力最大化帶寬,克服了此前認為不適合AI的單端口CXL連接的限制。



與現有GPU附帶NIC相比,ACF-S提供四倍的I/O帶寬、基數(Radix)和多路徑韌性(Multipath Resiliency),是EMFASYS的堅實基礎。其可編程性支持超大規模(Hyperscale)環境定制,提升對大型數據中心的吸引力。芯片的內存移動引擎進一步優化數據傳輸,確保高效處理大規模并行內存操作。
EMFASYS架構與優勢

EMFASYS系統在中心機架部署內存服務器,每個機架包含8臺服務器。每臺服務器搭載9個SuperNIC,每個SuperNIC提供兩個CXL內存DIMM,使用1TB DIMM實現18TB DDR5容量。8臺服務器共提供144TB內存,可供周圍四個GPU服務器機架訪問。每個GPU機架使用EMFASYS發起器(Initiator),通過PCIe MCIO鏈接連接到服務器,并通過800Gbps以太網和RDMA over Converged Ethernet(RoCE)實現與內存池的低延遲訪問。
即使使用較小的256GB DIMM,單臺服務器可提供4.5TB,整個機架可達36TB,相當于192個Nvidia Blackwell B200 GPU的內存(每個192GB,估價約4萬美元)。集中內存避免僅為容量而低效使用昂貴GPU。在Nvidia的GB200 NVL72系統中,每個B200 GPU共享Grace CPU上的LPDDR5內存,需144個Grace CPU才能達到36TB,且分散為288塊。相比之下,EMFASYS作為統一內存集群,跨節點條帶化數據以高效讀寫。
Enfabrica首席執行官Rochan Sankar解釋道:“我們構建了一個擁有大量內存的云存儲目標,跨所有內存通道條帶化交易。人們認為CXL不適合AI,因為他們只關注單端口帶寬。但通過寬內存控制器,你可以按需條帶化數據,使用所有端口分解寫入。這讓你能充分利用多鏈接帶寬,實現高吞吐量,例如100GB文件傳輸時間很短,具體取決于使用的線纜和通道數量。”
EMFASYS目前支持18個并行內存通道,計劃明年擴展至28個,可能通過增加SuperNIC或升級芯片實現。系統通過PCIe與任何GPU或XPU主機集成,表現為擴展內存,類似Nvidia的Grace CPU在Grace-Hopper或Grace-Blackwell配置中的功能。相比基于閃存的推理存儲,EMFASYS提供100倍低延遲和無限寫/擦除周期,非常適合內存密集型AI任務。
測試顯示,將EMFASYS添加到Nvidia GB200 NVL72機架可將每Token成本減半,表明GPU利用率顯著提高。這表明內存限制目前嚴重制約GPU吞吐量,EMFASYS的加入盡管成本不菲,但通過優化計算效率可帶來顯著節省。通過將HBM卸載到同類DRAM,EMFASYS減少了隨推理需求線性擴展GPU或CPU DRAM的需要,緩解成本壓力。
Enfabrica的愿景與行業背景
Enfabrica由Rochan Sankar(首席執行官,曾任Broadcom五代數據中心交換ASIC產品營銷與管理總監)和Shrijeet Mukherjee(首席開發官,曾任Cisco融合系統工程總監及Cumulus Networks軟件工程副總裁)于2020年創立。2021年,公司從隱形模式(Stealth Mode)中走出,致力于解決分布式系統中“百億美元I/O問題”。2023年,其加速計算結構(Accelerated Compute Fabric)的發布為匯聚機架內互連奠定了基礎,支持低延遲內存和I/O池。
Enfabrica是超以太網聯盟(Ultra Ethernet Consortium,UEC)的顧問成員,并為超加速器鏈接(Ultra Accelerator Link,UALink)聯盟貢獻力量,致力于推動AI基礎設施標準發展。公司近期在印度開設了研發中心以擴展工程團隊,并于2025年4月開始采樣ACF-S芯片,此前于去年末宣布其普遍可用性。目前,EMFASYS和ACF-S SuperNIC正由部分客戶進行試點測試,尚未公布更廣泛的可用性時間表。
意義何在
隨著推理工作負載需要更大的上下文、多AI代理和推理驅動查詢,內存限制成為AI的重大挑戰,某些查詢的計算需求比早期LLM高出10至100倍。EMFASYS通過提供可擴展、低延遲的內存池,為GPU和XPU系統提供補充。通過減少對成本高昂的HBM依賴并提高計算資源效率,EMFASYS有望降低成本并處理日益復雜的AI任務。其通過標準以太網端口和RDMA與現有基礎設施的集成使其成為數據中心的靈活選擇。
正如Sankar所言:“AI推理面臨內存帶寬和利潤疊加的挑戰。隨著推理變得更具代理性(Agentic)和記憶性(Retentive),傳統內存擴展方式將難以為繼。EMFASYS創建了一個彈性的機架級AI內存網絡,以全新方式應對這些挑戰。”在Nvidia支持和AI基礎設施演進的背景下,EMFASYS有望在測試進展中顯著提升大規模AI部署的效率和經濟性。
參考資料:Arts, S. (2025, July 29). Enfabrica unveils industry's first Ethernet-based AI memory fabric system for efficient superscaling of LLM inference. Enfabrica Blog. https://blog.enfabrica.net/enfabrica-unveils-industrys-first-ethernet-based-ai-memory-fabric-system-for-efficient-8078bd89fdcb
本文轉載自???Andy730???,作者:常華?

















