Cloudflare API 服務中斷事件分析:React useEffect 漏洞引發(fā)級聯(lián)故障
Cloudflare 近日發(fā)布詳細事故報告,披露2025年9月12日導致其控制面板和API服務中斷超過一小時的重大故障。經調查,此次事件源于控制面板軟件漏洞與服務更新的疊加效應,最終引發(fā)關鍵內部系統(tǒng)的級聯(lián)故障。

故障根源分析
事件始于Cloudflare控制面板新版本的發(fā)布。公司報告顯示,該更新中的React代碼存在缺陷,導致對內部租戶服務API(Tenant Service API)發(fā)起重復且過度的調用。該服務是處理API請求授權的核心組件。
具體而言,漏洞存在于useEffect鉤子中——錯誤配置使其在每次狀態(tài)變更時都會觸發(fā)API調用,導致單次面板渲染期間形成請求循環(huán)。恰逢此時租戶服務API自身也正在進行更新部署。
存在缺陷的控制面板產生"驚群效應"(thundering herd),使新部署的服務不堪重負,最終引發(fā)異常故障與恢復失敗。由于租戶服務承擔API請求授權職能,其癱瘓導致UTC時間17:57起Cloudflare控制面板及大量API服務大面積中斷。
應急處置過程
Cloudflare工程團隊首先監(jiān)測到租戶服務負載激增,隨即采取減壓擴容措施:
- 實施臨時全局速率限制規(guī)則
- 增加Kubernetes pods資源以提升吞吐量
這些措施雖部分恢復了API可用性,但控制面板仍處于宕機狀態(tài)。UTC時間18:58嘗試修補服務錯誤代碼路徑的操作適得其反,導致API可用性二次短暫受影響。該變更被迅速回滾,最終于19:12全面恢復服務。
值得注意的是,此次中斷僅限于處理配置管理的控制平面(control plane)。得益于嚴格隔離機制,處理客戶流量的數(shù)據平面(data plane)未受影響,終端用戶服務始終保持在線。
后續(xù)改進措施
Cloudflare已制定多項防范措施:
- 優(yōu)先將租戶服務遷移至Argo Rollouts部署工具,該工具可自動檢測錯誤并回滾版本
- 在控制面板API重試邏輯中引入隨機延遲機制,緩解"驚群效應"
- 大幅增加租戶服務資源配置
- 改進容量監(jiān)控系統(tǒng),實現(xiàn)主動預警功能

























