面試官：消息隊列積壓百萬，除了加機器還有哪些解法？

作者：IT楊秀才 2025-11-19 09:27:56

本文我們就以面試為導向，從根源出發，深入聊聊消息隊列積壓的應對之道。

大家好，我是秀才，書接上回。在上一篇文章《面試官：高并發場景下，如何保證消息順序消費？》我們分析了消息的順序消費問題，這篇文章我們就來看消息隊列的另一個典型問題：消息積壓。

假設有這樣一個場景，有個電商公司，他們公司在雙11大促活動期間，隨著零點鐘聲敲響，流量洪峰瞬間涌入。系統表面上看起來扛住了，但幾分鐘后，下游服務的告警開始此起彼伏，用戶反饋“訂單處理中”的狀態遲遲不變。經過技術團隊緊急排查，最終定位到問題的根源：核心業務的消息隊列（Message Queue, MQ）積壓了上百萬條消息。這個時候應該怎么處理呢？

大多數人的第一反應就是“加機器，擴容消費者”。這個“三板斧”雖然暫時緩解了問題，但治標不治本。活動過后，這些為應對峰值而緊急增加的資源又閑置了。那除了簡單粗暴地加機器，還有沒有更優雅、更體系化的解決方案呢？

下面，我們就以面試為導向，從根源出發，深入聊聊消息隊列積壓的應對之道。

一、為什么我們的消費者不能無限擴展？

在探討解決方案之前，我們必須先弄清楚一個根本性的制約因素：為什么我們不能像Web服務器那樣，簡單地通過無限增加消費者實例來解決問題？只要預算足夠，加就對了。

答案在于消息隊列的核心設計——分區（Partition）模型。以Kafka為例，它引入了分區的概念來提升并行處理能力。一個Topic可以被劃分為多個分區，消息被分散存儲在這些分區中。而在消費端，一個消費組（Consumer Group）內的消費者會與這些分區進行綁定。當有新的消費者加入或離開消費 "消費組" 時，會觸發一次“再均衡（Rebalance）”，由消費組協調器（Group Coordinator）根據預設的分配策略（如Range或RoundRobin），重新分配分區與消費者的對應關系。

這里的關鍵規則是：一個分區在同一時刻，只能被消費組內的一個消費者實例所消費。假設這里有N個分區，但是如果不足N 個消費者，那么就會有一些消費者同時從多個分區里面拉取數據，如下圖所示：

那如果消費者數量多于分區呢？多出的分區將處于空閑狀態，無任務消費。這就意味著，消費者的并行度上限，被分區的數量牢牢鎖定了。如果你有5個分區，那么部署超過5個消費者實例是毫無意義的，多出來的消費者將處于空閑（Idle）狀態，永遠拿不到任何消息。

在面試中，清晰地解釋分區與消費者的這種綁定關系，是展現你基礎扎實的第一個關鍵點。當你解釋完這個核心規則后，一個很好的加分項是主動闡述其背后的設計權衡。你可以這樣補充：

“這種設計的背后，其實是一種權衡：它保證了在單個分區內，消息是被順序消費的，這對于很多需要保證順序性的業務場景（如訂單狀態變更、用戶行為軌跡）至關重要。同時，它也簡化了消費端的協調邏輯，避免了多個消費者同時處理一個分區數據時可能出現的復雜并發問題。”

這樣的補充，能立刻讓面試官感知到你思考的深度。

“這種方案雖然簡單，易實現，但它有很大的約束性，當消息積壓發生時，如果我們已經將消費者數量擴展到了與分區數相等，那么“加機器”這條路就已經走到頭了。我們必須尋找其他維度的突破口。“

二、如何為Topic規劃合理的分區數？

既然分區數是消費能力的天花板，那么在Topic創建之初，科學地規劃分區數量就顯得至關重要。這是一種主動防御，能有效避免未來的很多麻煩。

那么，這個“合理”的分區數，到底該如何確定呢？

業界并沒有一個放之四海而皆準的公式。最嚴謹的方式，當然是利用MQ自帶的壓測腳本（如Kafka的kafka-producer-perf-test.sh），在測試環境中模擬生產環境的消息大小、吞吐量，通過不斷調整分區數和消費者線程數來找到最佳值。但現實是，很多團隊沒有這樣的測試條件，或者不敢輕易在生產環境進行壓測。

在這種情況下，我在這里分享一個在實踐中總結的、簡單有效的估算方法：

評估生產者峰值吞吐：首先預估業務高峰期，所有生產者寫入消息的總速率。這需要和業務方充分溝通，了解未來的增長預期和活動規劃。數據來源可以是歷史監控數據（如Prometheus/Grafana中的指標）、業務數據分析報表等。假設峰值為5000條/秒。
評估單分區寫入上限：通過壓測或咨詢運維團隊，了解當前MQ集群下單分區的寫入性能極限。這個值受限于Broker的磁盤I/O、網絡帶寬、副本同步策略（acks參數）、消息壓縮方式等多種因素。假設是250條/秒。
評估單消費者處理能力：在不考慮任何優化的情況下，評估單個消費者實例處理消息的平均速率。這個速率的瓶頸通常不在于消費者本身，而在于其處理邏輯中涉及的外部依賴，比如數據庫寫入、RPC調用等。可以通過對消費邏輯進行性能剖析（Profiling）來精確測量。假設是100條/秒。

基于以上數據，我們可以計算出兩個所需的分區數：

滿足生產需求的分區數 = 生產者峰值吞吐 / 單分區寫入上限 = 5000 / 250 = 20個分區。
滿足消費需求的分區數 = 生產者峰值吞吐 / 單消費者處理能力 = 5000 / 100 = 50個分區。

為了確保生產者不被阻塞，且消費者能及時處理，我們應該取兩者中的最大值，即50個分區。在此基礎上，再增加一些冗余（比如10%~20%），最終確定為55或60個分區，以應對未來的業務增長和流量波動。

當你在面試中給出這個計算方法后，如果想讓回答更上一層樓，就不能止步于此。面試官其實更想聽到你對“權衡”的理解。你可以接著補充

“不過，分區數也并非越多越好。過多的分區會增加Broker元數據管理的開銷和客戶端的內存消耗。更重要的是，過多的分區會顯著延長消費者組發生再均衡（Rebalance）的時間，在此期間整個消費組是停止消費的，反而可能加劇消息積壓。所以，這是一個需要在吞吐能力和系統開銷之間尋找平衡的決策。”

三、應對積壓的快速解決方案

盡管我們做了事前規劃，但突發狀況仍在所難免。當告警響起，消息積壓已成事實，我們該如何快速應對？

首先，要冷靜分析積壓的類型或者是消息積壓的原因

突發流量所致：由于某個活動或突發事件導致的短暫流量高峰，消費者的處理能力本身是足夠的。這種情況在電商領域是非常常見的，比如進行某個促銷活動，往往都會伴隨著短暫的流量高分，活動已過，流量又恢復正常。此時，我們可以通過監控指標（如消費滯后量Consumer Lag、生產速率、消費速率）來估算恢復時間。例如，積壓了100萬條，消費速率比生產速率快1000條/秒，那么大約需要 1,000,000 / 1000 = 1000秒 ≈ 17分鐘就能恢復。如果你的業務對17分鐘的延遲完全可以接受，那么我們甚至可以不進行干預。如果持續時間相對較長，就可以考慮我們后續介紹的接種辦法
消費者能力不足：消費者的整體處理能力已經跟不上生產者的速度，積壓量會持續增長，這時就必須采取行動了。這種情況往往可能是因為我們的業務代碼有一些隱藏的故障，導致消費能力很弱，或者是隨著時間的拉長，原本數據庫里的表數據變得越來越大，此時在數據存儲層的處理時間越來越久，拖慢了整個消費速度，這個時候就需要我們去進行一些慢SQL優化之類的工作了

接下來，我們就來看看，應對消費能力不足，并且在消費者數量已經等于分區數的前提下，要快速解決問題有哪些可行的方案？

1. 方案一：擴容分區

最簡單直接的方法就是增加Topic的分區數量。比如從50個分區擴容到80個，這樣我們就能相應地將消費者實例也增加到80個，系統的總消費能力自然就提升了。

在面試中提出這個方案時，一個體現你經驗豐富的小技巧是，主動說明其局限性。

你可以說：“當然，這個方案雖然直接，但在實際操作中可能會受限。比如，有些公司的中間件運維團隊對線上Topic的變更管控非常嚴格，隨意擴容分區可能會被禁止。而且，增加分區后，消息在分區間的分布可能會發生變化，如果業務邏輯依賴于特定的分區策略（比如基于某個ID的哈希），需要謹慎評估其影響。”

這表明你具備線上運維的風險意識，而不僅僅是紙上談兵。

2. 方案二：創建新Topic

很多時候線上消息隊列的分區，是不允許隨便添加的，因為這會犧牲掉Key的全局順序性（僅保證增加之后的新消息按新規則路由）。并且這個操作需要和下游消費方充分溝通，確保他們的業務邏輯能夠容忍這種變化，整體而言對整個系統的改動還是比較大的。所以一般我們可以采取“曲線救國”的策略，創建新的Topic，這種策略有兩種具體的落地方案：

(1) 并行消費

創建一個全新的Topic，例如order_topic_v2，并為其設置遠超當前需求的分區數（比如100個）。
讓生產者將新的消息寫入這個order_topic_v2。
同時，部署兩套消費組：一套繼續消費舊Topic（order_topic）中的積壓消息；另一套新的消費組，以足夠多的消費者實例，開始消費新Topic中的消息。
當舊Topic中的消息全部被消費完畢后，下線舊的消費組，整個系統平滑過渡到新的Topic。

(2) 消息轉發

這種方式主的核心思路是將舊的Topic的消息轉發到我們創建的分區更多的新Toptic下，然后部署全新的消費者組來襲來消費新Toptic，由于新的Toptic分區多，所以可以部署更多的消費者，提升消費能力，具體步驟如下：

創建一個分區數更多的新Topic order_topic_v2。
生產者切換到新Topic。
專門部署一個“搬運工”服務，它作為消費者從舊Topic中拉取積壓數據，然后作為生產者，將這些數據轉發到新Topic中。這個“搬運工”服務自身也需要保證高可用和高性能。
主力消費組只需要專注于消費新Topic即可。

能清晰地分析出不同方案的trade-off，是架構師能力的重要體現。在介紹完這兩種方式后，你可以主動進行對比：

“方式A處理積壓數據的速度更快，但需要在短期內維護兩套消費邏輯，增加了部署和運維的復雜性。而方式B的消費邏輯統一，代碼更易于維護，但增加了一個轉發環節，可能會稍微降低處理積壓數據的整體速度。選擇哪種方案，取決于當時對恢復速度的要求和團隊的運維能力。”

四、消費者性能優化

前面的增加分區或者是增加Topic只是一種比較粗力度的快速解決方案，應急過后，我們還需要向內求索，尤其是當外部擴容受限時，無法擴容的時候，更要通過通過優化消費者自身的處理邏輯來“提速”。這里主要介紹三種常用的方案

1. 引入降級

在某些業務場景下，消費邏輯并非“全有或全無”。我們可以借鑒微服務治理中的“降級”思想，在消息積壓時，有策略地放棄一些非核心操作，以換取整體處理速度的提升。例如，一個用戶動態（Feed）更新的消費者，其主要邏輯是：調用用戶服務、調用內容服務、計算權重分、寫入緩存。在消息積壓時，我們可以引入降級策略：在處理消息前，先檢查該動態的Feed緩存是否存在。如果緩存已存在，則跳過后續所有復雜的計算和調用，直接認為處理成功。這個邏輯的依據是：既然數據有10分鐘的緩存，那么在積壓的緊急情況下，用戶暫時看到幾分鐘前的舊數據是可以接受的。

將微服務治理的思想靈活運用到消息消費場景，能向面試官展現你知識體系的廣度和解決問題的靈活性。

2. 分布式鎖優化

分布式鎖優化主要是針對后臺有多個消費者存在并發問題，需要搶鎖單一消費的場景。比如一個訂單處理系統，消費者在處理訂單消息時，為了防止并發問題（例如同一個訂單被不同消費者重復處理），引入了基于Redis的分布式鎖。邏輯是：處理order_id=888的消息前，先獲取lock:order:888的鎖。這套機制在流量平穩時運行良好。但當消息積壓時，大量消費者線程因為等待同一個訂單的鎖而被阻塞，消費速度大打折扣。每一次加鎖解鎖，都意味著一次網絡往返，這在高吞吐場景下是巨大的性能損耗。

這里就可以用消息隊列來優化：在生產者發送消息時，指定訂單ID（order_id）作為分區的Key。消息隊列的派發機制（通常是hash(key) % numPartitions）會保證，擁有相同Key的消息，總是被路由到同一個分區。如此一來，同一個訂單的所有相關消息（如下單、支付、取消）都會進入同一個分區，進而被同一個消費者實例順序處理。如此一來就不存在并發問題了，分布式鎖就可以被徹底移除，消費者的性也會得到提升。

用消息隊列的分區機制來優化分布式鎖，是一個非常常見而且有效的方案，大家一定要熟練掌握，不僅是面試，在實際業務場景中也大有用處。

3. 批處理

觀察生產者的行為，有時也能發現優化的契機。設想一個批量更新商品庫存的場景。上游系統每當一個商品庫存變更，就發送一條消息。當有成千上萬的商品需要同時更新時，就會產生海量的單條消息。

我們可以對生產者進行改造，讓它將短時間內的多個庫存變更聚合成一條消息再發送。相應地，消費者也改造為支持批量處理。一次數據庫操作處理上百個商品的庫存更新，其效率遠高于執行上百次單獨的更新操作。

在面試時，一個更能體現你主動性的說法是：“即使生產者無法改造，我們也可以只優化消費者。讓消費者一次拉取一批消息（如100條），然后在內存中將這些消息構造成一個批量請求，再一次性提交給下游服務或數據庫。這種‘消費側聚合’同樣能取得不錯的效果，更能體現我們作為消費端負責人的擔當和優化能力。”

五、亮點方案：異步消費+批量提交

如果說前面的方法是“術”，那么接下來要介紹的異步消費模型，則更接近于“道”，它是一種架構層面的重構，能最大程度地壓榨消費端的處理能力。

標準消費模型是“拉取-處理-提交”的同步循環。消費者線程拉取一條消息，執行業務邏輯，完成后提交位點，再拉取下一條。這個過程的瓶頸在于，拉取消息的網絡I/O和處理消息的業務邏輯是串行的，互相等待。

而異步消費模型則將其解耦：

一個專門的消費者線程：它的唯一職責就是高效地從消息隊列中拉取消息，然后迅速將消息放入一個內存隊列（如Java中的ArrayBlockingQueue）中。
一個獨立的線程池：這個線程池中的工作線程，從內存隊列中獲取消息，并執行真正的業務邏輯。

這樣一來，拉取消息的I/O操作和處理消息的CPU/I/O密集型操作就完全分離開來，互不干擾，整體吞吐能力大大增強。

在介紹這個終極方案時，面試官一定會追問其復雜性。你需要主動、深入地探討該模型帶來的三大挑戰及其解決方案，這才是體現你架構設計能力的關鍵。

1. 挑戰1：消息丟失風險

這個方案確實可以極大提升消費能力，但是也有可能帶來很多的問題，首先一點就是可能造成消息丟失。正常情況下，消息隊列的消費是要消費完一條消息，提交成功之后，才會接著消費下一條。改成這種消費架構之后，這個轉發消費者根本不關心消息是否被正確消費，只管把消息放入消息隊列就完事了。這就可能出現消費者線程將消息放入任務隊列后，worker線程還未處理完消息，應用就宕機了，worker重啟之后會接著消費后續消息，剛才這條消息就永久丟失了。

應對這種情況我們就可以考慮批量提交。消費者線程一次性拉取一批消息（比如100條），分發給工作線程池。然后，它會等待這100條消息全部被工作線程處理完畢后，才一次性向MQ提交這批消息的最高位點。

2. 挑戰2：重復消費問題

批量提交雖然解決了消息丟失，但又引入了重復消費的可能。如果在100條消息處理完、但在批量提交前發生宕機，那么應用重啟后，這100條消息會被再次拉取和處理。

這種情況最好的辦法當然就是保證消費邏輯的冪等性（Idempotence）。這是解決重復消費問題的唯一正確途徑。無論同一條消息被處理多少次，其最終產生的結果都應該是一致的。實現冪等性的常見方法包括：使用數據庫唯一鍵約束、樂觀鎖（版本號機制）、或是在處理前查詢狀態等。

3. 挑戰3：批次內部分失敗

此時厲害的面試官，還可能會接著問一個更棘手的問題，假設一批100條消息中，有99條成功了，但有1條因為某種原因（如數據庫連接超時）處理失敗了。我們該怎么辦？如果因為這1條失敗就整個批次不提交，那么會造成所有99條成功的消息被不斷重復處理，消費進度被阻塞。

應對這種情況這里有多種處理策略，每一種都體現了不同的健壯性設計思路。

同步重試：讓失敗的工作線程立即重試幾次（例如，間隔100ms重試3次）。這種方法簡單直接，但缺點是會拖慢整個批次的處理時間。因為當這個重復worker在重試的時候，其他worker必須要等它，所以要注意控制住重試的次數和重試的整體時間。

異步重試：將失敗的消息放入一個專門的重試線程中異步重試，讓主流程繼續。這種方式不會阻塞主流程，但會增加實現的復雜性。

失敗消息重入隊列：這是一種更優雅的做法。當工作線程處理某條消息失敗后，它不拋出異常，而是將這條消息（可以附帶上重試次數等信息）重新發送回同一個Topic。這樣，這條失敗的消息將會在稍后被再次消費，而當前批次可以順利完成并提交位點。需要特別注意的是，必須在消息體中加入一個重試計數字段，當重試次數達到閾值（如3次）后，就不再重新投遞，而是將消息記錄到死信隊列（Dead Letter Queue）或日志中，進行人工干預，以防止“毒丸消息”導致無限循環。

通過“批量提交 + 冪等保障 + 失敗消息重入隊列/死信隊列”這一套組合拳，我們就可以構建一個既高效又健壯的異步消費體系。在面試的時候，這也是一套可以讓面試官眼前一亮的消息積壓優化方案

六、小結

消息積壓幾乎是每個后端工程師在系統發展到一定階段后都會遇到的經典難題，它不僅考驗著我們對中間件的理解深度，更考驗著我們面對線上復雜問題的綜合處理能力。當面試官問你如何解決消息積壓問題時，一個結構清晰、層層遞進的回答會大大加分。你可以按照以下思路來組織你的答案：

定性問題：首先，搞清楚消息積壓的原因，區分是突發流量所致還是消費能力不足。表明你具備線上問題分類處理的思路。
分析根源：從消息隊列的分區模型入手，解釋為何不能無限增加消費者，點出問題的本質。

分層解答：

架構層（事前）：討論如何進行容量規劃，科學地預估和設置分區數。
應急層（事中）：提出快速見效的方案，如擴容分區和創建新Topic，并分析其利弊。
優化層（事后）：深入到消費者代碼層面，通過案例（去鎖、降級、批處理）展示你的代碼優化和性能調優能力。
進階層（架構重構）：最后，拋出異步消費這個“大招”，并深入探討其背后的復雜性（消息丟失、重復消費、部分失敗），展現你對復雜系統設計的駕馭能力。

這樣一套組合拳打下來，不僅全面地回答了問題，更向面試官展示了你從原理到實踐、從宏觀到微觀、從簡單方案到復雜架構的完整知識體系和系統化思考能力。

責任編輯：趙寧寧來源： IT楊秀才

消息隊列積壓 MQ 開發