Linux CPU 優化：揪出拖慢性能的“元兇”

作者：深度Linux 2025-07-22 03:22:00

正因如此，深入了解 CPU 性能問題，掌握優化技巧，對 Linux 系統的穩定高效運行至關重要。接下來，就讓我們一同開啟探索 CPU 性能優化之旅，揪出那些拖慢系統性能的 “元兇” 。

在Linux系統的廣袤世界里，無論是運行關鍵業務的服務器，還是開發者手中的開發環境，CPU 就如同跳動的心臟，其性能直接決定了系統的生命力。當 CPU 性能出現問題，就像心臟供血不足，會引發一系列連鎖反應，其中最明顯的就是服務卡頓和響應遲緩。

想象一下，你運營著一個基于 Linux 系統的電商網站，在促銷活動期間，大量用戶涌入。此時，如果 CPU 性能不佳，用戶點擊商品詳情可能要等待數秒才能加載出來，下單操作更是遲遲沒有響應。這不僅嚴重影響用戶體驗，還可能導致大量訂單流失，給業務帶來巨大損失。又比如，在數據分析場景中，Linux 服務器需要處理海量數據，如果 CPU 性能瓶頸凸顯，原本幾小時能完成的數據分析任務，可能會延長數倍時間，讓寶貴的商業決策時機白白溜走。

Part1.認識CPU性能指標

在深入排查 CPU 性能問題前，我們先來認識幾個關鍵的 CPU 性能指標，它們如同 CPU 的 “健康密碼”，能幫助我們準確判斷 CPU 的工作狀態。

1.1平均負載（Load Average）

平均負載是指單位時間內，系統處于可運行狀態和不可中斷狀態的平均進程數，也就是平均活躍進程數。簡單來說，它反映了系統的繁忙程度。可運行狀態的進程，是指正在使用 CPU 或者正在等待 CPU 的進程；不可中斷狀態的進程則是正處于內核態關鍵流程中的進程，并且這些流程是不可打斷的，最常見的是等待硬件設備的 I/O 響應。

我們可以使用 uptime 命令或 top 命令來查看系統的平均負載。比如，執行 uptime 命令后，得到的結果 “14:21:38 up 1 day, 1:22, 2 users, load average: 0.58, 0.65, 0.70”，其中最后三個數字 0.58、0.65、0.70 分別表示過去 1 分鐘、5 分鐘、15 分鐘的平均負載。

平均負載與 CPU 核心數密切相關。對于一個單核 CPU 系統來說，如果平均負載為 1，意味著 CPU 剛好被完全占用；如果平均負載大于 1，則表示有進程在等待 CPU 資源，系統出現了過載。而在一個 4 核 CPU 系統中，當平均負載為 4 時，CPU 才被完全占用；若平均負載為 2，說明 CPU 還有 50% 的空閑。一般認為，當平均負載高于 CPU 數量 70% 的時候，就需要關注并分析負載高的問題了。例如，在一個擁有 2 個 CPU 核心的服務器上，如果 1 分鐘平均負載長期高于 1.4，就可能會出現性能問題，需要進一步排查原因。

1.2CPU 使用率

CPU 使用率，簡單來說，就是在一段時間內，CPU 被占用的時間占總時間的比例，是一個百分比數值。它就像衡量 CPU 工作強度的 “體溫計”，直觀地反映了 CPU 在單位時間內有多 “忙” 。

其計算方式并不復雜。對于單核 CPU 而言，在某一時間段內，若 CPU 執行程序指令的時間為 t1，總時間為 T，那么該時間段內的 CPU 使用率 = （t1 / T）× 100% 。例如，在 1 秒鐘內，CPU 有 0.5 秒在執行程序指令，那么這 1 秒內的 CPU 使用率就是 50%。而對于多核 CPU，計算方式則是將每個核心在單位時間內的使用率相加，再除以核心數。假設一個四核 CPU，每個核心在 1 秒內分別被占用 0.3 秒、0.4 秒、0.2 秒和 0.1 秒，那么總的 CPU 使用率就是（0.3 + 0.4 + 0.2 + 0.1）÷ 4 × 100% = 25% 。

當 CPU 使用率較高時，如達到 80% - 90% 及以上，就意味著 CPU 正在承擔大量的計算任務，計算機的響應速度可能會變慢。以運行大型 3D 游戲為例，游戲運行時，CPU 需要處理復雜的圖形算法、物理模擬以及大量的游戲邏輯，這使得 CPU 的使用率急劇上升。若此時 CPU 性能不足，就會導致游戲畫面卡頓、幀率不穩定等問題。相反，當 CPU 使用率較低，如在待機或者只運行一些簡單的文本編輯軟件時，CPU 使用率可能只有 10% - 20% 左右，計算機能夠快速響應用戶的其他操作指令。

1.3上下文切換

在多任務處理的環境中，Linux 系統看似能夠同時運行多個任務，但實際上，在同一時刻，CPU 只能執行一個任務。為了實現多任務并發執行的效果，操作系統引入了上下文切換機制，這就好比一場接力賽跑中的 “接力棒交接” 。

上下文切換，是指操作系統保存當前正在執行的任務（可以是進程或線程）的狀態（即上下文），并加載另一個任務的狀態，使得 CPU 能夠從一個任務快速切換到另一個任務執行。這里的上下文，既包括虛擬內存、棧、全局變量等用戶態的資源，也包括內核堆棧、寄存器等內核態的資源。

在 Linux 系統中，進程有多種狀態，不同狀態與 CPU 的關系也各不相同：

運行態（Running）：表示進程正在被 CPU 執行，或者在運行隊列中等待被調度執行。處于運行態的進程直接占用 CPU 資源，是 CPU 忙碌的直接原因。例如，當我們啟動一個計算密集型的程序時，該程序的進程會處于運行態，大量占用 CPU 時間進行計算。
可中斷睡眠態（Interruptible Sleep）：進程正在等待某一事件的發生，例如等待 I/O 操作完成、等待信號等。此時進程處于睡眠狀態，但可以通過信號喚醒。處于這種狀態的進程不會占用 CPU 資源，直到被喚醒進入就緒態，才有可能被 CPU 調度執行。比如，一個進程發起了磁盤讀取操作，在等待磁盤返回數據的過程中，它就處于可中斷睡眠態。
不可中斷睡眠態（Uninterruptible Sleep）：進程等待某種無法通過信號喚醒的資源，通常是在等待硬件操作完成，如等待磁盤 I/O、等待網絡傳輸完成等。此時進程不會響應任何信號，直到所等待的事件發生。不可中斷睡眠態的進程雖然不占用 CPU 執行時間，但會使系統的平均負載增加，因為它處于不可中斷的關鍵流程中。例如，當進程向磁盤寫入大量數據時，為了保證數據一致性，在寫入完成前，進程會處于不可中斷睡眠態。
暫停態（Stopped）：進程被暫停運行，通常是接收到 SIGSTOP 信號導致。進程停止運行但沒有終止，所有的上下文信息都會被保留。暫停態的進程不占用 CPU 資源，直到接收到 SIGCONT 信號恢復執行并進入就緒態。比如，我們在調試程序時，可以使用調試工具將進程暫停在某個斷點處，此時進程就處于暫停態。
僵尸態（Zombie）：進程已完成執行，但其父進程尚未通過 wait () 或 waitpid () 系統調用獲取其退出狀態并清理資源，因此進程仍然保留著一個條目以供父進程讀取其退出狀態。僵尸態進程不會消耗任何 CPU 資源，但其進程表項仍占用系統資源，長時間存在可能會導致系統資源耗盡。例如，一個父進程創建了多個子進程，卻沒有正確處理子進程的退出，就可能產生僵尸進程。

圖片

在多任務處理中，上下文切換發揮著至關重要的作用。它使得多個任務能夠公平、高效地共享CPU資源，從而提高系統的吞吐量和響應時間。例如，當你在電腦上同時打開瀏覽器瀏覽網頁、播放音樂以及運行文檔編輯軟件時，操作系統通過上下文切換，在這些任務之間快速切換CPU的執行權，讓你感覺這些任務在同時進行。

然而，頻繁的上下文切換也會對CPU性能產生負面影響。這是因為每次上下文切換都需要保存當前任務的上下文信息，并加載新任務的上下文信息，這個過程涉及到 CPU 寄存器的讀寫、內存訪問等操作，會消耗一定的時間和CPU資源。過多的上下文切換，會占用CPU過多時間，縮短真正運行時間，導致系統整體性能大幅下降。假設一個系統頻繁進行上下文切換，CPU將大量時間耗費在寄存器、內核棧以及虛擬內存等資源的保存和恢復上，真正用于執行任務的時間就會減少，從而使得系統的運行速度變慢，響應延遲增加。

那么，哪些因素可能導致上下文切換過多呢？系統中同時存在過多的進程或線程，是一個常見的原因。當進程或線程數量超出 CPU 的處理能力時，操作系統就需要頻繁地在它們之間進行切換，以滿足每個任務的執行需求。低優先級進程的競爭也可能導致頻繁的上下文切換。如果多個低優先級進程在爭用 CPU 資源，操作系統為平衡負載而頻繁切換，也會增加上下文切換的次數。I/O 操作也是一個重要因素。當進程需要等待 I/O 操作（如磁盤讀寫或網絡請求）完成時，會被掛起，操作系統會切換到其他進程，若I/O操作非常頻繁，就會導致上下文切換頻繁發生。

Part2.排查性能元兇

當我們對 CPU 性能指標有了清晰認識后，就需要借助一些強大的工具來排查那些導致 CPU 性能下降的 “元兇”。在 Linux 系統中，有許多實用工具，它們就像經驗豐富的偵探，能幫助我們從復雜的系統運行狀態中找到問題的關鍵所在。

2.1 top與 htop：系統資源的實時 “監視器”

top 命令堪稱 Linux 系統性能監控的 “元老”，它以簡潔直觀的方式展示系統資源的實時使用情況，如同一位忠誠的衛士，時刻守護著系統的性能健康。在終端輸入 top，瞬間就能開啟這場系統資源的 “實時之旅” 。

top 命令的輸出信息豐富而全面，第一行展示了系統的基本信息，包括當前時間、系統運行時長、當前登錄用戶數以及系統的平均負載（分別是過去 1 分鐘、5 分鐘和 15 分鐘的平均負載）。這些信息就像系統的 “健康檔案”，為我們提供了一個宏觀的系統運行概覽。平均負載是一個重要的指標，它反映了系統中正在運行的進程和等待運行的進程數量。如果平均負載持續高于系統的 CPU 核心數，就像一個人同時承擔了過多的任務，會導致系統運行緩慢，響應延遲。

第二行呈現了系統的任務（進程）信息，如進程總數、正在運行的進程數、睡眠狀態的進程數、停止狀態的進程數以及僵尸進程數。進程是系統運行的基本單元，了解進程的狀態對于判斷系統性能至關重要。僵尸進程是已經結束運行，但父進程沒有正確回收其資源的進程，它們雖然不占用 CPU 時間，但會占用系統資源，過多的僵尸進程會導致系統資源浪費。

第三行則聚焦于 CPU 狀態信息，詳細列出了用戶空間占用 CPU 的百分比（us）、內核空間占用CPU的百分比（sy）、改變過優先級的進程占用 CPU 的百分比（ni）、空閑CPU百分比（id）、IO 等待占用 CPU 的百分比（wa）、硬中斷占用 CPU 的百分比（hi）、軟中斷占用CPU的百分比（si）以及虛擬機偷取時間（st）。這些指標就像CPU的 “健康指標”，通過它們，我們能深入了解 CPU 的工作狀態。當us值較高時，說明用戶進程消耗了大量的 CPU 資源，可能是某個用戶程序存在性能問題，比如算法效率低下，需要頻繁進行復雜的計算；sy 值高則表示系統內核在 CPU 資源上的開銷較大，這可能是由于頻繁的系統調用、大量的 I/O 操作或者內核模塊的性能問題導致的；wa 值高通常意味著系統在等待 I/O 操作完成，可能是磁盤讀寫速度過慢、網絡延遲過高或者 I/O 設備出現故障。

除了這些基本信息，top命令還支持一些便捷的交互操作，讓我們能更靈活地監控系統性能。按下大寫的“M”，結果會按照內存占用從高到低排序，幫助我們快速找出占用內存最多的進程；按下大寫的“P”，則按照CPU占用率從高到低排序，讓 CPU 占用大戶無所遁形；當服務器含有多個 CPU 時，按下數字 “1”，可以切換顯示各個CPU的詳細信息，讓我們能精準了解每個 CPU 核心的工作情況。

如果說 top 命令是一位簡潔高效的 “傳統偵探”，那么 htop 則是一位功能強大、更具交互性的 “現代神探”，它在 top 命令的基礎上進行了全面升級。htop 支持圖形界面的鼠標操作，就像為我們提供了一個直觀的操作面板，讓我們能更輕松地與系統監控界面交互。它還可以橫向或縱向滾動瀏覽進程列表，即使面對長長的進程列表和完整的命令行，也能輕松查看所有進程信息，不放過任何一個細節。在殺進程時，htop 無需像 top 那樣輸入繁瑣的進程號，只需輕松操作，就能快速結束目標進程。

htop 的功能遠不止這些。按下 F2 鍵，可以進入設定布局界面，根據自己的需求調整監控信息的顯示布局，讓監控界面更符合個人使用習慣；按下 F3 鍵，能快速搜索進程，就像在茫茫進程海洋中找到了精準定位的 “指南針”；按下 F4 鍵，可使用增量進程過濾器，根據特定條件篩選出我們關注的進程；按下 F5 鍵，能以樹形結構顯示進程關系，清晰呈現進程之間的父子關系，幫助我們更好地理解系統的進程架構；按下 F6 鍵，可以選擇排序方式，按照不同的指標對進程進行排序，以便更方便地分析進程的資源占用情況；按下 F7 和 F8 鍵，可以分別減少或增加進程的 nice 值，從而調整進程的優先級，合理分配系統資源；按下 F9 鍵，能對進程傳遞信號，實現對進程的更多控制操作。

在實際應用中，top 和 htop 都有著廣泛的用途。在服務器運維場景中，系統管理員可以通過 top 實時監控服務器的 CPU、內存等資源使用情況，及時發現資源占用異常的進程，如某個進程突然占用大量 CPU 資源，導致服務器響應變慢，管理員可以迅速通過 top 或 htop 定位到該進程，并采取相應措施，如優化程序代碼、調整進程優先級或者直接結束進程，以保障服務器的穩定運行。在開發和測試環境中，開發人員可以利用 htop 的強大交互功能，深入分析程序運行時的資源占用情況，找出程序中的性能瓶頸，如某個函數在執行過程中占用過多 CPU 時間，開發人員可以針對該函數進行優化，提高程序的整體性能。

2.2 vmstat 與 iostat：系統狀態的深度 “探測器”

vmstat 命令如同一位深入系統內部的 “探測器”，能夠提供關于進程、內存、內存分頁、堵塞IO、traps及CPU 活動的詳細信息，讓我們對系統的運行狀態有更全面、深入的了解。在終端輸入vmstat，即可開啟這個系統狀態的深度探測之旅。

vmstat 命令的輸出結果分為多個部分，每個部分都蘊含著豐富的系統運行信息。procs 部分展示了進程相關信息，其中 r 表示運行隊列中進程的數量，這些進程都處于可運行狀態，正急切地等待 CPU 的分配。當這個值超過了 CPU 的核心數目，就如同眾多乘客爭搶有限的出租車，必然會出現 CPU 瓶頸。此時，系統的運行效率會大幅下降，表現為程序響應遲緩、操作卡頓等。b 表示被 blocked（阻塞）的進程數，這些進程正在等待 IO 操作完成，就像在交通擁堵的路口等待通行的車輛，它們的存在也會影響系統的整體性能。

memory 部分呈現了內存的使用情況，swpd 表示使用的虛擬內存的大小，如果該值大于 0，就像一個人在小房間里放置了過多的物品，說明機器的物理內存可能不足。這時候，我們需要進一步排查原因，可能是程序存在內存泄露問題，也可能是系統本身的內存配置無法滿足當前的業務需求。free 表示可用的物理內存大小，它反映了系統當前還有多少 “空閑資源” 可供使用。buff 和 cache 分別表示物理內存用來緩存讀寫操作的 buffer 大小以及用來緩存進程地址空間的 cache 大小。

合理利用buffer和cache可以提高系統的IO性能，因為它們可以減少對磁盤的直接讀寫次數。當程序需要讀取數據時，首先會在 cache 中查找，如果找到，就可以直接從 cache 中讀取，而無需訪問磁盤，大大提高了數據讀取速度；同樣，當程序需要寫入數據時，數據會先寫入 buffer，然后由系統在適當的時候將 buffer 中的數據寫入磁盤，這樣可以減少磁盤的隨機寫入次數，提高寫入效率。

swap 部分展示了系統的交換空間使用情況，si 表示每秒從磁盤讀入虛擬內存的大小，so 表示每秒虛擬內存寫入磁盤的大小。當內存夠用時，這兩個值通常都是 0。但如果這兩個值長期大于 0，就像在一個繁忙的港口，貨物頻繁地裝卸，說明系統在頻繁地進行內存和磁盤之間的數據交換，這會嚴重影響系統性能。

io 部分提供了輸入輸出信息，bi 表示每秒從文件系統或 SWAP 讀入到 RAM（blocks in）的塊數，bo 表示每秒從 RAM 寫出到文件系統或 SWAP（blocks out）的塊數。在隨機磁盤讀寫操作中，如果這兩個值越大（如超出 1024k），就像高速公路上的車流量過大，能看到 CPU 在 IO 等待的值也會越大，這表明系統的 IO 性能可能存在瓶頸。

system 部分呈現了系統信息，in 表示每秒的中斷數，cs 表示系統每秒進行上下文切換的次數。上下文切換是指 CPU 從一個進程或線程切換到另一個進程或線程的過程，這個過程需要保存和恢復進程或線程的上下文信息，會消耗一定的 CPU 資源。因此，cs 值越小越好，如果上下文切換次數過多，就像一個人頻繁地在不同任務之間切換，會導致 CPU 大部分時間浪費在上下文切換上，真正用于執行任務的時間就會減少。

cpu 部分展示了 CPU 活動的相關信息，us 表示用戶空間占用 CPU 的百分比，當 us 的值較高時，說明用戶進程消耗的 CPU 時間比較多，如果長期超過 50%，就像一個員工承擔了過多的工作任務，我們就需要考慮優化程序算法或者進行加速，以提高 CPU 的使用效率。sy 表示內核空間占用 CPU 的百分比，sy 值高時，說明系統內核消耗的 CPU 資源多，這可能是由于頻繁的系統調用、大量的 I/O 操作或者內核模塊的性能問題導致的，需要進一步排查原因。

id 表示 CPU 空閑的百分比，它反映了 CPU 當前的空閑程度。wa 表示 CPU 等待 IO 的百分比，wa 值高時，說明 CPU 在等待 I/O 操作完成的時間比較多，這可能是由于大量的磁盤隨機訪問造成的，也有可能是磁盤出現瓶頸，需要對磁盤性能進行優化。st 表示來自于虛擬機偷取的 CPU 所占的百分比，在虛擬化環境中，這個指標對于評估虛擬機對物理機 CPU 資源的占用情況非常重要。

iostat 命令則是專門用于監控系統設備的 IO 負載情況的 “專家”，它能為我們提供豐富的 IO 性能狀態數據，幫助我們準確判斷系統的 IO 性能瓶頸。iostat 首次運行時，會顯示自系統啟動開始的各項統計信息，之后運行 iostat 將顯示自上次運行該命令以后的統計信息。我們可以通過指定統計的次數和時間來獲得所需的統計信息，非常靈活方便。

iostat 命令的輸出結果主要包括 CPU 信息和磁盤信息兩個部分。在 CPU 信息部分，% user 表示用戶態 CPU 占用百分比，% nice 表示 nice 優先級較高的進程的 CPU 占用百分比，% system 表示系統態 CPU 占用百分比，% iowait 表示等待 I/O 的 CPU 占用百分比，% steal 表示虛擬機監控器占用的 CPU 時間百分比（僅在虛擬化環境中出現），% idle 表示 CPU 空閑百分比。這些指標與 vmstat 中 CPU 部分的指標類似，但 iostat 的輸出更加專注于 CPU 與 IO 相關的性能情況。當 % iowait 值較高時，說明 CPU 在等待 I/O 操作的時間較長，這可能是磁盤讀寫速度過慢、I/O 設備繁忙或者 I/O 調度不合理等原因導致的。

磁盤信息部分是 iostat 命令的重點，它詳細展示了每個磁盤設備的性能指標。Device 表示磁盤設備的名稱，tps 表示每秒傳輸的塊數量，它反映了磁盤的 I/O 操作頻率，就像高速公路上每秒通過的車輛數。kB_read/s 表示每秒從設備讀取的數據量，kB_wrtn/s 表示每秒向設備寫入的數據量，這兩個指標直觀地展示了磁盤的讀寫速度。kB_read 和 kB_wrtn 分別表示讀取和寫入的總數據量。

此外，iostat 還可以通過 - x 選項顯示更詳細的擴展數據，如 rrqm/s 表示每秒這個設備相關的讀取請求有多少被 Merge 了，wrqm/s 表示每秒這個設備相關的寫入請求有多少被 Merge 了，rsec/s 和 wsec/s 分別表示每秒讀取和寫入的扇區數，avgrq-sz 表示平均請求扇區的大小，avgqu-sz 表示平均請求隊列的長度，await 表示每一個 IO 請求的處理的平均時間，svctm 表示平均每次設備 I/O 操作的服務時間，% util 表示在統計時間內所有處理 IO 時間除以總共統計時間，它反映了設備的繁忙程度。當 % util 接近 100% 時，說明磁盤設備已經接近滿負荷運行，可能會出現 I/O 性能瓶頸。

在實際應用中，vmstat 和 iostat 常用于排查系統性能問題。當系統出現卡頓、響應遲緩等問題時，我們可以先使用 vmstat 查看系統的整體運行狀態，包括 CPU、內存、IO 等方面的情況，初步判斷問題所在。如果發現 CPU 等待 IO 的時間較長，或者內存使用異常，就可以進一步使用 iostat 命令來深入分析磁盤的 IO 性能，找出具體是哪個磁盤設備出現了問題，以及問題的具體表現，如讀寫速度過慢、請求隊列過長等。通過這些工具的配合使用，我們能夠更準確地定位系統性能問題的根源，為后續的優化工作提供有力支持。

2.3 perf：CPU 性能分析的專業 “手術刀”

perf工具堪稱Linux系統中 CPU 性能分析的 “手術刀”，它功能強大，能夠利用處理器硬件性能監控單元進行性能事件采樣，幫助我們深入剖析程序的性能瓶頸，精確找出進程的熱點函數，是解決CPU性能問題的得力助手。

perf 工具基于硬件性能計數器（Hardware Performance Counters，HPC）工作，這些計數器是 CPU 內部的特殊寄存器，就像一個個精密的傳感器，能夠記錄特定事件的發生次數。perf 通過與 Linux 內核的 perf_event 子系統交互，讀取這些計數器的值，從而獲取程序運行時的各種性能數據，如 CPU 利用率、緩存命中率、指令執行次數等。

perf 工具提供了豐富多樣的子命令，每個子命令都有其獨特的功能，就像一把把不同的手術刀，適用于不同的性能分析場景。

perf list 子命令用于列出當前系統支持的硬件性能事件、軟件事件和跟蹤點。這就像一本詳細的 “性能事件字典”，當我們需要進行特定的性能分析時，可以先使用 perf list 查看系統支持的事件類型，以便選擇合適的事件進行采樣和分析。例如，我們想要分析網絡相關的性能問題，可以使用 “perf list 'net:*'” 命令查看所有與網絡相關的事件。

perf top 子命令能夠實時動態地顯示系統中 CPU 占用最高的函數。它就像一個實時的 “性能放大鏡”，讓我們能夠直觀地看到當前系統中哪些函數正在大量消耗 CPU 資源。在實際應用中，當系統出現 CPU 使用率過高的情況時，我們可以通過 perf top 快速定位到占用 CPU 資源最多的函數，進而深入分析這些函數的代碼邏輯，找出性能瓶頸所在。比如，在一個大型數據庫應用中，通過 perf top 發現某個查詢函數占用了大量 CPU 時間，經過進一步分析，發現是該函數中的查詢語句沒有使用合適的索引，導致全表掃描，從而消耗了大量 CPU 資源。通過優化查詢語句，添加合適的索引，成功降低了該函數的 CPU 占用率，提高了系統性能。

perf stat 子命令用于統計程序運行時的硬件事件，如緩存未命中、分支預測錯誤等。它就像一個精準的 “性能計數器”，能夠幫助我們了解程序在運行過程中的各種硬件事件發生情況。通過分析這些事件的統計數據，我們可以評估程序對硬件資源的利用效率，找出可能存在的性能問題。例如，我們可以使用 “perf stat -a -r 3 sleep 5” 命令對系統進行全局統計，統計 5 秒內的硬件事件，并重復 3 次。在輸出結果中，我們可以看到諸如 “cpu-clock”（CPU 時鐘周期）、“context-switches”（上下文切換次數）、“page-faults”（頁面錯誤次數）等硬件事件的統計信息。如果發現緩存未命中次數過高，說明程序對緩存的利用效率較低，可能需要優化程序的內存訪問模式，以提高緩存命中率。

perf record 子命令用于記錄程序運行時的性能事件，并將這些事件保存到一個文件（默認為 perf.data）中，以便后續進行詳細的性能分析。它就像一個忠實的 “記錄員”，能夠準確地記錄程序運行時的各種性能細節。我們可以使用 “perf record -g -F 99 -p 5678” 命令記錄 PID 為 5678 的進程的調用圖，每秒采樣 99 次。這樣，在程序運行結束后，我們就可以通過其他子命令對保存的性能數據進行分析。

perf report 子命令用于分析 perf record 保存的性能事件，生成詳細的性能報告。它就像一個專業的 “分析師”，能夠對記錄的性能數據進行深入解讀，展示程序中各個函數的性能消耗情況。我們可以使用 “perf report -n --stdio” 命令以文本模式顯示樣本數量，也可以使用 “perf report -s symbol” 命令按函數名排序，以便更清晰地查看各個函數的性能情況。在性能報告中，我們可以看到每個函數的 CPU 占用百分比、調用次數等信息，從而快速找出性能瓶頸所在的函數。

perf script 子命令用于導出原始數據，將 perf.data 文件轉換為文本格式。這對于生成火焰圖或進行自定義分析非常有用。火焰圖是一種直觀展示程序性能的工具，它能夠以圖形化的方式呈現函數的調用關系和 CPU 占用情況。我們可以使用 “perf script> out.stack” 命令將 perf.data 文件中的數據導出為調用棧數據，然后使用相關工具生成火焰圖。通過火焰圖，我們可以更直觀地看到程序中哪些函數調用頻繁，哪些函數占用 CPU 時間較長，從而有針對性地進行性能優化。

在實際使用perf工具時，我們可以根據具體的性能分析需求，靈活組合使用這些子命令。例如，當我們懷疑某個程序存在性能問題時，可以先使用perf top實時查看該程序中占用CPU資源最多的函數，初步定位性能瓶頸。然后，使用perfrecord記錄該程序運行時的性能事件，并使用perf report對記錄的數據進行分析，深入了解各個函數的性能消耗情況。如果需要進一步分析函數的調用關系和CPU占用的詳細情況，可以使用perf script導出原始數據，生成火焰圖進行分析。

Part3.常見CPU性能問題

3.1CPU 使用率過高

在 Linux 系統的日常運行中，CPU 使用率過高是一種常見且棘手的問題，它就像身體持續高燒不退，警示著系統內部可能出現了嚴重的 “病癥”。導致 CPU 使用率過高的原因多種多樣，其中 CPU 密集型進程是一個常見因素。這類進程通常執行大量的計算任務，比如大數據分析程序在進行復雜的數據計算和處理時，會持續占用 CPU 資源，使得 CPU 使用率急劇上升。

死循環也是導致 CPU 使用率飆升的 “罪魁禍首” 之一。在程序編寫過程中，如果出現邏輯錯誤導致死循環，進程會不斷地重復執行相同的代碼，無法正常結束，從而將 CPU 資源緊緊 “鎖住”，使其無法分配給其他進程。例如，在一段簡單的 Python 代碼中，如果誤將循環條件設置錯誤，就可能陷入死循環：

i = 0
while i >= 0:
    i += 1

這個循環沒有設置合理的結束條件，會一直運行下去，導致 CPU 使用率迅速達到 100%。

資源競爭同樣會引發 CPU 使用率過高的問題。當多個進程同時競爭 CPU 資源時，系統需要頻繁地進行進程調度和上下文切換，這會增加 CPU 的額外開銷。以數據庫服務器為例，在高并發訪問的情況下，多個查詢請求同時到達，每個請求對應的進程都在爭奪 CPU 資源，導致 CPU 忙于處理這些調度任務，使用率大幅提高。

針對 CPU 使用率過高的問題，我們可以采取一系列有效的優化方法。從代碼層面入手，優化算法和數據結構是關鍵。對于一些復雜的計算任務，通過改進算法可以減少不必要的計算步驟，提高計算效率。例如，在排序算法中，選擇更高效的快速排序算法代替冒泡排序算法，能夠顯著降低計算時間和 CPU 消耗。同時，合理使用緩存機制，避免重復計算，也能有效減少 CPU 的工作量。比如，在 Web 應用中，對于一些頻繁訪問且數據變動較小的頁面或數據，可以將其緩存起來，當再次請求時直接從緩存中獲取，而不需要重新進行復雜的計算和數據庫查詢，從而降低 CPU 的使用率。

在系統層面，調整調度策略也是一種有效的優化手段。Linux 系統提供了多種進程調度算法，如完全公平調度算法（CFS）等。我們可以根據系統的實際負載情況和應用需求，調整調度算法的參數，以優化 CPU 資源的分配。例如，對于一些對實時性要求較高的應用程序，如視頻直播、實時監控等，可以適當提高其進程的優先級，使其能夠優先獲得 CPU 資源，保證應用的流暢運行；而對于一些后臺批處理任務，可以降低其優先級，讓它們在 CPU 空閑時再執行，避免與前臺關鍵任務爭搶資源。

當系統資源確實不足時，增加 CPU 資源也是一種直接有效的解決方法。可以通過升級硬件，增加 CPU 核心數或更換更高性能的 CPU 來滿足系統的計算需求。例如，對于一些大型企業的服務器，隨著業務量的不斷增長，原有的 CPU 配置可能無法滿足日益增長的計算需求，此時可以考慮增加 CPU 核心數或者更換為更高級的 CPU 型號，以提升系統的整體性能。

3.2平均負載過高

平均負載過高是另一個需要關注的 CPU 性能問題，它反映了系統在一段時間內的繁忙程度和壓力狀況。當平均負載持續高于系統 CPU 核心數時，說明系統正面臨著較大的壓力，可能會出現性能下降甚至服務中斷的風險。

導致平均負載過高的因素較為復雜，進程阻塞是其中之一。當進程在執行過程中等待某些資源（如 I/O 操作、鎖資源等）時，會進入阻塞狀態，此時雖然進程不占用 CPU 執行時間，但會使系統的平均負載增加。例如，當一個進程需要從磁盤讀取大量數據時，如果磁盤 I/O 速度較慢，進程就會在等待數據讀取的過程中處于阻塞狀態，導致系統中可運行的進程數量減少，平均負載升高。

I/O 等待也是導致平均負載過高的常見原因。在系統進行大量的 I/O 操作（如磁盤讀寫、網絡通信等）時，如果 I/O 設備的性能瓶頸限制了數據傳輸速度，進程就需要花費大量時間等待 I/O 操作完成，這會使 CPU 處于空閑狀態，但平均負載卻在不斷上升。比如，在一個頻繁進行文件讀寫操作的服務器上，如果磁盤的讀寫速度跟不上進程的請求速度，就會出現大量的 I/O 等待，導致平均負載過高。

CPU 資源不足同樣會導致平均負載過高。當系統中運行的進程數量過多，而 CPU 核心數有限時，進程之間會競爭 CPU 資源，導致部分進程長時間處于等待狀態，從而使平均負載升高。例如，在一個小型服務器上同時運行多個大型應用程序，由于 CPU 資源有限，這些應用程序的進程會不斷爭搶 CPU，導致平均負載持續上升。

針對平均負載過高的問題，我們可以采取多種解決措施。優化 I/O 是關鍵一步，通過使用高性能的 I/O 設備，如固態硬盤（SSD）代替傳統機械硬盤，可以顯著提高 I/O 讀寫速度，減少 I/O 等待時間，從而降低平均負載。同時，合理調整 I/O 調度算法，根據應用的特點選擇合適的調度策略，也能提高 I/O 性能。例如，對于數據庫應用，選擇 Deadline 調度算法可以更好地滿足其對 I/O 響應時間的要求。

調整進程優先級也是一種有效的方法。通過提升關鍵進程的優先級，確保它們能夠優先獲得 CPU 資源，及時完成任務，從而降低系統的平均負載。例如，對于一個同時運行 Web 服務器和后臺數據備份任務的系統，可以將 Web 服務器進程的優先級設置為較高，保證用戶的請求能夠得到及時響應，而將數據備份任務的優先級設置為較低，讓它在系統空閑時再執行。

優化系統配置同樣不可或缺。合理調整系統參數，如增大文件系統緩存、優化內存分配等，可以提高系統的整體性能，緩解平均負載過高的問題。例如，通過增大系統的文件系統緩存，可以減少磁盤 I/O 操作的次數，提高數據訪問速度，從而降低平均負載。

3.3進程 CPU 占用不均衡

在 Linux 系統中，進程 CPU 占用不均衡也是一種常見的性能問題，它表現為部分進程占用大量 CPU 資源，而其他進程卻無法充分利用 CPU，導致系統資源分配不合理，整體性能下降。

造成進程 CPU 占用不均衡的原因主要有程序設計不合理和資源分配不均等。在程序設計方面，如果開發者沒有充分考慮多線程或多進程的資源分配和調度問題，可能會導致某些線程或進程過度占用 CPU。例如，在一個多線程的網絡爬蟲程序中，如果沒有對各個線程的任務進行合理分配和協調，可能會出現某些線程頻繁發起網絡請求并進行數據處理，占用大量 CPU 資源，而其他線程則處于空閑狀態。

資源分配不均也是導致進程 CPU 占用不均衡的重要因素。當系統資源（如內存、I/O 等）分配不合理時，會使得某些進程在獲取資源時處于優勢地位，從而能夠占用更多的 CPU 資源。比如，在一個共享內存的多進程應用中，如果某個進程占用了過多的內存，導致其他進程在進行內存訪問時出現頻繁的頁錯誤，這些進程就需要花費更多的 CPU 時間來處理這些錯誤，從而導致 CPU 占用不均衡。

為了解決進程 CPU 占用不均衡的問題，我們可以采取以下優化方式。調整進程綁定 CPU 是一種有效的方法，通過使用 taskset 命令或在程序中設置 CPU 親和性，將特定的進程綁定到指定的 CPU 核心上，避免進程在多個 CPU 核心之間頻繁切換，從而提高 CPU 的使用效率。例如，對于一個計算密集型的進程，可以將其綁定到一個空閑的 CPU 核心上，讓它充分利用該核心的資源，避免與其他進程爭搶資源。

優化資源分配算法也是關鍵。在程序設計中，合理設計資源分配算法，確保各個進程能夠公平地獲取系統資源，避免資源過度集中在某些進程上。例如，在一個多進程的任務調度系統中，可以采用輪詢或優先級隊列等方式來分配任務和資源，保證每個進程都有機會獲得 CPU 資源，實現資源的均衡分配。

Part4.優化實戰策略

在深入了解了 CPU 性能指標以及排查出性能問題的 “元兇” 后，接下來就到了關鍵的優化實戰環節。這就好比醫生在準確診斷出病人的病因后，開始對癥下藥進行治療。下面，我們將從進程調度、CPU 頻率調整以及應用程序優化這三個關鍵方面入手，為 Linux 系統的 CPU 性能 “插上翅膀” 。

4.1進程調度優化：合理分配 CPU “蛋糕”

Linux 進程調度器就像是一位精明的資源分配者，負責管理系統中進程對 CPU 資源的使用。它的工作原理基于一系列復雜而精妙的算法，旨在確保系統高效、穩定地運行，同時兼顧各個進程的公平性和響應性。

在 Linux 系統中，常見的調度算法有多種，每種算法都有其獨特的設計理念和適用場景。先來先服務（FCFS）算法按照進程到達就緒隊列的先后順序來分配 CPU，簡單直觀，如同排隊買票，先到先得。但它存在明顯的缺陷，若一個長進程先到達并占用 CPU，后面的短進程就只能苦苦等待，導致整體效率低下，就像前面有個購物清單很長的顧客在結賬，后面的顧客都得等很久。這種算法適用于批處理系統中任務序列簡單、對響應時間要求不高的場景。

短作業優先（SJF）算法則優先調度估計運行時間最短的進程，能有效降低平均周轉時間，提高系統吞吐量。然而，準確預估進程的運行時間并非易事，而且長進程可能會因為不斷有短進程進入而長時間得不到執行，出現 “饑餓” 現象。比如在一個數據處理中心，有大量不同數據量的任務，小數據量的短任務可以用 SJF 算法快速處理，提升整體效率，但長任務可能會被忽視。它比較適合分時系統中短任務處理以及小型服務器的日常請求處理等場景。

時間片輪轉（RR）算法將 CPU 的處理時間劃分為固定長度的時間片，所有就緒進程按照順序輪流在 CPU 上運行一個時間片。當時間片用完，進程無論是否完成任務，都會被暫停并放回就緒隊列末尾，等待下一輪調度。這就像一場接力賽，每個進程都有機會在規定時間內 “跑一段”，保證了每個進程都能得到處理，具有很好的公平性。但如果時間片設置過小，會導致頻繁的上下文切換，增加系統開銷；若時間片過大，又會退化成先來先服務算法，無法體現其優勢。時間片輪轉算法廣泛應用于分時系統和交互式系統，比如多用戶的服務器環境，能讓每個用戶的進程都快速獲得 CPU 服務，提升用戶體驗。

優先級調度算法為每個進程分配一個優先級，優先級高的進程優先執行。這就像在醫院里，急診病人會比普通病人優先得到救治。該算法能保證高優先級任務及時執行，但可能出現 “優先級反轉” 和 “饑餓” 問題，即低優先級進程占用資源，導致高優先級進程無法執行，或者某些進程長時間得不到調度。為緩解這些問題，可以引入老化機制，逐漸提高長時間等待進程的優先級。它適用于對任務優先級有嚴格要求的實時系統，如工業自動化控制、航空航天等領域。

多級反饋隊列調度算法結合了多種算法的優點，將進程分配到多個優先級隊列中，每個隊列有不同的時間片長度和優先級。優先級高的隊列時間片較短，優先處理高優先級隊列的進程。在任務執行過程中，還可以動態調整優先級，長時間等待的低優先級進程會被提升到更高優先級隊列，避免長作業 “饑餓” 。這種算法雖然復雜，管理多個隊列需要額外開銷，但能高效處理不同類型的任務，適用于需要高響應速度和公平性的操作系統。

在實際應用中，我們可以通過調整進程優先級來優化調度策略。在 Linux 系統中，可以使用 nice 和 renice 命令來調整進程的 nice 值，從而改變進程的優先級。nice 值的范圍是 - 20 到 19，值越小優先級越高。例如，使用 nice -n -5 command 命令可以以較高優先級啟動一個新進程；對于已經運行的進程，使用 renice -n 10 -p pid 命令可以將進程 ID 為 pid 的進程優先級降低。對于實時進程，還可以使用 chrt 命令設置調度策略和優先級。比如，sudo chrt -f 50 command 命令可以將程序以實時 FIFO 策略運行，并設置優先級為 50 。在調整進程優先級時，需要注意權限問題，普通用戶只能提高進程的 nice 值（降低優先級），設置低于 0 的 nice 值或實時優先級需要超級用戶權限。同時，要謹慎調整優先級，不當的設置可能會導致系統不穩定或響應變慢。

4.2CPU 頻率調整：動態調節 CPU “馬力”

CPU頻率就像是汽車的發動機轉速，直接影響著CPU的運算速度和性能表現。在 Linux 系統中，我們可以根據系統負載的變化，動態調整 CPU 頻率，實現性能和功耗的平衡，讓CPU在不同的工作場景下都能發揮出最佳效能。

CPU 頻率調整的原理基于現代 CPU 的動態頻率調整（DFA）技術。CPU 內部有一個智能的頻率調節器，它就像一位經驗豐富的駕駛員，時刻監測著 CPU 的工作負載。當負載較低時，比如系統處于待機狀態或只運行一些簡單的后臺任務，頻率調節器會降低 CPU 頻率，就像汽車在空路上行駛時降低發動機轉速，以節省能耗。相反，當負載較高，如運行大型游戲、進行復雜的數據分析或編譯大型程序時，頻率調節器會提高 CPU 頻率，讓 CPU 全力運轉，提供更好的性能，如同汽車在爬坡或高速行駛時提高發動機轉速。

在 Linux 系統中，我們可以使用 cpupower 工具來實現 CPU 頻率的調整。cpupower 工具功能強大，提供了豐富的命令選項，讓我們能夠靈活地管理 CPU 的電源和性能選項。在使用 cpupower 工具之前，首先需要確保它已經安裝在系統中。對于基于 Debian 的系統（如 Ubuntu），可以使用 sudo apt-get install linux-tools-common linux-tools-generic linux-tools-$(uname -r) 命令進行安裝；對于基于 RPM 的系統（如 Fedora 或 CentOS），可以使用 sudo yum install cpupower 或 sudo dnf install cpupower 命令進行安裝。

安裝完成后，我們可以使用 cpupower frequency-info 命令來查看CPU頻率的相關信息，包括當前 CPU 的運行頻率、支持的頻率范圍、可用的頻率調節策略等。例如，執行該命令后，我們可能會看到類似如下的輸出：

analyzing CPU 0:
  driver: intel_pstate
  CPUs which run at the same hardware frequency: 0
  CPUs which need to have their frequency coordinated by software: 0
  maximum transition latency:  Cannot determine or is not supported.
  hardware limits: 800 MHz - 4.00 GHz
  available cpufreq governors: performance powersave
  current policy: frequency should be within 800 MHz and 4.00 GHz.
                  The governor "powersave" may decide which speed to use
                  within this range.
  current CPU frequency is 800 MHz.
  cpufreq stats: 800 MHz:10.00%, 4.00 GHz:90.00%  (10000)

從輸出信息中，我們可以了解到當前 CPU 的驅動為 intel_pstate，硬件支持的頻率范圍是 800 MHz - 4.00 GHz，可用的頻率調節策略有 performance 和 powersave，當前采用的是 powersave 策略，CPU 頻率為 800 MHz，并且還能看到不同頻率下的使用統計信息。

接下來，我們可以根據實際需求，使用 cpupower frequency-set 命令來設置 CPU 的頻率調節策略。如果我們希望系統在任何情況下都能以最高性能運行，比如在進行大型數據庫查詢、3D 圖形渲染等對性能要求極高的任務時，可以使用 sudo cpupower frequency-set -g performance 命令將頻率調節策略設置為 performance 。在這種策略下，CPU 會始終運行在最高頻率，以提供最強的計算能力，但相應地，功耗也會增加，就像汽車始終保持高速行駛，油耗會上升。

相反，如果我們更注重節能，比如在筆記本電腦使用電池供電時，希望延長電池續航時間，可以使用 sudo cpupower frequency-set -g powersave 命令將頻率調節策略設置為 powersave 。在 powersave 策略下，CPU 會根據負載自動降低頻率，以減少功耗，就像汽車在經濟模式下行駛，發動機轉速較低，油耗也較低。

除了這兩種常見的策略，Linux 系統還支持其他一些頻率調節策略，如 ondemand 和 conservative 。ondemand 策略會根據 CPU 的負載情況動態調整頻率，當負載增加時，快速提高頻率；當負載降低時，迅速降低頻率。它在性能和功耗之間取得了較好的平衡，適用于大多數日常使用場景，就像一個智能的駕駛員，根據路況靈活調整車速。conservative 策略與 ondemand 類似，但頻率調整相對更為保守，不會像 ondemand 那樣快速地改變頻率，適用于對頻率變化較為敏感的應用程序。

在實際應用中，根據系統負載動態調整 CPU 頻率能帶來顯著的好處。在服務器環境中，當業務量較低時，將 CPU 頻率降低，可以節省大量的電力成本，減少服務器的散熱壓力，延長硬件的使用壽命。而當業務量突然增加，如電商網站在促銷活動期間，將 CPU 頻率提高，能夠保證系統的響應速度，避免因性能不足而導致用戶流失。在移動設備上，合理調整 CPU 頻率更是至關重要，它可以在保證用戶體驗的前提下，最大限度地延長電池續航時間，讓用戶能夠更長久地使用設備。

4.3應用程序優化：從源頭提升 CPU 效率

應用程序作為 CPU 資源的主要使用者，其代碼質量和算法設計對 CPU 性能有著深遠的影響。從代碼層面深入分析影響 CPU 性能的因素，并采取有效的優化措施，是提升 CPU 效率的關鍵所在，就像從源頭上治理河流污染，才能讓河水清澈見底。

算法復雜度是影響 CPU 性能的重要因素之一。簡單來說，算法復雜度描述了算法執行所需的時間和空間資源隨著輸入規模增長的變化情況。常見的算法復雜度有 O (1)、O (n)、O (n^2)、O (log n) 等。以查找算法為例，線性查找算法的時間復雜度為 O (n)，它需要遍歷整個數據集合來查找目標元素。當數據規模 n 很大時，如在一個包含百萬條記錄的數據庫中進行線性查找，CPU 需要執行大量的比較操作，消耗大量時間。而二分查找算法的時間復雜度為 O (log n)，它利用數據有序的特點，每次比較都能排除一半的數據，查找速度大大加快。在一個同樣規模的有序數據集中，二分查找的效率要遠遠高于線性查找，對 CPU 資源的消耗也更少。因此，在編寫應用程序時，我們應盡量選擇復雜度較低的算法，避免使用那些隨著數據規模增長，時間和空間復雜度急劇上升的算法，以減少 CPU 的計算量。

循環嵌套也是一個容易導致 CPU 性能問題的因素。當循環嵌套層數過多時，就像一個迷宮中有很多層嵌套的房間，CPU 需要執行大量的循環迭代，計算量呈指數級增長。例如，一個三層嵌套的循環，最內層循環的執行次數等于三層循環各自迭代次數的乘積。如果每層循環都迭代 100 次，那么最內層循環將執行 100 * 100 * 100 = 1000000 次，這對 CPU 來說是一個巨大的負擔。為了優化循環嵌套，我們可以盡量減少不必要的循環層數，將一些重復的計算移出循環體，或者使用更高效的算法來替代嵌套循環。比如，在計算矩陣乘法時，傳統的三重循環實現雖然直觀，但效率較低。我們可以通過優化算法，利用矩陣的分塊技術，將大矩陣分成多個小矩陣進行計算，減少循環次數，提高計算效率，從而降低 CPU 的占用。

除了算法復雜度和循環嵌套，代碼中的其他一些細節也會影響 CPU 性能。頻繁的函數調用會帶來一定的開銷，因為每次函數調用都需要保存和恢復寄存器狀態、創建和銷毀棧幀等。因此，我們可以盡量減少不必要的函數調用，將一些短小的函數定義為內聯函數，這樣在編譯時，函數代碼會直接嵌入調用處，避免了函數調用的開銷。內存訪問模式也對 CPU 性能有重要影響。CPU 緩存是提高內存訪問速度的關鍵，如果代碼中的內存訪問模式不合理，導致頻繁的緩存未命中，就會大大降低內存訪問速度，進而影響 CPU 性能。我們應盡量保持內存訪問的連續性，避免隨機訪問內存，以提高緩存命中率。

在實際的應用程序優化中，有許多成功的案例可供我們借鑒。在一個大數據分析項目中，最初的數據分析算法使用了復雜的遞歸算法，雖然代碼簡潔，但在處理大規模數據時，CPU 占用率極高，處理時間很長。通過深入分析算法，開發團隊將遞歸算法改為迭代算法，并對數據結構進行了優化，減少了不必要的內存操作。優化后的程序在處理相同規模的數據時，CPU 占用率降低了 50% 以上，處理時間縮短了近三分之二，大大提高了數據分析的效率。在一個圖形渲染應用中，原來的代碼存在大量的循環嵌套和重復計算，導致在渲染復雜場景時，畫面卡頓嚴重。開發人員對代碼進行了重構，將一些常用的計算結果緩存起來，避免重復計算，同時優化了循環結構，減少了循環層數。經過優化后，圖形渲染的幀率得到了顯著提升，畫面更加流暢，用戶體驗得到了極大改善。

綜上所述，從代碼層面優化應用程序是提升 CPU 效率的重要途徑。通過選擇合適的算法、優化循環結構、減少函數調用開銷、改善內存訪問模式等措施，我們能夠讓應用程序更加高效地利用 CPU 資源，從而提升整個系統的性能。在實際開發過程中，我們應養成良好的編程習慣，注重代碼的性能優化，從源頭上為 CPU 性能的提升奠定堅實的基礎。

Part5.CPU性能分析工具實操

5.1Stress：制造負載的 “小能手”

在進行 CPU 性能優化時，我們首先需要一種工具來模擬系統高負載的情況，以便觀察和分析 CPU 在不同壓力下的表現，Stress 就是這樣一位得力助手。Stress 是一款專為 Linux 系統設計的壓力測試工具，它能夠模擬各種資源消耗場景，幫助我們評估系統在高負載下的穩定性和性能極限，特別適合在測試環境中使用。

假設我們要模擬一個高 CPU 密集的場景，只需在終端輸入 “stress -c 4” 命令，這里的 “-c” 參數表示創建 CPU 負載，數字 “4” 則指定了要創建 4 個進程。執行命令后，Stress 會迅速創建 4 個進程，每個進程都全力以赴地計算隨機數的平方根，使得 CPU 使用率急劇上升。此時，我們就像給 CPU 施加了一場高強度的 “體能訓練”，讓它在極限狀態下 “奔跑”。

在另一個終端中，我們可以使用 top 命令來實時查看系統狀態。可以看到，系統的平均負載逐步上升，接近到 4，這表明系統的負載壓力在不斷增大。同時，有 4 個進程的 CPU 使用率接近 100%，幾乎所有的時間都在用戶態，整個系統就像一個忙碌的蜂巢，每個 “工蜂”（進程）都在拼命工作，而 CPU 則是那個全力協調的 “指揮官”，在高負荷下運轉。通過這樣的模擬，我們可以直觀地感受到高 CPU 負載對系統的影響，為后續的性能分析和優化提供了真實的場景依據。

5.2Sysstat：系統性能的 “監控官”

Sysstat 是一個功能強大的系統性能監控工具集，包含了多個實用工具，如 mpstat、iostat、sar 等，它們就像一群專業的 “監控官”，從不同角度對系統性能進行全方位的監控和分析。

以 mpstat 為例，它主要用于監控多處理器系統中每個 CPU 的使用情況，能為我們提供詳細的 CPU 使用率、中斷次數、上下文切換等關鍵指標。在終端輸入 “mpstat -P ALL 5” 命令，其中 “-P ALL” 表示監控所有 CPU，數字 “5” 表示每隔 5 秒采樣一次。執行命令后，我們會得到類似如下的輸出：

Linux 4.15.0-109-generic (ubuntu-server)  08/28/2020  _x86_64_ (8 CPU)
11:03:10 PM  CPU    %usr   %nice    %sys %iowait    %irq   %soft  %steal  %guest  %gnice   %idle
11:03:11 PM  all   12.49    0.00    7.10    4.34    0.00    0.29    0.00    0.00    0.00   75.78
11:03:12 PM  all   13.33    0.00    7.67    3.83    0.00    0.17    0.00    0.00    0.00   74.99
Average:     all   12.91    0.00    7.38    4.08    0.00    0.23    0.00    0.00    0.00   75.39

在這些輸出數據中，“% usr” 表示用戶空間下的 CPU 使用率，反映了用戶程序在 CPU 上的活動時間；“% sys” 表示系統空間下的 CPU 使用率，體現了內核態程序對 CPU 的占用情況；“% iowait” 表示等待 I/O 操作完成時 CPU 的空閑時間百分比，若該值較高，可能意味著系統存在 I/O 瓶頸；“% idle” 表示 CPU 的空閑時間百分比，展示了 CPU 的閑置程度。通過分析這些數據，我們能深入了解 CPU 的工作狀態，精準定位性能問題。例如，如果發現某個 CPU 核心的 “% usr” 使用率持續過高，可能是某個用戶程序存在性能問題，需要進一步排查和優化。

5.3Top：實時監控的 “儀表盤”

Top 命令是 Linux 系統中最常用的性能分析工具之一，它就像汽車的儀表盤，能夠實時顯示系統中各個進程的資源占用狀況，讓我們對系統狀態一目了然。

在終端輸入 “top” 命令后，會出現一個動態更新的界面，展示了豐富的系統信息。界面的第一行顯示了系統當前時間、系統運行時長、當前登錄用戶數以及系統在 1 分鐘、5 分鐘、15 分鐘內的平均負載，就像汽車儀表盤上的時間、里程和綜合性能指標。第二行展示了當前進程總數、正在運行的進程數、睡眠的進程數、停止的進程數和僵尸進程數，讓我們對系統中的進程狀態有一個整體的了解。第三行則詳細列出了 CPU 的使用情況，包括用戶態（us）、內核態（sy）、改變過優先級的用戶進程（ni）、空閑（id）、I/O 等待（wa）、硬中斷（hi）、軟中斷（si）、虛擬機（st）等狀態下的 CPU 使用率，如同儀表盤上各個性能參數的詳細展示。

在實際使用中，我們可以通過一些常用參數來定制 Top 的顯示內容，使其更符合我們的分析需求。比如，按下 “1” 鍵，可以查看每個 CPU 核心的詳細使用情況，就像切換儀表盤的顯示模式，聚焦到每個核心的性能表現；按下 “P” 鍵，會按照 CPU 使用率對進程進行排序，方便我們快速找到占用 CPU 資源最多的進程，就像在儀表盤上突出顯示關鍵性能指標。如果發現某個進程的 CPU 使用率持續居高不下，比如某個大型數據庫查詢進程，我們就可以進一步分析該進程的代碼邏輯、查詢語句等，看是否可以通過優化算法、調整查詢條件等方式來降低 CPU 消耗。

Part6.實戰案例解析

6.1案例一：Java 進程 CPU 飆升優化

在實際開發中，我們經常會遇到各種性能問題，其中 Java 進程 CPU 飆升是一個較為常見且棘手的問題。下面我們來看一個具體的案例。

最近負責的一個項目上線后，運行一段時間就發現對應的進程竟然占用了 700% 的 CPU，導致公司的物理服務器都不堪重負，頻繁宕機。面對這類 Java 進程 CPU 飆升的問題，我們該如何定位解決呢？

首先，采用 top 命令定位進程。登錄服務器，執行 top 命令，查看 CPU 占用情況，很快就能發現，PID 為 29706 的 Java 進程的 CPU 飆升到 700% 多，且一直降不下來，很顯然出現了問題。

接著，使用 top -Hp 命令定位線程。使用 top -Hp 命令（其中為 Java 進程的 id 號）查看該 Java 進程內所有線程的資源占用情況（按 shft+p 按照 cpu 占用進行排序，按 shift+m 按照內存占用進行排序）。在這里，我們很容易發現，多個線程的 CPU 占用達到了 90% 多。我們挑選線程號為 30309 的線程繼續分析。

然后，使用 jstack 命令定位代碼。先將線程號轉換為 16 進制，使用 printf “% x\n” 命令（tid 指線程的 id 號）將 10 進制的線程號轉換為 16 進制。轉換后的結果為 7665，由于導出的線程快照中線程的 nid 是 16 進制的，而 16 進制以 0x 開頭，所以對應的 16 進制的線程號 nid 為 0x7665 。再采用 jstack 命令導出線程快照，通過使用 jdk 自帶命令 jstack 獲取該 java 進程的線程快照并輸入到文件中。最后，在生成的文件中根據線程號 nid 搜索對應的線程描述，判斷應該是 ImageConverter.run () 方法中的代碼出現問題。

下面是 ImageConverter.run () 方法中的部分核心代碼。這段代碼的邏輯是存儲minicap 的 socket 連接返回的數據，設置阻塞隊列長度，防止出現內存溢出。在 while 循環中，不斷讀取堵塞隊列dataQueue 中的數據，如果數據為空，則執行 continue 進行下一次循環。如果不為空，則通過 poll () 方法讀取數據，做相關邏輯處理。初看這段代碼好像沒什么問題，但是如果dataQueue對象長期為空的話，這里就會一直空循環，導致 CPU 飆升。

// 全局變量
private BlockingQueue<byte[]> dataQueue = new LinkedBlockingQueue<byte[]>(100000);

// 消費線程
@Override
public void run() {
    // long start = System.currentTimeMillis();
    while (isRunning) {
        // 分析這里從LinkedBlockingQueue
        if (dataQueue.isEmpty()) {
            continue;
        }
        byte[] buffer = device.getMinicap().dataQueue.poll();
        int len = buffer.length;
    }
}

那么如何解決呢？分析 LinkedBlockingQueue 阻塞隊列的 API 發現，有兩種取值的 API 。take () 方法取出隊列中的頭部元素，如果隊列為空則調用此方法的線程被阻塞等待，直到有元素能被取出，如果等待過程被中斷則拋出 InterruptedException；poll () 方法取出隊列中的頭部元素，如果隊列為空返回 null 。顯然 take 方法更適合這里的場景。將代碼修改如下：

while (isRunning) {
    /* if (device.getMinicap().dataQueue.isEmpty()) {
         continue;
     }*/
    byte[] buffer = new byte[0];
    try {
        buffer = device.getMinicap().dataQueue.take();
    } catch (InterruptedException e) {
        e.printStackTrace();
    }
    ……
}

重啟項目后，測試發現項目運行穩定，對應項目進程的 CPU 消耗占比不到 10% 。通過這個案例可以看出，在面對 Java 進程 CPU 飆升問題時，我們可以借助 top、jstack 等工具，逐步定位到問題代碼，并通過合理的代碼修改來解決問題。

6.2案例二：UV 通道下采樣代碼優化

在圖像和視頻處理等領域，常常會涉及到對圖像數據的各種操作，UV 通道下采樣就是其中常見的一種。下面我們來看一個 UV 通道下采樣代碼從標量處理轉換為向量處理的優化案例。

假設我們有一個 UV 通道下采樣的任務，輸入是 u8 類型的數據，通過鄰近的 4 個像素求平均，輸出 u8 類型的數據，達到 1/4 下采樣的目的。我們假定每行數據長度是 16 的整數倍。最初的 C 代碼實現如下：

void DownscaleUv(uint8_t *src, uint8_t *dst, int32_t src_stride, int32_t dst_width, int32_t dst_height, int32_t dst_stride) {
    for (int32_t j = 0; j < dst_height; j++) {
        uint8_t *src_ptr0 = src + src_stride * j * 2;
        uint8_t *src_ptr1 = src_ptr0 + src_stride;
        uint8_t *dst_ptr = dst + dst_stride * j;
        for (int32_t i = 0; i < dst_width; i += 2) {
            // U通道
            dst_ptr[i] = (src_ptr0[i * 2] + src_ptr0[i * 2 + 2] +
                          src_ptr1[i * 2] + src_ptr1[i * 2 + 2]) / 4;
            // V通道
            dst_ptr[i + 1] = (src_ptr0[i * 2 + 1] + src_ptr0[i * 2 + 3] +
                              src_ptr1[i * 2 + 1] + src_ptr1[i * 2 + 3]) / 4;
        }
    }
}

為了提升代碼性能，我們可以將其轉換為向量處理，利用 NEON 指令集進行優化。具體步驟如下：

①內層循環向量化

內層循環是代碼執行次數最多的部分，因此是向量化的重點。由于我們的輸入和輸出都是 u8 類型，NEON 寄存器 128bit，所以每次可以處理 16 個數據。修改后的內層循環代碼如下：

// 每次有16個數據輸出
for (i = 0; i < dst_width; i += 16) {
    //數據處理部分......
}

②數據類型和指令選擇

輸入數據加載時，UV 通道的數據是交織的，使用 vld2 指令可以實現解交織。在數據處理過程中，選擇合適的指令進行計算。例如，水平兩個數據相加可以使用 vpaddlq_u8 指令，上下兩個數據相加之后求均值可以使用 vshrn_n_u16 和 vaddq_u16 指令。

③代碼實現

#include <arm_neon.h>

void DownscaleUvNeon(uint8_t *src, uint8_t *dst, int32_t src_width, int32_t src_stride, int32_t dst_width, int32_t dst_height, int32_t dst_stride) {
    //load偶數行的源數據，2組每組16個u8類型數據
    uint8x16x2_t v8_src0;
    //load奇數行的源數據，需要兩個Q寄存器
    uint8x16x2_t v8_src1;
    //目的數據變量，需要一個Q寄存器
    uint8x8x2_t v8_dst;
    //目前只處理16整數倍部分的結果
    int32_t dst_width_align = dst_width & (-16);
    //向量化剩余的部分需要單獨處理
    int32_t remain = dst_width & 15;
    int32_t i = 0;
    //外層高度循環，逐行處理
    for (int32_t j = 0; j < dst_height; j++) {
        //偶數行源數據指針
        uint8_t *src_ptr0 = src + src_stride * j * 2;
        //奇數行源數據指針
        uint8_t *src_ptr1 = src_ptr0 + src_stride;
        //目的數據指針
        uint8_t *dst_ptr = dst + dst_stride * j;
        //內層循環，一次16個u8結果輸出
        for (i = 0; i < dst_width_align; i += 16) {
            //提取數據，進行UV分離
            v8_src0 = vld2q_u8(src_ptr0);
            src_ptr0 += 32;
            v8_src1 = vld2q_u8(src_ptr1);
            src_ptr1 += 32;
            //水平兩個數據相加
            uint16x8_t v16_u_sum0 = vpaddlq_u8(v8_src0.val[0]);
            uint16x8_t v16_v_sum0 = vpaddlq_u8(v8_src0.val[1]);
            uint16x8_t v16_u_sum1 = vpaddlq_u8(v8_src1.val[0]);
            uint16x8_t v16_v_sum1 = vpaddlq_u8(v8_src1.val[1]);
            //上下兩個數據相加，之后求均值
            v8_dst.val[0] = vshrn_n_u16(vaddq_u16(v16_u_sum0, v16_u_sum1), 2);
            v8_dst.val[1] = vshrn_n_u16(vaddq_u16(v16_v_sum0, v16_v_sum1), 2);
            //UV通道結果交織存儲
            vst2_u8(dst_ptr, v8_dst);
            dst_ptr += 16;
        }
        //process leftovers......
    }
}

通過這樣的優化，將原本的標量處理轉換為向量處理，充分利用了 NEON 指令集的并行處理能力，大大提升了 UV 通道下采樣的效率。在實際應用中，對于圖像和視頻處理等對性能要求較高的場景，這種基于向量處理的優化方式能夠顯著提高程序的運行速度，為用戶帶來更好的體驗。

責任編輯：武曉燕來源：深度Linux