深入剖析SystemTap：Linux動態追蹤的神兵利器

作者：深度Linux 2025-10-30 01:55:00

無論是快速定位生產環境的性能瓶頸，還是深度排查疑難故障，亦或是構建定制化監控方案，SystemTap 都能以低侵入性、高靈活性的優勢，成為你手中的 “神兵利器”。接下來，我們就從原理到實戰，一步步揭開 SystemTap 的神秘面紗，帶你掌握這門 Linux 動態追蹤的核心技術。

作為 Linux 開發者或運維工程師，你是否曾陷入這樣的困境：系統突然出現性能瓶頸，CPU 利用率莫名飆升，卻找不到具體消耗資源的內核函數；用戶進程頻繁崩潰，日志只留下模糊報錯，無法定位到關鍵調用鏈路；想監控某個系統調用的實時行為，又怕傳統調試工具帶來額外性能開銷…… 這些 “看不見、摸不著” 的內核層問題，往往讓排查工作陷入僵局。

而 SystemTap 的出現，就像給 Linux 系統裝上了一副 “透視鏡”。它無需重啟系統、無需修改內核代碼，就能通過動態插樁技術，精準捕捉內核與用戶空間的關鍵事件 —— 從函數調用、系統調用觸發，到內存分配、網絡包傳輸，甚至自定義業務邏輯的執行狀態，都能實時追蹤與分析。

一、SystemTap 是什么？

1.1 SystemTap概述

SystemTap 是一款極為強大的 Linux 系統動態追蹤工具，它就像是給系統運維和開發人員配備的 “透視眼鏡”，能夠讓我們深入到 Linux 系統的內核以及用戶空間程序內部，實時地監控和診斷程序的運行狀況。在復雜的系統環境中，它能幫助我們快速定位問題，優化性能。

以往在排查系統問題時，如果沒有類似 SystemTap 這樣的工具，開發人員往往需要經歷繁瑣的流程。比如想要獲取內核或用戶空間程序的某些運行信息，可能需要先修改代碼，添加一些打印語句或者調試代碼，然后重新編譯整個程序或內核，接著安裝新的程序或內核版本，最后還得重啟系統才能生效。這個過程不僅耗時費力，而且還可能對正在運行的業務造成影響。但有了 SystemTap，這些問題就迎刃而解，它不需要對目標程序或內核進行重新編譯和重啟，就能動態地插入探測點，獲取我們想要的信息。

從技術原理上來說，SystemTap 主要基于 Linux 內核的 Kprobe 機制。Kprobe 是 Linux 內核提供的一種動態探測機制，它允許在不修改內核代碼的情況下，在指定的內核函數或指令處插入斷點或探測點。SystemTap 利用這個機制，通過編寫特定的腳本，定義我們感興趣的事件（比如某個內核函數的調用、某個系統調用的發生、定時器的觸發等），當這些事件發生時，就會執行相應的處理程序，從而實現對系統運行狀態的監控和分析。

SystemTap 的腳本語言設計得非常簡潔且強大，它類似于 C 語言和 Awk 語言的混合，對于有一定編程基礎的人來說很容易上手。在腳本中，我們可以定義各種探針（Probes），這些探針就是我們設置的探測點，每個探針都關聯著一個或多個處理程序（Handlers）。當探針所對應的事件觸發時，相應的處理程序就會被執行，在處理程序中，我們可以獲取事件的相關信息，比如函數的參數、返回值、當前進程的 ID、進程名等等，還可以對這些信息進行處理和分析，比如打印輸出、統計計數、數據存儲等等。

1.2 SystemTap 的起源與發展

SystemTap 的誕生源于人們對 Linux 系統調試和性能分析的迫切需求。在早期，Linux 系統的調試手段相對有限，開發人員在面對系統性能問題或程序錯誤時，往往需要耗費大量的時間和精力去排查。而傳統的調試方法，如添加打印語句、使用調試器等，在復雜的系統環境下存在諸多局限性，尤其是在處理內核級別的問題時，這些方法顯得力不從心。

它的出現與另一個著名的動態追蹤工具 DTrace 有著千絲萬縷的聯系。DTrace 起源于 Sun Solaris 操作系統，它為 Solaris 系統提供了強大的動態追蹤能力，允許開發人員在不重啟系統的情況下，深入系統內部獲取各種運行時信息。DTrace 的成功激發了 Linux 社區開發類似工具的熱情，SystemTap 便是在這樣的背景下應運而生，它借鑒了 DTrace 的一些設計理念和技術思路，旨在為 Linux 系統提供同樣強大且靈活的動態追蹤功能。

從 2005 年開始，SystemTap 進入了開發階段，眾多來自 Red Hat、IBM、Intel 和 Hitachi 等公司的工程師參與到了項目中，他們各自發揮專長，為 SystemTap 的開發貢獻力量。例如，Red Hat 主要負責腳本轉換 / 翻譯器和運行時庫的開發，使得用戶能夠通過簡潔的腳本語言來定義追蹤規則；IBM 則在 kprobe 和 relayfs 方面投入精力，kprobe 是 SystemTap 實現動態追蹤的關鍵底層技術，而 relayfs 則用于高效地在用戶空間和內核空間之間傳輸數據；Intel 專注于轉換器安全檢查以及 performance monitor tapset，保障了 SystemTap 在運行過程中的安全性和穩定性，同時為性能監控提供了豐富的功能支持。

在歷經多年的不斷完善和發展后，SystemTap 逐漸走向成熟。如今，它已經在各種主流的 Linux 發行版中得到了廣泛的應用。無論是企業級的服務器系統，還是開發者用于開發和測試的環境，SystemTap 都成為了系統運維和開發人員不可或缺的工具。它的功能不斷豐富，社區也日益壯大，有大量的用戶和開發者在社區中分享經驗、貢獻代碼和腳本，進一步推動了 SystemTap 的發展和應用。

二、SystemTap 的核心概念

2.1探針（Probes）

探針是SystemTap中非常關鍵的概念，它就像是我們在系統運行過程中設置的 “監控攝像頭”，用于定義事件點。這些事件點可以是函數的入口、出口，也可以是系統調用的發生、定時器的觸發等等。簡單來說，只要是我們感興趣的系統運行事件，都可以通過探針來進行捕獲。

當我們定義一個探針時，實際上就是在告訴 SystemTap，我們希望在某個特定的事件發生時，執行一些特定的操作。比如，我們想要監控open系統調用，就可以定義一個針對syscall.open的探針。當系統中任何進程執行open系統調用時，這個探針就會被觸發。

在 SystemTap 腳本中，定義探針的語法非常簡潔。以監控open系統調用為例，代碼如下：

probe syscall.open {
    printf("%s opened %s\n", execname(), filename)
}

在這段代碼中，probe syscall.open就是定義了一個針對open系統調用的探針。當open系統調用發生時，就會執行花括號內的處理程序。printf("%s opened %s\n", execname(), filename)這行代碼的作用是打印出當前執行open系統調用的進程名（execname()函數獲取）以及被打開的文件名（filename變量表示，它是open系統調用相關的參數，SystemTap 可以直接獲取）。通過這樣的方式，我們就能夠實時了解系統中open系統調用的執行情況。

2.2處理程序（Handlers）

處理程序是與探針緊密關聯的部分，它是當探針觸發時執行的腳本語句集合。可以把處理程序看作是當 “監控攝像頭”（探針）捕捉到特定事件時，所采取的具體行動。

在上面監控open系統調用的例子中，printf("%s opened %s\n", execname(), filename)這部分代碼就是處理程序。它的作用是對探針觸發時的相關信息進行處理，這里是將進程名和被打開的文件名打印輸出，以便我們觀察和分析。

處理程序中可以包含各種操作，除了簡單的打印輸出，還可以進行數據計算、統計、存儲等。比如，我們想要統計某個函數的調用次數，可以在處理程序中使用一個全局變量來進行計數。示例代碼如下：

global count = 0

probe kernel.function("my_function").call {
    count++
}

probe end {
    printf("my_function was called %d times\n", count)
}

在這段代碼中，首先定義了一個全局變量count并初始化為 0。然后，針對my_function函數的調用定義了一個探針，當my_function函數被調用時（即探針觸發），處理程序count++會將count變量的值加 1，實現對函數調用次數的統計。最后，在 SystemTap 腳本執行結束時（probe end觸發），通過printf語句打印出my_function函數的調用次數。

2.3 Tapset

Tapset 可以理解為是 SystemTap 的 “工具庫”，它是預定義的探針和函數庫。就好比我們在進行軟件開發時，會使用各種類庫來簡化開發過程，Tapset 對于 SystemTap 腳本編寫也是如此，它能極大地簡化腳本編寫的工作量。

Tapset 中包含了許多常用的探針和函數定義，這些探針和函數是針對各種常見的系統分析場景而設計的。例如，在網絡分析方面，Tapset 可能包含用于跟蹤網絡數據包收發的探針和計算網絡流量的函數；在性能分析方面，可能有用于統計 CPU 使用率、內存分配情況的相關探針和函數。

當我們編寫 SystemTap 腳本時，如果需要使用 Tapset 中的功能，不需要重新定義相關的探針和函數，直接調用即可。這不僅節省了時間和精力，還提高了腳本的可讀性和可維護性。比如，要使用 Tapset 中預定義的每 5 秒觸發一次的定時器探針，可以這樣寫：

probe timer.ms(5000) {
    printf("5 seconds have passed\n")
}

這里的timer.ms(5000)就是 Tapset 中定義的一個定時器探針，它表示每 5000 毫秒（即 5 秒）觸發一次。當這個探針觸發時，就會執行后面花括號內的處理程序，打印出 “5 seconds have passed” 的信息。通過使用 Tapset，我們可以更方便地實現各種復雜的系統分析任務。

三、SystemTap核心原理

SystemTap 的工作過程可以看作是一個將用戶定義的腳本轉化為可在內核中運行的監控程序，并最終獲取系統運行數據的過程，主要分為以下幾個關鍵步驟：

（1）腳本編寫：用戶使用 SystemTap 腳本語言編寫腳本，在腳本中指定想要探測的內核事件（如內核函數的調用、系統調用的發生等）或用戶空間應用程序事件，同時定義當這些事件發生時要執行的處理邏輯。例如，我們想要監控系統中open系統調用的執行情況，并打印出調用open的進程名和被打開的文件名，就可以編寫如下腳本：

probe syscall.open {
    printf("%s opened %s\n", execname(), filename)
}

（2）腳本翻譯：編寫好的 SystemTap 腳本并不能直接在內核中運行，需要通過stap命令將其翻譯成 C 代碼。在這個過程中，stap會讀取腳本指令，進行語法分析和語義檢查，將腳本中的探針定義、處理程序以及相關的變量和函數定義等，轉化為對應的 C 語言代碼結構。同時，它還會生成一個內核模塊框架，將翻譯后的 C 代碼整合到這個框架中，最終生成一個完整的內核模塊，這個模塊與 SystemTap 運行時庫鏈接，運行時庫提供了一些通用的功能和接口，方便內核模塊與系統進行交互。

（3）編譯成內核模塊：生成的 C 代碼會被編譯成內核模塊（.ko文件）。這個編譯過程使用系統默認的 C 編譯器（通常是 GCC），編譯器會根據目標系統的內核版本、架構等信息，對 C 代碼進行編譯和鏈接，生成可在內核中加載和運行的二進制模塊。在編譯過程中，會進行一系列的優化和錯誤檢查，確保生成的內核模塊能夠正確運行。例如，如果腳本中存在語法錯誤或者對內核符號的引用錯誤，編譯過程就會報錯，提示用戶進行修改。

（4）模塊加載與執行：編譯好的內核模塊通過insmod或者modprobe等命令被加載到正在運行的 Linux 內核中（實際上stap命令會自動完成這一步）。一旦模塊加載成功，系統會安排該模塊與內核進行交互。模塊會根據腳本中定義的探針，在內核中相應的位置插入探測點。這些探測點就像是在內核代碼中埋下的 “鉤子”，當內核執行到這些位置時，即觸發相應的事件，與該事件關聯的探針就會捕獲到這個事件，并執行預先定義好的處理程序。在處理程序中，可以進行各種操作，如獲取內核數據結構中的信息、計算統計數據、打印輸出調試信息等。比如在前面監控open系統調用的例子中，當系統中某個進程執行open系統調用時，對應的探針被觸發，處理程序中的printf函數就會被執行，將進程名和被打開的文件名打印輸出。

（5）數據輸出與清理：在探測任務執行過程中，處理程序中收集到的數據會根據用戶的設定進行輸出。可以輸出到屏幕上，讓用戶實時查看；也可以輸出到指定的文件中，方便后續分析。當用戶完成探測任務，通常通過按下Ctrl + C組合鍵來終止 SystemTap 會話。此時，staprun命令（stap命令內部調用）會負責卸載已經加載的內核模塊，并清理相關的資源，包括釋放內存、關閉文件描述符等，確保系統恢復到探測前的狀態，避免對系統造成不必要的影響。

通過這樣的工作流程，SystemTap 實現了在不重啟系統和重新編譯內核的情況下，對 Linux 系統進行動態的監控和分析，為開發人員和系統管理員提供了一種高效、靈活的系統調試和性能分析手段。

四、SystemTap 的安裝與運行

4.1安裝步驟

SystemTap 的安裝過程相對簡單，不過具體的安裝命令會因 Linux 發行版的不同而有所差異。

對于 Debian 或 Ubuntu 系統，可以使用apt包管理器進行安裝，只需在終端中輸入以下命令：

sudo apt-get install systemtap

這條命令會自動從軟件源中下載并安裝 SystemTap 及其依賴的軟件包。安裝完成后，你可以通過運行一些簡單的 SystemTap 腳本來驗證是否安裝成功。

在 CentOS 或 RHEL 系統上，安裝 SystemTap 則需要使用yum包管理器，命令如下：

sudo yum install systemtap

同樣，yum會自動處理依賴關系，完成 SystemTap 的安裝。

需要注意的是，在某些情況下，為了讓 SystemTap 能夠更全面地發揮其功能，比如深入分析內核函數的調用細節、獲取內核變量的值等，可能還需要安裝內核調試信息包（kernel-debuginfo）。這是因為這些調試信息包中包含了內核符號表等關鍵信息，SystemTap 在進行一些高級的內核追蹤操作時會依賴這些信息。例如，在 CentOS 系統中，如果要安裝對應內核版本的調試信息包，可以通過yum搜索并安裝，具體命令可能如下：

sudo yum install kernel-debuginfo-$(uname -r)

這里$(uname -r)會獲取當前系統正在運行的內核版本，從而確保安裝的調試信息包與當前內核版本匹配。

4.2運行方式

SystemTap 提供了多種靈活的運行方式，以滿足不同的使用場景和需求。

最常見的方式是從文件中讀入腳本并運行。假設我們編寫了一個名為test.stp的 SystemTap 腳本，那么可以在終端中使用以下命令來運行它：

stap test.stp

這種方式適用于我們已經編寫好較為復雜的腳本，需要對其進行測試和執行的情況。在運行腳本時，還可以通過添加一些選項來調整運行行為，比如使用-v選項可以增加輸出的詳細程度，幫助我們了解腳本的執行過程和中間結果。例如：

stap -v test.stp

也可以從標準輸入中讀入腳本并運行。當我們需要快速測試一些簡單的 SystemTap 語句，或者希望通過管道將其他命令的輸出作為 SystemTap 的輸入時，這種方式就非常方便。在終端中輸入以下命令：

stap -

然后在出現的輸入提示符下，逐行輸入 SystemTap 腳本內容，輸入完成后，按下Ctrl+D組合鍵表示輸入結束，SystemTap 就會立即執行輸入的腳本。

如果腳本內容比較簡短，我們還可以直接在命令行中運行。使用-e選項，后面跟上要執行的腳本內容即可。例如，要監控系統中open系統調用，并打印出調用進程名和被打開的文件名，可以使用以下命令：

stap -e 'probe syscall.open {printf("%s opened %s\n", execname(), filename)}'

對于那些經常需要執行的 SystemTap 腳本，我們可以為其賦予可執行屬性，并在腳本的第一行加上#!/usr/bin/stap，這樣就可以像執行普通可執行文件一樣直接運行腳本文件。首先，使用chmod命令賦予腳本可執行權限：

chmod +x test.stp

然后，直接運行腳本：

./test.stp

五、SystemTap 腳本語法與示例

5.1基本語法結構

SystemTap 腳本的基本結構圍繞著探針（probe）語句展開，探針用于定義事件和相應的處理程序。其語法形式如下：

probe probe_point [, probe_point] {
    handler_statement
}

其中，probe_point是探測點，它指定了要監控的事件，比如syscall.open表示監控open系統調用，kernel.function("my_function").call表示監控內核函數my_function的調用。handler_statement則是當探測點事件觸發時執行的處理程序語句，可以是一條或多條語句，這些語句被包含在花括號{}內。

例如，下面的腳本用于監控系統中write系統調用，并打印出調用進程的名稱和寫入的字節數：

probe syscall.write {
    printf("%s wrote %d bytes\n", execname(), $count)
}

在這個例子中，probe syscall.write定義了一個針對write系統調用的探測點，當write系統調用發生時，就會執行花括號內的printf語句，execname()函數獲取當前執行write系統調用的進程名，$count是write系統調用相關的參數，表示寫入的字節數。

5.2變量與數據類型

在 SystemTap 腳本中，變量不需要顯式聲明類型，系統會根據其使用方式自動判定類型。變量名由字母、數字、下劃線和美元符號組成，但不能以數字開頭。變量可以在腳本中的任何位置使用，默認情況下，變量是局部變量，作用域僅限于包含它的探針處理程序或函數內部。如果需要定義全局變量，使用global關鍵字。例如：

global total_writes = 0

probe syscall.write {
    total_writes++
    printf("Total write syscalls so far: %d\n", total_writes)
}

這里定義了一個全局變量total_writes，用于統計write系統調用的次數。每次write系統調用發生時，total_writes的值就會加 1，并打印出當前的統計結果。

SystemTap 還支持關聯數組，關聯數組的索引可以是字符串或整數，或者是它們的組合。關聯數組必須定義為全局變量，常用于聚合數據。比如，統計每個進程對不同文件的讀取次數，可以這樣寫：

global read_count[execname(), filename]

probe syscall.read {
    read_count[execname(), filename]++
}

probe end {
    foreach ( [proc, file] in read_count ) {
        printf("%s read %s %d times\n", proc, file, read_count[proc, file])
    }
}

在這個腳本中，read_count是一個關聯數組，它的索引由進程名execname()和文件名filename組成。每次read系統調用發生時，對應的read_count數組元素值加 1 。在腳本執行結束時（probe end觸發），通過foreach循環遍歷read_count數組，打印出每個進程對不同文件的讀取次數。

5.3條件語句與循環

條件語句在 SystemTap 腳本中用于根據不同的條件執行不同的操作，其語法與 C 語言類似，使用if - else結構。例如，我們只想監控某個特定進程（假設進程名為target_process）的open系統調用，可以這樣寫：

probe syscall.open {
    if (execname() == "target_process") {
        printf("%s opened %s\n", execname(), filename)
    }
}

在這個例子中，if (execname() == "target_process")是條件判斷部分，如果當前執行open系統調用的進程名等于target_process，就會執行花括號內的printf語句，打印出進程名和被打開的文件名。

循環語句在 SystemTap 中也有廣泛的應用，常見的循環結構有for循環和while循環，它們的語法同樣與 C 語言類似。另外，SystemTap 還提供了一種特殊的foreach循環，用于遍歷關聯數組。比如，在前面統計每個進程對不同文件讀取次數的例子中，就使用了foreach循環來遍歷read_count關聯數組：

probe end {
    foreach ( [proc, file] in read_count ) {
        printf("%s read %s %d times\n", proc, file, read_count[proc, file])
    }
}

這里的foreach ( [proc, file] in read_count )表示對read_count關聯數組中的每一個鍵值對進行遍歷，proc和file分別代表數組索引中的進程名和文件名，通過這種方式可以方便地處理關聯數組中的數據。

5.4示例腳本解析

下面通過一個具體的示例腳本來深入理解 SystemTap 腳本的各個部分：

# 監控進程的execve系統調用
probe syscall.execve {
    # 獲取當前進程的名稱
    local proc_name = execname()
    # 獲取當前進程的ID
    local proc_id = pid()
    # 獲取被執行的程序路徑
    local exec_path = argstr
    printf("%s(%d) executed %s\n", proc_name, proc_id, exec_path)
}

這個腳本的作用是監控系統中所有進程的execve系統調用，execve系統調用用于執行一個新的程序，當這個系統調用發生時，腳本會獲取相關信息并打印出來。

腳本開頭的probe syscall.execve定義了一個針對execve系統調用的探針，當execve系統調用發生時，就會觸發這個探針。

在探針的處理程序中，首先使用local關鍵字定義了三個局部變量：proc_name用于存儲當前進程的名稱，通過execname()函數獲取；proc_id用于存儲當前進程的 ID，通過pid()函數獲取；exec_path用于存儲被執行的程序路徑，通過argstr變量獲取（argstr是execve系統調用相關的參數，包含了被執行程序的路徑信息）。

最后，使用printf函數將獲取到的信息打印輸出，輸出格式為 “進程名 (進程 ID) executed 被執行程序路徑” 。通過這個腳本，我們可以實時了解系統中哪些進程執行了哪些程序，對于系統的監控和分析非常有幫助。

六、SystemTap 的高級特性

6.1條件過濾

在實際的系統監控和分析中，我們往往并不需要對所有的事件進行處理，而是希望根據特定的條件來篩選出感興趣的部分。SystemTap 提供了強大的條件過濾功能，讓我們能夠在探針中設置各種條件，只對滿足條件的事件執行處理程序。

比如，我們想要監控某個特定進程的系統調用，就可以通過進程 ID（PID）來進行過濾。假設我們要監控進程 ID 為1234的進程的所有系統調用，可以編寫如下 SystemTap 腳本：

probe syscall.* if (pid() == 1234) {
    printf("%s called syscall %s\n", execname(), name)
}

在這個腳本中，probe syscall.*表示對所有的系統調用進行探測，if (pid() == 1234)則是條件判斷部分，只有當當前進程的 ID 等于1234時，才會執行花括號內的處理程序。printf("%s called syscall %s\n", execname(), name)這行代碼會打印出執行系統調用的進程名（execname()函數獲取）以及系統調用的名稱（name變量表示，它是 SystemTap 內置的與系統調用相關的變量）。

通過這種方式，我們就能夠精準地監控特定進程的系統調用情況，避免了大量無關信息的干擾，使得我們能夠更高效地獲取和分析關鍵數據。

6.2關聯數組與統計

在系統分析過程中，我們常常需要對各種數據進行聚合和統計，以便更好地了解系統的運行狀態和性能瓶頸。SystemTap 的關聯數組為我們提供了一種非常方便的數據聚合方式。

關聯數組可以看作是一種特殊的數組，它的索引不再局限于傳統的整數，而是可以使用字符串、整數或者它們的組合。這使得我們能夠根據不同的維度來組織和統計數據。

例如，我們想要統計每個進程對不同文件的讀取次數，可以使用如下腳本：

global read_count[execname(), filename]

probe syscall.read {
    read_count[execname(), filename]++
}

probe end {
    foreach ( [proc, file] in read_count ) {
        printf("%s read %s %d times\n", proc, file, read_count[proc, file])
    }
}

在這個腳本中，首先定義了一個全局關聯數組read_count，它的索引由進程名（execname()）和文件名（filename）組成。每當read系統調用發生時，對應的read_count數組元素的值就會加 1，實現了對每個進程對不同文件讀取次數的統計。

在腳本執行結束時（probe end觸發），通過foreach循環遍歷read_count關聯數組。foreach ( [proc, file] in read_count )表示對read_count數組中的每一個鍵值對進行遍歷，proc和file分別代表數組索引中的進程名和文件名。在循環體中，使用printf函數打印出每個進程對不同文件的讀取次數。

通過這種方式，我們可以清晰地了解到系統中各個進程對不同文件的訪問模式和頻率，為進一步的系統優化和問題排查提供有力的數據支持。

6.3嵌入 C 代碼

盡管 SystemTap 的腳本語言已經非常強大，能夠滿足大多數常見的系統分析需求，但在某些情況下，我們可能需要執行一些更為復雜的操作，這時就可以借助 SystemTap 嵌入 C 代碼的功能。

在 SystemTap 腳本中嵌入 C 代碼，能夠讓我們利用 C 語言的強大功能和豐富的庫函數，實現一些在 SystemTap 腳本語言中難以完成的任務。

要在腳本中嵌入 C 代碼，需要使用%{和%}將 C 代碼括起來，并且在運行腳本時需要加上-g選項，開啟 guru 模式。

例如，假設我們想要在監控vfs_read函數返回時，獲取當前進程的詳細信息（包括進程 ID 和進程名），可以編寫如下腳本：

function getprocname:string(task:long) %{
    struct task_struct *task = (struct task_struct *)STAP_ARG_task;
    snprintf(STAP_RETVALUE, MAXSTRINGLEN, "pid: %d, comm: %s", task->pid, task->comm);
%}

function getprocid:long(task:long) %{
    struct task_struct *task = (struct task_struct *)STAP_ARG_task;
    STAP_RETURN(task->pid);
%}

probe kernel.function("vfs_read").return {
    task = pid2task(pid())
    printf("vfs_read return: %p, pid: %d, getprocname: %s, getprocid: %d\n", $return, $return->pid, getprocname(task), getprocid(task));
}

在這個腳本中，定義了兩個函數getprocname和getprocid，它們都是嵌入的 C 代碼函數。getprocname函數用于獲取進程的名稱和 ID，并將其格式化為字符串返回；getprocid函數則僅返回進程的 ID 。

在probe kernel.function("vfs_read").return探針的處理程序中，首先通過pid2task(pid())獲取當前進程的任務結構指針task，然后調用getprocname和getprocid函數獲取進程的詳細信息，并使用printf函數打印出來。

通過嵌入 C 代碼，我們能夠深入挖掘系統內部的信息，實現更加復雜和精細的系統分析任務。但需要注意的是，由于 C 代碼的執行可能會涉及到系統底層的操作，所以在使用時要格外小心，確保代碼的正確性和安全性。

七、SystemTap 的應用場景

7.1性能瓶頸分析

在現代計算機系統中，性能瓶頸的出現往往是一個復雜的問題，涉及到多個層面的因素。而 SystemTap 在性能瓶頸分析方面具有獨特的優勢，能夠幫助我們深入系統內部，精確地定位問題所在。

假設我們正在維護一個大型的 Web 服務器集群，近期發現服務器的響應時間明顯變長，用戶反饋頁面加載緩慢。通過常規的監控工具，我們只能大致了解到系統的 CPU 使用率、內存使用率等整體指標，但無法確定具體是哪些函數或者操作導致了性能下降。

這時，我們可以使用 SystemTap 編寫如下腳本，來追蹤do_sys_open函數的執行時間，因為文件打開操作在 Web 服務器中是非常頻繁的，很可能是性能瓶頸的所在：

probe kernel.function("do_sys_open") {
    t = gettimeofday_us()
}
probe kernel.function("do_sys_open").return {
    printf("open took %d us\n", gettimeofday_us() - t)
}

在這個腳本中，第一個探針probe kernel.function("do_sys_open")在do_sys_open函數開始執行時觸發，記錄下當前的時間戳gettimeofday_us()并存儲在變量t中。第二個探針probe kernel.function("do_sys_open").return在do_sys_open函數返回時觸發，再次獲取當前時間戳，然后計算兩次時間戳的差值，即do_sys_open函數的執行時間，并通過printf函數打印出來。

運行這個腳本后，我們可以得到每一次do_sys_open函數調用的執行時間。如果發現某些調用的執行時間特別長，就可以進一步深入分析，查看這些長時間執行的調用是否存在文件系統 I/O 問題、權限檢查問題或者其他可能導致延遲的因素。通過這種方式，我們能夠快速定位到性能瓶頸的具體位置，為后續的優化工作提供有力的依據。

7.2內存泄漏檢測

內存泄漏是軟件開發中常見的問題，尤其是在 C 和 C++ 等需要手動管理內存的語言編寫的程序中。內存泄漏不僅會導致程序占用的內存不斷增加，最終耗盡系統內存，還可能引發程序崩潰、性能下降等一系列嚴重問題。

SystemTap 可以通過追蹤內存分配和釋放函數，有效地檢測內存泄漏。其原理是為內存分配函數（如malloc、calloc、kmalloc等）和內存釋放函數（如free、kfree等）設置探測點，分別對內存分配和釋放的次數進行計數。如果在程序運行結束時，發現內存分配的次數大于釋放的次數，那就很有可能存在內存泄漏。

以一個簡單的 C 程序為例，假設我們有如下代碼，其中存在內存泄漏的問題：

#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>

int main() {
    char *p1, *p2, *p3;
    sleep(20);  // 等待SystemTap啟動設置探測點
    p1 = malloc(100);
    p2 = malloc(200);
    p3 = malloc(300);
    free(p1);
    free(p2);
    // 這里p3沒有被釋放，導致內存泄漏
    return 0;
}

我們可以使用 SystemTap 編寫如下腳本（假設腳本名為mem_leak.stp）來檢測內存泄漏：

probe begin {
    printf("=============begin============\n")
}

// 記錄內存分配和釋放的計數關聯數組
global g_mem_ref_tbl

probe process("/lib/x86_64-linux-gnu/libc.so.6").function("__libc_malloc").return {
    if (target() == pid()) {
        if (g_mem_ref_tbl[$return] == 0) {
            g_mem_ref_tbl[$return]++
        }
    }
}

probe process("/lib/x86_64-linux-gnu/libc.so.6").function("__libc_free") {
    if (target() == pid()) {
        g_mem_ref_tbl[$mem]--
        if (g_mem_ref_tbl[$mem] < 0 && $mem != 0) {
            printf("可能存在重復釋放內存的問題\n")
        }
    }
}

probe end {
    printf("=============end============\n")
    foreach (mem in g_mem_ref_tbl) {
        if (g_mem_ref_tbl[mem] > 0) {
            printf("內存泄漏，地址為%p，分配次數為%d\n", mem, g_mem_ref_tbl[mem])
        }
    }
}

在這個腳本中，首先定義了一個全局關聯數組g_mem_ref_tbl，用于記錄每個內存地址的分配和釋放計數。當__libc_malloc函數返回時（即內存分配成功時），如果分配的內存地址在g_mem_ref_tbl中不存在，則將其計數設置為 1 。當__libc_free函數被調用時（即內存釋放時），將對應內存地址的計數減 1 。如果發現計數小于 0，說明可能存在重復釋放內存的問題。在腳本執行結束時，遍歷g_mem_ref_tbl數組，對于那些計數大于 0 的內存地址，就可以確定存在內存泄漏，并打印出泄漏的內存地址和分配次數。

運行這個腳本后，就能夠準確地檢測到上述 C 程序中p3所指向的內存泄漏問題，幫助我們及時發現和解決內存相關的錯誤。

7.3網絡包分析

在網絡通信中，深入了解網絡包的傳輸和處理情況對于優化網絡性能、排查網絡故障至關重要。SystemTap 可以通過追蹤網絡接收事件，詳細地分析網絡包的各種信息，如包的來源、目的地址、大小、協議類型等。

以追蹤特定 IP 地址的 ICMP 包為例，假設我們想要監控目標 IP 地址為192.168.1.100的 ICMP 包的接收情況，可以使用如下 SystemTap 腳本：

global TARGET_IP = "192.168.1.100"

%{
#include <linux/ip.h>
#include <linux/skbuff.h>
#include <linux/inet.h>
%}

# 將IP字符串轉換為整數
function ip_to_int(ip_str) %{
    struct in_addr addr;
    int ret = in4_pton(STAP_ARG_ip_str, -1, (u8 *)&addr, '\0', NULL);
    if (ret > 0) {
        STAP_RETURN(ntohl(addr.s_addr));
    } else {
        STAP_RETURN(0);
    }
%}

# 獲取IP協議、源地址、目標地址（返回多個值）
function get_ip_protocol:long(skb) %{
    struct sk_buff *skb = (struct sk_buff *)STAP_ARG_skb;
    struct iphdr *iph = ip_hdr(skb);
    STAP_RETURN(iph->protocol);
%}

function get_saddr:long(skb) %{
    struct sk_buff *skb = (struct sk_buff *)STAP_ARG_skb;
    struct iphdr *iph = ip_hdr(skb);
    STAP_RETURN(ntohl(iph->saddr));
%}

function get_daddr:long(skb) %{
    struct sk_buff *skb = (struct sk_buff *)STAP_ARG_skb;
    struct iphdr *iph = ip_hdr(skb);
    STAP_RETURN(ntohl(iph->daddr));
%}

probe kernel.function("ip_rcv") {
    skb = $skb
    protocol = get_ip_protocol(skb)
    saddr = get_saddr(skb)
    daddr = get_daddr(skb)
    target = ip_to_int(TARGET_IP)
    if (protocol == 1 && (saddr == target || daddr == target)) {
        printf("[RCV %05d] %s ICMP %s -> %s\n", pid(), ctime(gettimeofday_s()), ip_ntop(htonl(saddr)), ip_ntop(htonl(daddr)))
    }
}

probe begin {
    println("[+] Tracing ICMP to/from: ", TARGET_IP)
}

在這個腳本中，首先定義了目標 IP 地址TARGET_IP 。然后通過嵌入 C 代碼定義了幾個輔助函數，ip_to_int函數用于將 IP 字符串轉換為整數形式，方便后續的比較；get_ip_protocol、get_saddr和get_daddr函數分別用于從網絡數據包（skb）中獲取 IP 協議類型、源地址和目標地址。

probe kernel.function("ip_rcv")探針在ip_rcv函數（用于接收網絡數據包的內核函數）被調用時觸發，獲取數據包的相關信息。如果數據包的協議類型為 ICMP（協議號為 1），并且源地址或目標地址與我們設定的目標 IP 地址一致，就打印出接收數據包的相關信息，包括進程 ID、接收時間、源 IP 地址和目標 IP 地址。

運行這個腳本后，我們就可以實時監控到目標 IP 地址的 ICMP 包的接收情況，通過分析這些信息，我們可以判斷網絡連接是否正常、是否存在網絡丟包等問題。

7.4使用 SystemTap 的注意事項與調試技巧

在使用 SystemTap時，有一些關鍵的注意事項需要牢記。首先，由于SystemTap 會對系統進行動態追蹤，可能會對系統性能產生一定的影響。特別是在生產環境中使用時，務必先在測試環境中充分驗證腳本的正確性和性能影響。在生產環境中直接運行未經測試的腳本，有可能導致系統性能下降，甚至影響關鍵業務的正常運行。

另外，要避免在探針的處理程序中執行耗時的操作。SystemTap 的探針處理程序是在事件觸發時立即執行的，如果其中包含耗時的 I/O 操作（如大量的磁盤讀寫、網絡請求等）、復雜的計算操作（如大規模的數據排序、復雜的數學運算等），可能會阻塞系統的正常運行，進而影響整個系統的性能。例如，在監控系統調用的腳本中，如果在處理程序中進行大量的文件寫入操作，可能會導致系統 I/O 性能下降，影響其他依賴 I/O 的進程的運行。

在編寫和運行 SystemTap 腳本時，掌握一些調試技巧能夠幫助我們更快地發現和解決問題。其中，使用-v選項是一個非常簡單有效的方法。當我們運行stap -v script.stp時，-v選項會增加輸出的詳細程度，它會顯示腳本解析、編譯、模塊加載等各個階段的詳細信息。通過這些信息，我們可以了解腳本執行過程中是否出現錯誤，以及錯誤出現在哪個階段。比如，如果在編譯階段出現錯誤，-v選項輸出的信息中會包含具體的錯誤提示，幫助我們定位和修改腳本中的問題。

-pN選項也很實用，這里的N是一個數字，不同的值代表不同的預處理階段。例如，-p3表示僅進行解析和生成 C 代碼階段，不進行編譯和運行。當我們懷疑腳本在語法解析或者轉換為 C 代碼的過程中存在問題時，就可以使用這個選項，查看生成的 C 代碼是否正確，以及是否有語法錯誤或語義錯誤的提示。

如果腳本中嵌入了 C 代碼，那么-g選項就顯得尤為重要。它開啟了 guru 模式，允許腳本中嵌入 C 代碼并執行。在使用-g選項時，要確保嵌入的 C 代碼的正確性和安全性，因為 C 代碼直接在內核空間執行，如果存在錯誤或者安全漏洞，可能會導致系統不穩定甚至崩潰。

責任編輯：武曉燕來源：深度Linux