一、使用bpf trace來trace什么進(jìn)程在讀取/etc/passw
1、創(chuàng)建bpf trace腳本
首先創(chuàng)建一個bpf trace腳本以便進(jìn)行后續(xù)操作,下面是代碼示例:
sudo bpftrace -e 'tracepoint:syscalls:sys_enter_openat /arg1 == "0x0" && strstr(arg2->filename, "/etc/passwd")/{ printf("%d %s\n", pid, comm); }'
2、解釋腳本
tracepoint:syscalls:sys_enter_openat:表示跟蹤系統(tǒng)調(diào)用 openat 的開始執(zhí)行;/arg1 == “0x0” && strstr(arg2->filename, “/etc/passwd”)/:表示過濾條件,只需要捕捉 filename 為 /etc/passwd 的系統(tǒng)調(diào)用;{ printf(“%d %s\n”, pid, comm); }:表示當(dāng)滿足上述條件時,輸出該進(jìn)程的pid和進(jìn)程名。3、執(zhí)行腳本,等待輸出
當(dāng)有進(jìn)程讀取/etc/passwd文件時,命令行會輸出該進(jìn)程的pid和進(jìn)程名,可以從輸出中找到目標(biāo)進(jìn)程。
二、bpf trace介紹
1、簡介
在v21.07 release發(fā)布版本中,SPDK提供了對BPF追蹤(tracing)的支持。BPF追蹤指一組定義在 SPDK 庫的腳本和靜態(tài)探針,為用戶提供了檢查 SPDK 應(yīng)用程序的另一種方法。SPDK很久以前就建立過一個名為libtrace的追蹤庫。支持BPF追蹤并不是要取代libtrace,而是要對它進(jìn)行補(bǔ)充。這兩個庫的功能略有不同:libtrace的開銷很低,但靈活性較差。BPF追蹤的成本較高(請求CPU核trap陷阱),但功能更全面,甚至可以動態(tài)鏈接,不必在代碼中定義探針。
2、用戶態(tài)追蹤
首先,我們來探討什么是BPF追蹤,以及SPDK是如何利用它的。BPF,即Berkeley Packet Filter(伯克利包過濾器),是一項(xiàng)最初為分析和過濾網(wǎng)絡(luò)流量而開發(fā)的技術(shù)。用戶可以借此在專門的BPF虛擬機(jī)的操作系統(tǒng)內(nèi)核運(yùn)行用戶提供的程序。隨后BPF在Linux中得到擴(kuò)展(擴(kuò)展后的BPF簡稱為eBPF),可支持更多用例,其中也包括追蹤。
用戶能夠利用Linux 追蹤子系統(tǒng)在程序的特定地方附加探針,一旦觸發(fā)后會運(yùn)行附加在該探針的eBPF程序。在用戶態(tài)應(yīng)用程序中,BPF會放置一條指令(x86的int3指令),生成SIGTRAP,被CPU核捕獲后,即觸發(fā)執(zhí)行eBPF程序。
SPDK使用BPF trace(https://github.com/iovisor/bpftrace)來定義和附加探針。BPF追蹤工具使用高級腳本語言(作者稱是awk和C語言的結(jié)合)來描述特定探針被觸發(fā)時的操作。探針可以分為靜態(tài)定義和動態(tài)定義兩種。靜態(tài)探針也稱為USDT(User Statically-Defined Tracing用戶靜態(tài)定義的探針),由程序員放置在代碼的各個關(guān)鍵位置(使用一種SPDK_DTRACE_PROBE*宏)。動態(tài)探針可以在任何函數(shù)開始時啟用,不需要更改代碼或重新編譯應(yīng)用程序。但有一點(diǎn)需要注意:一些靜態(tài)函數(shù)調(diào)用可能會使編譯器產(chǎn)生inline,在這種情況下,不會照常執(zhí)行探針追蹤。
3、追蹤工具
為了編譯靜態(tài)探針,SPDK必須配置–with-usdt。我們在Ubuntu 20.04和Fedora 33的數(shù)據(jù)包版本追蹤時都遇到了一些問題,因此建議從源碼構(gòu)建最新版本的bpftrace??梢允褂胹cripts/bpftrace.sh來附加和顯示追蹤。運(yùn)行scripts/bpftrace.sh需要兩個參數(shù):支持追蹤的進(jìn)程參數(shù)PID和支持附加的bpftrace腳本。這些腳本能夠收集和顯示各種不同的信息和統(tǒng)計(jì)數(shù)據(jù)。例如,可以輸出某個函數(shù)每次被調(diào)用時的參數(shù),計(jì)算某個代碼路徑被執(zhí)行的次數(shù),甚至可以創(chuàng)建并顯示一組數(shù)據(jù)的直方圖。SPDK 提供了幾個可用腳本,位于 scripts/bpf 目錄。
接下來我們來討論scripts/bpf/send_msg.bt腳本,應(yīng)該如何用它來檢查SPDK應(yīng)用程序呢?該腳本通過spdk_thread_send_msg()和spdk_for_each_channel()計(jì)算某函數(shù)的執(zhí)行次數(shù)。腳本的內(nèi)容簡單明了:
uprobe:__EXE__:spdk_thread_send_msg { @send_msg[usym(arg1)] = count();}uprobe:__EXE__:spdk_for_each_channel { @for_each_channel[usym(arg1)] = count();}
scripts/bpf/send_msg.bt腳本通過uprobe關(guān)鍵字定義了兩個動態(tài)探針,分別為send_msg和for_each_channel,將每個函數(shù)的調(diào)用次數(shù)存在映射。名列前茅個參數(shù)arg1是映射的密鑰之一,在這兩種探針下arg1指的都是待執(zhí)行函數(shù)的指針。該腳本使用了兩個輔助函數(shù):usym()函數(shù)負(fù)責(zé)返回給定地址的符號名稱,count()函數(shù)負(fù)責(zé)計(jì)算某個函數(shù)被調(diào)用的次數(shù)。
還有一個特殊變量是SPDK 特有的__EXE__。 scripts/bpftrace.sh 以可執(zhí)行文件的名稱來代替該變量(即符合 bpftrace預(yù)期)。__PID__變量由追蹤進(jìn)程的PID參數(shù)代替。這兩個變量都提供了更便捷的方法,在不同的應(yīng)用程序中可使用相同的腳本。
4、SPDK和BPF追蹤
如前所述,SPDK追蹤庫其中一個目的是將開銷減至最小。這意味著每個追蹤點(diǎn)只能記錄最關(guān)鍵的數(shù)據(jù)。做到在I/O路徑中放置追蹤點(diǎn),同時不對性能產(chǎn)生重大影響。但有了BPF追蹤,我們可以把bpftrace探針放在對象創(chuàng)建的位置,收集其屬性,然后用這些數(shù)據(jù)來輔助SPDK追蹤。
例如,在NVMe/RDMA I/O路徑中記錄指針,指向可執(zhí)行請求的qpair。然后可以用bpftrace來記錄qpair的信息,比如它的隊(duì)列ID、線程ID、子系統(tǒng)NQN和主機(jī)NQN,SPDK顯示追蹤時與指針一同顯示。這就是scripts/bpf/trace.py腳本的功能。
5、總結(jié)
總而言之,現(xiàn)在SPDK可以使用更全面更有效的方法實(shí)現(xiàn)BPF追蹤以檢查應(yīng)用程序。BPF追蹤由一組bpftrace程序、定義在SPDK庫的USDT探針和幾個腳本組成,這些腳本能夠簡化BPF追蹤,和常規(guī)的SPDK追蹤代碼結(jié)合使用。
延伸閱讀1:trace簡介
trace是一個計(jì)算機(jī)術(shù)語。TRACE和TRACK是用來調(diào)試web服務(wù)器連接的HTTP方式。TRACE宏對于VC下程序調(diào)試來說是很有用的東西,有著類似printf的功能。在MATLAB中,trace用于求二維方陣的跡,即該方陣對角線上元素之和。在Flex中,用作調(diào)試信息顯示函數(shù),用于在debug(調(diào)試)模式下輸出。在SQL Server中有Default Trace默認(rèn)跟蹤,數(shù)據(jù)庫記錄信息到log.trc文件,可以查看trace_event_id,46表示Create對象(Object:Created),47表示Drop對象(Object:Deleted),93表示日志文件自動增長(Log File Auto Grow),164表示Alter對象(Object:Altered),20表示錯誤日志(Audit Login Failed)。