探索服務(wù)網(wǎng)格與 OpenTelemetry 的協(xié)同之分布式跟蹤
這篇文章發(fā)出后有讀者評論 javaagent 的“無侵入”一說,這里有必要解釋下。“無侵入”主要指的是不需要修改應(yīng)用程序的業(yè)務(wù)邏輯代碼就能實現(xiàn)的功能,對應(yīng)用程序透明無感知,讓開發(fā)者專注于業(yè)務(wù)開發(fā);同時由于無需修改應(yīng)用程序代碼,更易于集成;同時還維護簡單,在多種語言、框架間保證功能的一致性。
而 Java Agent 在 JVM 啟動時加載,它在運行時修改字節(jié)碼來注入跟蹤代碼,而不是在應(yīng)用程序的源代碼層面上進行修改。
背景
分布式跟蹤
分布式跟蹤是監(jiān)控和診斷微服務(wù)請求流程的關(guān)鍵技術(shù),也是可觀測性的關(guān)鍵組成部分,提供了對微服務(wù)架構(gòu)中復(fù)雜交互和性能問題的深入洞察。它通過提供服務(wù)間請求鏈路的清晰視圖來管理復(fù)雜性,并幫助識別性能瓶頸、優(yōu)化資源分配、快速定位和解決故障,提高系統(tǒng)的整體可靠性。
服務(wù)網(wǎng)格的無侵入式分布式跟蹤
又是無侵入性!服務(wù)網(wǎng)格中的代理自動處理所有入站和出站的網(wǎng)絡(luò)通信,自動捕獲、記錄和分析服務(wù)間的請求和響應(yīng)的詳細(xì)細(xì)心,如請求時間、持續(xù)時間、狀態(tài)代碼和其他元數(shù)據(jù)。這種 實現(xiàn)方式[1] 對應(yīng)用程序本身透明,并且較 Java Agent 在運行時修改字節(jié)碼更加徹底。
這里有個前提是應(yīng)用程序能夠在請求中傳遞上下文信息,這樣 sidecar 代理生成和發(fā)送的跟蹤信息最終可以串聯(lián)在一起,不會發(fā)生斷鏈。
圖片
網(wǎng)格的無侵入式分布式跟蹤雖然為我們展示了請求的鏈路,但是如上圖所示每個跨度(span)都是 sidecar 代理的信息。
緊跟上篇文章之后,我們今天將探索 服務(wù)網(wǎng)格 FSM[2] 與 OpenTelemetry 的集成,實現(xiàn)應(yīng)用、網(wǎng)格的全鏈路分布式跟蹤。
演示
架構(gòu)
圖片
環(huán)境配置
Jaeger、cert-manager 和 Otel operator 的安裝,請參考 上一篇文章。
配置 Instrumentation
接下來就是配置探針的安裝和配置了,詳細(xì)的配置說明,可以參考 Instrumentation API 文檔[3]。
根據(jù) FSM 分布式跟蹤文檔[4] 的介紹,F(xiàn)SM 支持 Zipkin 的協(xié)議,因此在 propagators 中我們使用 b3multi,使用 B3 的多標(biāo)頭格式,在請求頭中傳遞如下的信息:
- x-b3-traceid
- x-b3-spanid
- x-b3-parentspanid
- x-b3-sampled
- x-b3-flags
這次使用 sample 命名空間。
kubectl create namespace sample
kubectl apply -n sample -f - <<EOF
apiVersion: opentelemetry.io/v1alpha1
kind: Instrumentation
metadata:
name: instrumentation-sample
spec:
propagators:
- b3multi
sampler:
type: parentbased_traceidratio
argument: "1"
env:
- name: OTEL_EXPORTER_OTLP_ENDPOINT
value: otel-collector.default:4318
EOF配置 OpenTelemetry Collector
Otel 收集器的詳細(xì)配置可以參考 官方文檔[5]。
- 接收器(receiver),我們配置 otlp 來接收來自應(yīng)用程序的跟蹤信息,使用 zipkin 來接收來自 sidecar 的上報,使用端點 0.0.0.0:9411。
- 輸出器(exporter),配置 Jager 的 otlp 端點 jaeger.default:4317。
- 管道服務(wù)(pipeline service),使用 otlp 和 zipkin 作為輸入源,將 jaeger 作為輸出目的地。
kubectl apply -f - <<EOF
apiVersion: opentelemetry.io/v1alpha1
kind: OpenTelemetryCollector
metadata:
name: otel
spec:
config: |
receivers:
otlp:
protocols:
grpc:
http:
zipkin:
endpoint: "0.0.0.0:9411"
exporters:
otlp/jaeger:
endpoint: "jaeger.default:4317"
tls:
insecure: true
service:
pipelines:
traces:
receivers: [otlp, zipkin]
exporters: [otlp/jaeger]
EOF安裝服務(wù)網(wǎng)格 FSM
我們通過 CLI 來安裝 FSM,現(xiàn)下載 FSM 使用當(dāng)前最新的正式版 1.1.4。
system=$(uname -s | tr '[:upper:]' '[:lower:]')
arch=$(uname -m | sed -E 's/x86_/amd/' | sed -E 's/aarch/arm/')
release=v1.1.4
curl -L https://github.com/flomesh-io/fsm/releases/download/$release/fsm-$release-$system-$arch.tar.gz | tar -vxzf -
./$system-$arch/fsm version在安裝時,啟用分布式跟蹤并將地址指向 Otel Collector 的 zipkin 接收器,zipkin 接收器端點為 /api/v2/spans。
fsm install \
--set=fsm.tracing.enable=true \
--set=fsm.tracing.address=otel-collector.default \
--set=fsm.tracing.port=9411 \
--set=fsm.tracing.endpoint=/api/v2/spans部署示例應(yīng)用
將命名空間 sample 加入到服務(wù)網(wǎng)格中,部署應(yīng)用。
fsm namespace add sample
kubectl apply -n sample -f https://raw.githubusercontent.com/addozhang/http-sample/main/manifests/service-v1.yaml確認(rèn)應(yīng)用 pod 注入 sidecar 并正常運行。
kubectl get po -n sample
NAME READY STATUS RESTARTS AGE
service-c-66bf9dcc7b-pdj8p 2/2 Running 0 38s
service-b-586cfc5ccd-k9qrs 2/2 Running 0 37s
service-a-7cf7bc5bcc-tgjzz 2/2 Running 0 37s測試
pod_name="$(kubectl get pod -n sample -l app=service-a -o jsnotallow='{.items[0].metadata.name}')"
kubectl port-forward -n sample $pod_name 8080:8080 &
curl localhost:8080發(fā)送請求后,打開 Jaeger UI。
jaeger_pod="$(kubectl get pod -l app=jaeger -o jsnotallow='{.items[0].metadata.name}')"
kubectl port-forward $jaeger_pod 16686:16686 &在 Jaeger UI 中,可以看到鏈路的內(nèi)容更加的豐富:包含了應(yīng)用程序和 sidecar 代理的跨度數(shù)據(jù)。
圖片
參考資料
[1] 實現(xiàn)方式: https://fsm-docs.flomesh.io/guides/observability/tracing/
[2] 服務(wù)網(wǎng)格 FSM: http://fsm-docs.flomesh.io
[3] Instrumentation API 文檔: https://github.com/open-telemetry/opentelemetry-operator/blob/main/docs/api.md#instrumentation
[4] FSM 分布式跟蹤文檔: https://fsm-docs.flomesh.io/guides/observability/tracing/
[5] 官方文檔: https://opentelemetry.io/docs/collector/configuration/





























