大型機OpenTelemetry:優先級洞察,問卷反饋深度解讀
OpenTelemetry大型機調查顯示,多數大型機用戶對OpenTelemetry不熟悉。優先關注系統性能指標、Java/Python/COBOL SDK及Collector支持,以提升可觀測性。
譯自:Exploring OpenTelemetry Priorities for Mainframes - Insights from Survey Responses
作者: Ruediger Schulze (IBM)
用戶認為哪些 OpenTelemetry 功能對于增強大型機的可觀測性最為重要?今年早些時候,OpenTelemetry 大型機特別興趣小組(SIG)和 開放大型機項目進行了一項調查以解決這個問題。本博客詳細介紹了此次調查的結果。
背景和目的
OpenTelemetry 項目旨在通過提供高質量、可移植的遙測數據,使其能夠從任何來源發送到任何目標,從而實現有效的可觀測性。該項目目前在 GitHub 上托管了 90 個存儲庫,涵蓋規范和實現。當 OpenTelemetry 大型機 SIG 成立時,它的任務是為大型機啟用最重要的 OpenTelemetry 組件,并專注于三個關鍵領域:語義約定、編程語言 SDK 以及 OpenTelemetry Collector 的增強。考慮到 OpenTelemetry 項目的廣泛范圍和大型機復雜的架構,很快就顯而易見,深入了解用戶優先級對于在大型機上充分利用 OpenTelemetry 功能至關重要。現在調查結果已出,SIG 將優先并實施有針對性的活動,以加速 OpenTelemetry 在大型機平臺上的采用。
主要見解
以下是確定大型機 SIG 活動優先級的關鍵見解:
1. 增強大型機社區內的 OpenTelemetry 專業知識。在 26 位 OpenTelemetry 初學者中,有 21 位擁有十年以上的大型機經驗,但仍有 11 位表示對 OpenTelemetry 功能一無所知。
2. 優先處理系統性能指標的語義約定,其次是作業處理、數據庫和應用程序。在受訪者中,30 人希望 OpenTelemetry 首先關注指標,當被問及指標類別時,約 32 人強調系統指標是主要優先級。
3. 優先為 z/OS 提供 Java 和 Python SDK,并開發 COBOL SDK。所有希望獲得 Java (25) 和 Python (20) SDK 的受訪者也需要用于 z/OS 的 OpenTelemetry SDK。COBOL SDK 有 26 人提出要求,其重要性與 Java SDK 類似。
4. 評估使用 OpenTelemetry Collector 收集系統性能和平臺指標的方法。根據回應,30 名參與者表示有興趣讓 OpenTelemetry Collector 在作為代理部署時收集系統性能和平臺指標。28 人將大型機運維確定為主要用戶,27 人認為 OpenTelemetry 格式的系統性能指標對其組織最重要。
貢獻方式
我們邀請貢獻者和組織加入 OpenTelemetry 大型機 SIG。主導一項調查優先級,成為 OpenTelemetry 項目的貢獻者。例如,參與我們的代碼檢測和移植計劃:
? 支持集成用于 linux/s390x 的自托管 GitHub action runners,以實現持續集成和交付,以及 OpenTelemetry 組件在 s390x 平臺上的自動化驗證。
? 擴展 zos/s390x 和 linux/s390x 上 SDK 的社區支持:確保選定的 OpenTelemetry SDK 在 z/OS 和 s390x 上的 Linux 上得到全面支持和維護。
? 為 s390x 平臺實施 SDK 優化:為性能和兼容性改進做出貢獻,充分釋放 OpenTelemetry 在大型機上的潛力。
? 為 COBOL 啟用 OpenTelemetry 支持:協作開發強大的 COBOL SDK,賦予傳統應用程序現代化的可觀測性能力。
方法論
本次調查分為兩個部分。第一部分收集了關于受訪者角色和背景的輸入。第二部分收集了受訪者組織在大型機上啟用 OpenTelemetry 的優先級。受訪者總共被要求回答 20 個問題。調查從 1 月中旬開始開放了兩個月,并通過 OpenTelemetry 和開放大型機項目的博客以及大型機會議進行推廣。調查收到了 45 份回應。所有回應都納入結果。僅進行了最少的數據清洗。由于只有 45 份回應,樣本量過小,不足以得出具有統計代表性的結果。組織不應以此為基礎做出決策。不過,本次調查提供了關于優先級的一些初步見解,大型機 SIG 將利用這些見解來指導其上述的一些活動。
綜合回應
問題 1:您在組織中的主要角色是什么?
收到了來自不同角色的回應。超過一半的回應(26 份)來自經理、IT 和軟件架構師以及系統程序員(包括表示多個角色的回應)。他們中的大多數(22 份)擁有 10 年以上的大型機工作經驗。
組織內的主要角色
問題 2:您擁有多少年大型機系統工作經驗?
大多數受訪者(33 人)擁有 10 年以上的大型機工作經驗。其中只有四人聲稱擁有 OpenTelemetry 專家或高級知識。相反,在六位大型機經驗不足四年的受訪者中,有四人自認為是 OpenTelemetry 的專家或高級從業者。總的來說,絕大多數回應表明,調查參與者具有大型機背景。
大型機系統工作經驗年限
問題 3:您組織所屬的主要行業是什么?
絕大多數受訪者來自金融服務業(45 份總回應中的 22 份)。一小部分來自不同的物流業(總計 8 份)。13 名受訪者主要從事軟件和 IT 相關領域,例如軟件開發、獨立軟件供應商 (ISV)、服務提供商、IBM zStack Software、可觀測性和信息技術 (IT)。
組織所屬主要行業
問題 4:您使用以下哪些大型機平臺?
除了一個(專注于 IBM Z 上的 Linux)之外,所有受訪者都使用 z/OS 作為大型機操作系統。大約三分之一的受訪者(17 人)使用 IBM Z 上的 Linux。八名受訪者使用 z/VM 作為虛擬化平臺。一名受訪者聲稱使用所有操作系統,包括 z/VSE 和 zTPF。
使用中的大型機平臺
問題 5:您使用哪些 z/OS 系統軟件?
大多數受訪者(38 人)使用 CICS 或 IMS 或兩者之一的事務處理系統。39 名調查參與者使用 Db2,31 名使用 VSAM,而一小部分受訪者也使用 ADABAS、IDMS、DVM 或 Datacom 作為數據后端。
使用中的 z/OS 系統軟件
問題 6:您對 OpenTelemetry 的熟悉程度如何?
OpenTelemetry 采用的初學者(26 人)在受訪者中占比最大。其中 15 人不熟悉任何 OpenTelemetry 功能或組件。只有三人自認為是專家,而所有具有中級知識的參與者也聲稱熟悉 OpenTelemetry Collector。
對 OpenTelemetry 的熟悉程度
問題 7:您熟悉 OpenTelemetry 的哪些功能和組件?
大約一半的調查參與者熟悉 OpenTelemetry 指標 (24) 和 OpenTelemetry Collector (22)。在信號類型方面,雖然指標在受訪者熟悉度中領先,但日志 (20) 和分布式追蹤 (17) 緊隨其后。上下文傳播和采樣作為與分布式追蹤相關的補充技術,知名度略低。代碼檢測(零代碼和手動)僅被大約四分之一的受訪者了解。語義約定和 API 規范也同樣如此。只有少數參與者表現出對 Kubernetes Operator 和開放代理管理協議的熟悉度,并且這些參與者自認為是至少具有 OpenTelemetry 中級知識,如果不是高級或專家級別的話。
對 OpenTelemetry 功能和組件的熟悉程度
四分之三的受訪者聲稱使用可觀測性或性能監控工具(35 人)。大多數用戶對大型機平臺具有可見性(30 人)。在使用分布式和大型機平臺工具的受訪者組(19 人)中,三分之二聲稱花費超過 20% 的時間進行可觀測性和監控活動(13 人),其中五人幾乎全職從事這些活動(超過 80% 的時間)。
可觀測性或性能監控工具的使用情況
問題 8:您花費多少時間進行可觀測性或性能監控活動?
大約四分之一的受訪者(11 人)將超過 60% 的時間投入到可觀測性和性能監控活動中。大多數調查參與者(19 人)參與這些活動的時間少于 20%,這可以歸因于他們工作角色的性質。其中 12 人聲稱對 OpenTelemetry 的熟悉程度高于初學者水平。
用于可觀測性或性能監控活動的時間
問題 9:您組織可觀測性策略的關鍵特征是什么?
實時分析 (35) 和端到端可見性 (33) 是受訪者組織的主要目標,其次是開放標準 (26) 及其實現的能力:上下文和關聯 (22)、工具選擇的靈活性 (19) 和統一數據處理 (19)。碳核算由一位受訪者明確添加。
組織可觀測性策略的關鍵特征
問題 10:您首先需要 OpenTelemetry 格式在大型機上支持哪種信號類型?
在調查參與者中,指標是 OpenTelemetry 在大型機上支持的最重要的信號類型(30 人),其次是日志(20 人)和追蹤(18 人)。
信號類型優先級
問題 11:在您的組織中,誰將是 OpenTelemetry 格式大型機遙測數據的主要用戶?
受訪者認為大型機運維是 OpenTelemetry 格式大型機遙測數據的主要用戶。在將大型機運維置于優先地位的受訪者群體中,80% 的人擁有七年以上的大型機工作經驗。值得注意的是,22 人擁有十年以上的工作經驗,這表明即使在那些經驗豐富的平臺用戶中,也強烈傾向于簡化大型機遙測數據的消費方式。SRE (21) 和應用程序開發人員 (19) 構成了預計將從 OpenTelemetry 格式大型機遙測數據中受益的第二組用戶,其次是組織各個領域的其他角色。
組織中的主要用戶
問題 12:對您的組織來說,哪類指標以 OpenTelemetry 格式發出最為重要?
對于大多數受訪者來說,OpenTelemetry 對系統性能指標(32 個)的支持,結合各種其他工作負載和基礎設施相關指標,最為重要。作業和批處理(27 個)、數據庫(27 個)和應用程序(27 個)指標被調查參與者認為同等重要,其次是網絡(24 個)、I/O(21 個)、存儲(20 個)和容量規劃(19 個)的基礎設施指標。雖然其他指標領域收到的選擇較少,但結果突出表明了對支持這些領域也存在相當大的興趣。例如,多名受訪者表示對 DevOps 和 CI/CD 指標以及環境、能源和可持續性指標感興趣。
按類別劃分的指標重要性
問題 13:在您的組織中,以 OpenTelemetry 格式導出大型機遙測數據的主要用例是什么?
在端到端可見性已被確定為組織可觀測性策略的重要目標之后,受訪者在列出 OpenTelemetry 支持大型機遙測數據的用例時再次證實了這一點。跨著陸區的端到端可見性 (28) 和改進的事件管理 (28) 被視為主要用例。列出的其他用例對至少四分之一的調查參與者來說很重要,其中一些用例,例如優化應用程序性能 (22) 和主動問題發現和預測分析 (21),甚至與近一半的受訪者相關。碳核算獲得了一票,因為它被一位受訪者添加為重要用例。
主要用例
問題 14:對于哪種應用程序部署模型,您最需要使用 OpenTelemetry 進行檢測?
調查參與者希望 OpenTelemetry 檢測優先用于在線事務處理 (30),其次是批處理 (23)、以數據庫為中心的應用程序 (19) 和其他應用程序部署模型。分析和 AI 工作負載 (10) 以及云原生、容器化工作負載 (7) 的檢測是一些受訪者關注的焦點,這突顯了大型機上新應用程序部署模型日益增長的使用。
按應用程序部署模型劃分的優先級
問題 15:您的組織需要 OpenTelemetry 現有哪些 SDK 支持大型機?
Java (25) 和 Python (20) 是在大型機平臺上實現 OpenTelemetry SDK 支持的優先級最高的兩種編程語言。20% 的受訪者希望 C++ 的 SDK 也能在大型機平臺上使用。
OpenTelemetry SDK 的優先級
問題 16:您的組織還需要 OpenTelemetry 支持哪些其他語言的 SDK?
COBOL 是大多數受訪者(26 人)希望為大型機開發 OpenTelemetry SDK 的編程語言。COBOL 的 SDK 主要由擁有七年以上大型機經驗的調查參與者提出,但也由五位經驗不足三年的受訪者提出。超過 40% 的受訪者在調查回應中要求提供 REXX 和 JCL 的 SDK。超過四分之一的調查參與者要求提供 HLASM 的 OpenTelemetry SDK,20% 的人要求提供 PL/1 和 C 的 SDK。三人表示對 Metal C 的 SDK 感興趣。
對大型機語言支持的需求
問題 17:您的組織需要 OpenTelemetry SDK 支持哪些大型機操作系統?
根據受訪者使用的操作系統,他們表示對這些相應平臺的 OpenTelemetry SDK 感興趣。z/OS 作為 OpenTelemetry SDK 的支持平臺對受訪者來說最重要 (35),其次是 IBM Z 上的 Linux (13),以及一個針對 zTPF 的單一選擇。
支持 OpenTelemetry SDK 的操作系統優先級
問題 18:OpenTelemetry Collector 的哪些功能對您的組織啟用大型機遙測數據的處理和分發最感興趣?
OpenTelemetry Collector 的數據收集功能對調查參與者來說最重要。在回應中,使用 Collector 以代理部署方式進行源本地收集 (20) 和使用接收器從任何系統收集 (19) 的得分最高。此外,指標的數據聚合是受訪者高度重視的功能 (20)。數據處理 (15) 和導出 (16)、追蹤采樣 (14) 和網關部署 (14) 也引起了超過 30% 受訪者的興趣。基于硬件的壓縮和加密對九位調查參與者來說很重要。
OpenTelemetry Collector 功能的優先級
問題 19:您設想 OpenTelemetry Collector 在大型機上的系統級遙測數據收集和處理有哪些用例?
在評估 OpenTelemetry Collector 時,受訪者將系統性能和平臺指標的收集列為最重要的用例(30)。大約一半的調查參與者認為系統日志的收集和大型機對資源檢測的支持很重要。部分受訪者關注來自 Kubernetes 和容器運行時的數據收集,并且他們對將 OpenTelemetry Collector 用于這些用例很感興趣。
OpenTelemetry Collector 遙測數據收集按類別劃分的優先級
總結
調查結果顯示,大多數大型機從業者對 OpenTelemetry 尚不熟悉,并優先考慮系統性能指標的采用。此外,對 Java、Python 和 COBOL SDK 以及 Collector 支持有需求。這些發現強調了教育、語義約定以及將 OpenTelemetry 組件移植到大型機平臺的有針對性工作的重要性。
加入 OpenTelemetry 大型機 SIG,為語言 SDK、檢測和社區專業知識做出貢獻,這將加速 OpenTelemetry 在大型機上的采用。通過 Slack 頻道 #otel-mainframes 或太平洋時間周三上午 10:00 的 SIG 會議與 SIG 成員聯系。




















