jvm系列(六):Java服務GC參數(shù)調(diào)優(yōu)案例

作者：純潔的微笑 2017-10-13 15:16:38

總結(jié)來說，由于服務中大量使用了Cache，所以堆大小開到了22G。GC算法使用CMS(UseConcMarkSweepGC)，開啟了降低標記停頓(CMSParallelRemarkEnabled)，設置年輕代為并行收集(UseParNewGC)，年輕代和老年代的比例為1:2 (NewRatio=2).

[[206256]]

本文介紹了一次生產(chǎn)環(huán)境的JVM GC相關參數(shù)的調(diào)優(yōu)過程，通過參數(shù)的調(diào)整避免了GC卡頓對JAVA服務成功率的影響。

這段時間在整理jvm系列的文章，無意中發(fā)現(xiàn)本文，作者思路清晰通過步步分析最終解決問題。我個人特別喜歡這種實戰(zhàn)類的內(nèi)容，經(jīng)原作者的授權同意，將文章分享于此。備注部分為本人添加，主要起到說明的作用。

原文出處：https://segmentfault.com/a/1190000005174819

背景以及遇到的問題

我們的Java HTTP服務屬于OLTP類型，對成功率和響應時間的要求比較高，在生產(chǎn)環(huán)境中出現(xiàn)偶現(xiàn)的成功率突然下降然后又自動恢復的情況，如圖所示：

JVM和GC相關的參數(shù)如下：

-Xmx22528m  
-Xms22528m  
-XX:NewRatio=2  
-XX:+UseConcMarkSweepGC  
-XX:+UseParNewGC  
-XX:+CMSParallelRemarkEnabled

JVM GC日志相關的參數(shù)如下：

-Xloggc:/data/gc.log  
-XX:GCLogFileSize=10M  
-XX:NumberOfGCLogFiles=10  
-XX:+UseGCLogFileRotation  
-XX:+PrintGCDateStamps  
-XX:+PrintGCTimeStamps  
-XX:+PrintGCDetails  
-XX:+DisableExplicitGC  
-verbose:gc

問題解決過程

排除應用程序的內(nèi)存使用問題

首先使用jmap查看內(nèi)存使用情況：

jmap -histo:live PID

這個命令把程序中當前的對象按照個數(shù)和占用的空間排序以后打印出來。這里沒有發(fā)現(xiàn)使用異常的對象。

排除Cache內(nèi)容過多的問題

如果Cache內(nèi)容過多也會導致JVM老年代容易被用滿導致頻繁GC，因此調(diào)出GC日志進行查看，發(fā)現(xiàn)每次GC以后內(nèi)存使用一般是從20G降低到5G左右，因此常駐內(nèi)存的Cache不是導致GC長時間卡頓的根本原因。對于GC LOG的查看有多種方式，使用VisualVM比較直觀，需要使用VisualGC：

從圖中我們可以看到伊甸園和老年代的空間分配，由于整體內(nèi)存是20G，設置 -XX:NewRatio=2 因此老年代是14G，伊甸園+S0+S1=7G

調(diào)整GC時間點(成功率抖動問題加重)

如果GC需要處理的內(nèi)存量比較大，執(zhí)行的時間也就比較長，STW (Stop the World)時間也就更長。按照這個思路調(diào)整CMS啟動的時間點，希望提早GC，也就是讓GC變得更加頻繁但是期望每次執(zhí)行的時間較少。添加了下面這兩個參數(shù)：

-XX:+UseCMSInitiatingOccupancyOnly  
-XX:CMSInitiatingOccupancyFraction=50

意思是說在Old區(qū)使用了50%的時候觸發(fā)GC。實驗后發(fā)現(xiàn)GC的頻率有所增加，但是每次GC造成的陳功率降低現(xiàn)象并沒有減弱，因此棄用這兩個參數(shù)。

調(diào)整對象在年輕代內(nèi)存中駐留的時間(效果不明顯)

如果能夠降低老年代GC的頻率也可以達到降低GC影響的目的，因此嘗試讓對象在年輕代內(nèi)存中進行更長時間的駐留，提升這些對象在年輕代GC時候被銷毀的概率。使用參數(shù) -XX:MaxTenuringThreshold=31調(diào)整以后收效不明顯。

備注：

1、MaxTenuringThreshold 在1.5.005之前***值可以設置為31 ，1.5.006以后***值可以設置為15，超過15會被認為***大。

2、提升年輕代GC被銷毀的概率，只是調(diào)整這個參數(shù)效果不大，第二次age的值會重新計算。

CMS-Remark之前強制進行年輕代的GC

首先補充一下CMS的相關知識，在CMS整個過程中有兩個步驟是STW的，如圖紅色部分：

CMS并非沒有暫停，而是用兩次短暫停來替代串行標記整理算法的長暫停，它的收集周期是這樣：

1、初始標記(CMS-initial-mark),從root對象開始標記存活的對象

2、并發(fā)標記(CMS-concurrent-mark)

3、重新標記(CMS-remark),暫停所有應用程序線程，重新標記并發(fā)標記階段遺漏的對象(在并發(fā)標記階段結(jié)束后對象狀態(tài)的更新導致)

4、并發(fā)清除(CMS-concurrent-sweep)

5、并發(fā)重設狀態(tài)等待下次CMS的觸發(fā)(CMS-concurrent-reset)。

通過GC日志和成功率下降的時間點進行比對發(fā)現(xiàn)并不是每一次老年代GC都會導致成功率的下降，但是從中發(fā)現(xiàn)了一個規(guī)律：

前兩次GC CMS-Remark過程在4s左右造成了成功率的下降，但是第三次GC并沒有對成功率造成明顯的影響,CMS-Remark只有0.18s。Java HTTP 服務是通過Nginx進行反向代理的，nginx設置的超時時間是3s，所以如果GC卡頓在3s以內(nèi)就不會對成功率造成太大的影響。

從GC日志中又發(fā)現(xiàn)一個信息：

在文檔和相關資料中沒有找到藍色部分的含義，猜測是remark處理的內(nèi)存量，處理的越多就越慢。添加下面兩個參數(shù)強制在remark階段和FULL GC階段之前先在進行一次年輕代的GC，這樣需要進行處理的內(nèi)存量就

XX:+ScavengeBeforeFullGC   
-XX:+CMSScavengeBeforeRemark

備注：

1、藍色部分的含義：remark標記需要清理對象的容量。

2、FULL GC階段之前先在進行一次年輕代的GC的意義是：Yong區(qū)對象引用了Old區(qū)的對象，如果在Old區(qū)進行清理之前不進行Yong區(qū)清理，就會導致Old區(qū)被Yong區(qū)引用的對象無法釋放。

調(diào)優(yōu)以后效果很明顯，下面是兩臺配置完全相同的服務器在同一時間段的成功率和響應時間監(jiān)控圖，***個沒有添加強制年輕代GC的參數(shù)。

結(jié)論

1、在CMS-remark階段需要對堆中所有的內(nèi)存對象進行處理，如果在這個階段之前強制執(zhí)行一次年輕代的GC會大量減少remark需要處理的內(nèi)存數(shù)量，進而降低JVM卡頓對成功率的影響。

2、對于Java HTTP服務，JVM的卡頓時間應該小于HTTP客戶端的調(diào)用超時時間，否則JVM卡頓會對成功率造成影響。

【本文為51CTO專欄作者“純潔的微笑”的原創(chuàng)稿件，轉(zhuǎn)載請通過微信公眾號聯(lián)系作者獲取授權】

戳這里，看該作者更多好文

責任編輯：武曉燕來源： 51CTO專欄

Java服務 GC 參數(shù)