问题排查
老规矩在集群环境中同一个服务几个节点无响应。如不及时解决会可能形成雪崩效应。
优先查看服务日志是否有报错,礼貌习惯性查看服务cpu及内存情况。先复习下,若服务无报错。cpu或内存出现异常,按如下步骤排查。
常规排查
1、查看服务进程中线程情况
top -H -p pid
或
ps -mp pid -o THREAD,tid,time
2、查看系统异常线程16进制
printf “%x\n” nid
3、查看异常线程情况
jstack -l #{pid}
由于服务的 logback.xml 对接了kafka进行日志记录,这里发向kafka传输数据的线程被锁住了,初步定位,kafka的服务存在异常问题或者宕机。
经过排查,发现kafka多个节点全部宕机,重启后,日志正常输出
注意:本文归作者所有,未经作者允许,不得转载