返回技术页
DEBUG15 Sep 2020

记一次K8s线上JVM问题探究

一次线上 JVM 异常的完整排查:指标、日志、线程转储、堆栈跟踪和参数调整,最后沉淀成可复用的响应经验。

01

先确认现象

线上问题不要急着下结论。先看资源曲线、错误日志、请求延迟和容器重启记录,把问题从“感觉变慢了”压缩成可验证的现象。

02

排查路径

JVM 问题通常要组合看 GC、线程、堆内存和服务依赖。K8s 环境下还要关注 limit、request、探针和节点资源是否共同放大了问题。

03

复盘比修复更重要

修掉一次故障只是下限。把排查命令、指标面板、告警阈值和应急动作沉淀下来,下一次团队才不会从零开始。

继续探索

技术页里的这些内容会继续补全。先把页面立起来,再一点点把真实笔记、活动记录和项目经验沉淀进去。

回到技术地图