01
先确认现象
线上问题不要急着下结论。先看资源曲线、错误日志、请求延迟和容器重启记录,把问题从“感觉变慢了”压缩成可验证的现象。
02
排查路径
JVM 问题通常要组合看 GC、线程、堆内存和服务依赖。K8s 环境下还要关注 limit、request、探针和节点资源是否共同放大了问题。
03
复盘比修复更重要
修掉一次故障只是下限。把排查命令、指标面板、告警阈值和应急动作沉淀下来,下一次团队才不会从零开始。
01
线上问题不要急着下结论。先看资源曲线、错误日志、请求延迟和容器重启记录,把问题从“感觉变慢了”压缩成可验证的现象。
02
JVM 问题通常要组合看 GC、线程、堆内存和服务依赖。K8s 环境下还要关注 limit、request、探针和节点资源是否共同放大了问题。
03
修掉一次故障只是下限。把排查命令、指标面板、告警阈值和应急动作沉淀下来,下一次团队才不会从零开始。