DEBUG15 Sep 2020

记一次K8s线上JVM问题探究

一次线上 JVM 异常的完整排查：指标、日志、线程转储、堆栈跟踪和参数调整，最后沉淀成可复用的响应经验。

先确认现象

线上问题不要急着下结论。先看资源曲线、错误日志、请求延迟和容器重启记录，把问题从“感觉变慢了”压缩成可验证的现象。

JVM 问题通常要组合看 GC、线程、堆内存和服务依赖。K8s 环境下还要关注 limit、request、探针和节点资源是否共同放大了问题。

修掉一次故障只是下限。把排查命令、指标面板、告警阈值和应急动作沉淀下来，下一次团队才不会从零开始。

技术页里的这些内容会继续补全。先把页面立起来，再一点点把真实笔记、活动记录和项目经验沉淀进去。