Java问题定位技术

yBmZlQzJ 2024-05-21

2828

Java问题定位技术

目

录

Java线程堆栈分析

.1 如何输出线程堆栈? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

.2 如何解读线程堆栈? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

.2.1 线程的解读 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

.2.2 锁的解读 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

.2.3 线程状态的解读 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

.3 如何借助线程堆栈进行问题分析? . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

.3.1 线程死锁分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

.3.2 Java代码死循环等导致的CPU过高分析 . . . . . . . . . . . . . . . . . . . . 29

.3.3 高消耗CPU代码的常用分析方法 . . . . . . . . . . . . . . . . . . . . . . . . 31

.3.4 资源不足等导致的性能下降分析 . . . . . . . . . . . . . . . . . . . . . . . . 34

.3.5 线程不退出导致的系统挂死分析 . . . . . . . . . . . . . . . . . . . . . . . . 36

.3.6 多个锁导致的锁链分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

.3.7 通过线程堆栈进行性能瓶颈分析 . . . . . . . . . . . . . . . . . . . . . . . . 38

.3.8 线程堆栈不能分析什么问题？ . . . . . . . . . . . . . . . . . . . . . . . . . 38

通过Java线程堆栈进行性能瓶颈分析

.1 常见的性能瓶颈 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

.2 性能瓶颈分析的手段和工具 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

.2.1 如何去模拟，发现性能瓶颈？ . . . . . . . . . . . . . . . . . . . . . . . . . . 44

.2.2 如何通过线程堆栈识别性能瓶颈？ . . . . . . . . . . . . . . . . . . . . . . . 45

.2.3 其它提高性能的方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

.2.4 性能调优的终结条件 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

.2.5 性能调优工具 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

.2.6 跟性能相关的JVM参数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

.3 性能分析的手段总结 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

.3.1 借助操作系统提供的CPU统计工具 . . . . . . . . . . . . . . . . . . . . . . 49

.3.2 通过Java线程堆栈进行性能瓶颈分析 . . . . . . . . . . . . . . . . . . . . . 50

.3.3 runhprof . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

.3.4 JProﬁler、JBuilder等工具 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

.3.5 手工打印时间戳 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

Java内存泄漏分析和堆内存设置

.1 Java内存泄漏的背景知识 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

.1.1 Java对象的size（32位平台）. . . . . . . . . . . . . . . . . . . . . . . . . . . 54

.1.2 Java对象及其引用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

.1.3 虚拟机自动垃圾回收机制 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

目

录

.1.4 如何告诉虚拟机不再需要这块内存？ . . . . . . . . . . . . . . . . . . . . . 59

.1.5 将对象设为null就可以避免内存泄漏吗？ . . . . . . . . . . . . . . . . . . . 63

.1.6 JVM内存类型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

.2 Java内存泄漏的症状 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

.2.1 为什么会发生OOM(OutOfMemroy) 问题? . . . . . . . . . . . . . . . . . . 70

.2.2 Java内存泄漏的症状 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

.3 Java内存泄漏的定位和分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

.3.1 堆内存泄漏定位 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

.3.2 本地内存泄漏的定位 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

.3.3 Perm内存泄漏精确定位 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

.3.4 真实环境下内存泄漏的定位（生僻场合下的内存泄漏定位） . . . . . . . . 79

.4 Java堆内存泄漏的解决 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

.5 java内存和垃圾回收设置 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

.5.1 堆内存的设置原则 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

.5.2 在32位下如何设置堆内存？ . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

.5.3 特殊场合下JVM参数调优 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

.5.4 Java 完全垃圾回收 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

.5.5 top陷阱：top真得能告诉你系统是否存在内存泄漏吗？ . . . . . . . . . . . 84

.5.6 实时虚拟机 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

.6 关于JavaScript的内存泄漏 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88

关于并发和多线程

.1 在什么情况下需要加锁？ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89

.2 如何加锁？ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

.3 多线程编程中易犯的错误 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92

.4 i++这种仅有原子操作是否需要同步保护 . . . . . . . . . . . . . . . . . . . . . . . 92

.5 进程线程多，是否就意味着我的程序可以获得更多的CPU？ . . . . . . . . . . . . 92

.6 线程的数量一般设为多少比较合理？ . . . . . . . . . . . . . . . . . . . . . . . . . 93

.7 关于线程池 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94

.8 notify和wait的组合 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95

.9 线程的阻塞 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98

.10 Java线程的优先级 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100

.11 关于多线程的一些错误观点 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100

幽灵代码

101

.1 异常退出幽灵代码 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101

.1.1 异常退出幽灵代码导致的资源泄漏 . . . . . . . . . . . . . . . . . . . . . . 104

.2 wait()与循环 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107

.3 Double-Checked Locking单例模式 . . . . . . . . . . . . . . . . . . . . . . . . . . . 107

.4 另一种异常陷阱-连续的关键接口调用 . . . . . . . . . . . . . . . . . . . . . . . . . 108

目

录

常见的Java泥潭

110

.1 不稳定的Runtime.getRuntime().exec() . . . . . . . . . . . . . . . . . . . . . . . . . 110

.2 JDK自带的几个Timer的适用场合 . . . . . . . . . . . . . . . . . . . . . . . . . . . 123

.2.1 java.util.Timer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123

.2.2 java.swing.Timer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127

.3 池的合理设计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128

.3.1 对象池 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128

.3.2 线程池 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129

.3.3 连接池 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129

.4 JDK1.5线程池的陷阱 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131

.5 Timer的使用陷阱 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131

JVM

132

.1 java运行期参数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132

.2 java -X扩展运行参数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138

.3 关于JIT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142

.4 -Xrunhprof . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144

.4.1 Java虚拟机运行期剖析接口介绍 . . . . . . . . . . . . . . . . . . . . . . . . 145

.4.2 运行虚拟机期剖析器代理的原理及HProf代理的使用 . . . . . . . . . . . . 146

.4.3 信息分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146

.5 正确的视角看虚拟机 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152

关于字符集与编码

153

.1 字符集 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154

.2 编码 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154

.3 Unicode和UTF-8的关系 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155

.4 编码的识别 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156

.5 关于编码的转换 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156

常用的工具

158

.1 远程调试 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158

.2 Java自带工具 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158

.2.1 jconsole . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158

.2.2 jstack . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158

.3 Unix下的进行分析利器proc . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158

.3.1 pstack . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158

.3.2 pﬁles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159

.3.3 pldd . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160

.3.4 pmap . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161

.3.5 ptree . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162

目

录

.3.6 pwdx . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162

.3.7 plimit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162

.4 Unix下的进程统计工具prstat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162

.5 Unix下的剖析工具truss/strace/dtrace/sotrace . . . . . . . . . . . . . . . . . . . . 164

.6 网络工具 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164

.6.1 路由跟踪命令traceroute/tracert . . . . . . . . . . . . . . . . . . . . . . . . 164

.7 swap交换分区管理 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164

.8 其它 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164

Java最佳实践

165

0.1 J2EE的潜在难点和最佳实践 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165

0.1.1 架构上的问题 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165

0.1.2 关于Servlet技巧 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167

0.2 Java应用程序的基本准则 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168

0.3 消息系统的设计模型和关键点 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169

0.3.1 设计模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169

0.3.2 其它设计关键点 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174

关于数据库

175

1.1 关于数据库表死锁与锁表的问题 . . . . . . . . . . . . . . . . . . . . . . . . . . . 175

1.1.1 关于表死锁 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175

1.1.2 关于锁表 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176

1.2 关于数据库SQL的性能 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178

1.2.1 union语句 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178

1.3 关于高性能场合下数据库的设计模式 . . . . . . . . . . . . . . . . . . . . . . . . 179

1.4 必须使用事务吗？ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 180

1.5 确保Java代码不要依赖于数据库表字段的顺序 . . . . . . . . . . . . . . . . . . . 180

1.6 一种更简单的逻辑与数据分析-Named SQL . . . . . . . . . . . . . . . . . . . . . 180

工程实践

181

2.1 在高端机器上，一个JVM好还是多个JVM好？ . . . . . . . . . . . . . . . . . . . 181

2.2 关于Java进程监控-watchdog . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181

2.2.1 如何检测系统异常 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181

2.3 关于class Loader . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182

2.4 关于负载控制-动态过负荷还是静态过负荷? . . . . . . . . . . . . . . . . . . . . . 182

2.5 机器设多个IP的原理？ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183

2.6 关于日志 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184

2.6.1 关于java日志的几大恶劣设计 . . . . . . . . . . . . . . . . . . . . . . . . . 184

2.6.2 什么是好的日志？. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185

2.7 异常处理的原则？ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186

目

录

2.8 基于限制的系统部署/设计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186

2.9 String的值为什么不能改变？ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187

2.10 系统出现问题需要收集的信息 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187

2.11 Web Failover集群的方案 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187

2.12 关于可靠性设计 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189

2.13 如何实现JVM Shutdown钩子函数？ . . . . . . . . . . . . . . . . . . . . . . . . . 190

2.14 如何截取输出流？ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191

2.15 Linux下如何将进程绑定在特定的CPU上运行？ . . . . . . . . . . . . . . . . . . 191

2.16 关于Java和C++的互通 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192

2.16.1 Java代码中调用C++ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192

2.16.2 C++代码中调用Java . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193

常见的案例

194

3.1 Too many open ﬁles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194

3.2 java.lang.StackOverﬂowError . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196

3.3 java.net.SocketException: Broken pipe . . . . . . . . . . . . . . . . . . . . . . . . 196

3.4 HashMap的ConcurrentModiﬁcationException . . . . . . . . . . . . . . . . . . . . 197

3.5 多线程场合下HashMap导致的死循环 . . . . . . . . . . . . . . . . . . . . . . . . 198

3.6 Web系统吊死（挂死）的定位思路 . . . . . . . . . . . . . . . . . . . . . . . . . . 200

3.7 基于消息系统（如sip）吊死的定位思路 . . . . . . . . . . . . . . . . . . . . . . . 202

3.8 多线程读写socket导致的数据混乱 . . . . . . . . . . . . . . . . . . . . . . . . . . 202

3.9 关于CPU过高问题的定位思路 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 204

3.10 系统运行越来越慢的定位思路 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206

3.11 系统挂死问题的定位思路 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207

3.12 关于线程死亡/线程跑飞 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208

3.13 关于虚拟机Core Dump . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210

3.14 系统运行运行越来越慢问题的定位思路 . . . . . . . . . . . . . . . . . . . . . . 212

3.15 代码GC导致的性能低下 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212

3.16 java.lang.OutOfMemoryError: unable to create new native thread . . . . . . . . 213

3.17 java.lang.OutOfMemoryError: PermGen space . . . . . . . . . . . . . . . . . . . 213

3.18 java.lang.OutOfMemoryError: Java heap space . . . . . . . . . . . . . . . . . . . 213

3.19 Connection Pool exhausted . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213

3.20 系统时间更改导致的系统无法正常工作 . . . . . . . . . . . . . . . . . . . . . . 214

3.21 瞬间内存泄露的定位思路 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 216

3.22 第三方系统能力分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 216

3.23 系统性能过低 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 218

3.24 病灶转移-Java程序内存溢出(OutOfMemory)导致的数据库锁表 . . . . . . . . . 219

3.25 AIX下如何定位IO 100%的问题？ . . . . . . . . . . . . . . . . . . . . . . . . . . 219

3.26 高性能UDP程序 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 220

目

录

JProﬁler内存泄漏精确定位

SUN JDK自带故障定位

221

226

B.1 SUN JDK命令行选项 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 226

B.1.1 诊断工具和选项 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 226

B.2 诊断工具详细介绍 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 228

B.2.1 HPROF - Heap Proﬁler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 228

B.2.2 Java VisualVM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233

B.2.3 JConsole Utility . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 234

B.2.4 jdb Utility . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 236

B.2.5 jhat Utility . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 238

B.2.6 jinfo Utility . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 241

B.2.7 jmap Utility . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243

B.2.8 jps Utility . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 248

B.2.9 jrunscript Utility . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 249

B.2.10 jsadebugd Daemon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 249

B.2.11 jstack Utility . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 249

B.2.12 jstat Utility . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252

B.2.13 jstatd Daemon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 254

B.2.14 visualgc Tool . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 255

B.2.15 Ctrl-Break Handler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 255

B.2.16 操作系统工具 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 258

B.3 内存泄漏问题定位 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 259

B.3.1 Meaning of OutOfMemoryError . . . . . . . . . . . . . . . . . . . . . . . . 259

B.3.2 Java代码中的内存泄漏诊断 . . . . . . . . . . . . . . . . . . . . . . . . . . 262

B.4 Troubleshooting System Crashes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 269

B.4.1 Sample Crashes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 269

B.4.2 Finding a Workaround . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 273

B.5 Fatal Error Log . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 277

B.5.1 Location of Fatal Error Log . . . . . . . . . . . . . . . . . . . . . . . . . . . 278

B.5.2 Description of Fatal Error Log . . . . . . . . . . . . . . . . . . . . . . . . . 278

B.5.3 Header Format . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 279

B.5.4 Thread Section Format . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 281

B.5.5 Process Section Format . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 283

在Solaris下，查找占用指定的端口的进程

如何在solaris下面分析IO瓶颈?

291

292

AIX操作系统下，32位进程的最大内存占有情况

表格目录

关于TCP/IP

293

295

296

297

298

windows 2003/XP下，一个端口可以多个监听

Suse9.0下，线程创建的数量和堆内存/永久内存的关系

JConsole

gcviewer

IBM JDK下定位引起CoreDump的JIT方法

如何解读Java Core 文件？

L.1 SUN JDK . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 298

L.2 IBM JDK . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 298

几个奇怪的现象

298

M.1 等锁的线程也可以处于runnable状态？ . . . . . . . . . . . . . . . . . . . . . . . . 298

M.2 没锁的也可以waiting for？ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 298

感谢T_EX

300

表格目录

Java线程和本地线程的映射关系 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

JRE 1.4.2 Windows上的对象的大小 . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

Unicode与UTF-8的映射关系 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155

Linux下工具列表 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 258

windows下工具列表 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 259

Solaris下工具列表 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 260

Thread Types . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 280

Thread States . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 281

VM States . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 284

SPARC Features . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 290

Intel/IA32 Features . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 290

AMD64/EM64T Features . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 290

Linux下线程创建的数量和堆内存/永久内存的关系 . . . . . . . . . . . . . . . . . 296

Hibernate与JDBC的对比 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 301

插图目录

本地线程和Java线程的映射 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

含有wait(5000)的代码段锁的占用情况 . . . . . . . . . . . . . . . . . . . . . . . . . 14

含有sleep(5000)的代码段锁的占用情况 . . . . . . . . . . . . . . . . . . . . . . . . . 15

线程死锁 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

性能好和差的程序CPU利用率曲线对比 . . . . . . . . . . . . . . . . . . . . . . . . . 39

总的性能决定于最差的那一段的能力 . . . . . . . . . . . . . . . . . . . . . . . . . . 44

性能调优的过程 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

引用关系映射图(一) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

引用关系映射图(二) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

引用关系映射图(三) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

引用关系映射图(四) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

根集 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

引用关系映射图(五) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

引用关系映射图(六) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

引用关系映射图(七) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

引用关系映射图(八) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

引用关系映射图(九) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

引用关系映射图(十) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

设为null的对象引用图 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

从hashmap移去对象的对象引用图 . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

将指向hashmap对象的的引用只能置空的对象引用图 . . . . . . . . . . . . . . . . 67

操作系统下的进程 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

Java进程的内存占用情况 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

堆内存过大会直接挤压本地内存的大小 . . . . . . . . . . . . . . . . . . . . . . . . 83

并行垃圾回收 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

并发垃圾回收 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

非实时虚拟机的垃圾回收占用时间 . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

实时虚拟机的垃圾回收占用时间 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

链表添加一个元素 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

并发存取同一个链表 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

单线程下CPU的使用情况 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93

多线程下CPU的使用情况 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94

Double-Checked Locking单例模式多线程场合下可能的执行时序 . . . . . . . . . . 108

JIT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143

Session Bean Facade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165

MVC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165

基于servlet的MVC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166

插图目录

基于EJB的MVC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166

接收消息模型(NIO) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169

发送消息模型(NIO) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169

表死锁 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175

不加保护的消息发送 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202

加保护的消息发送 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203

使用JProﬁle进行内存泄漏定位－找到内存泄漏的对象 . . . . . . . . . . . . . . . . 222

使用JProﬁle进行内存泄漏定位－找到泄漏对象的分配树 . . . . . . . . . . . . . . 224

使用JProﬁle进行内存泄漏定位－指定对应类的对象分配树 . . . . . . . . . . . . . 224

使用JProﬁle进行内存泄漏定位－泄漏对象的分配树 . . . . . . . . . . . . . . . . . 225

曲线 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 302

测试 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 302

This is a box. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303

前言

目前已经出版了许多关于Java的书籍，但绝大多数书籍着重于介绍开发方面的主题。甚至

同一主题的书籍，在市面上可以找到许多。与此形成鲜明对比的是，对于系统地介绍Java问题

定位类的书籍却是少之又少，即使有这方面的内容，往往也是一笔带过。本书系统地介绍Java问

题定位技术，我相信有一些很少公开的定位技术，在正确使用时，可以产生令人惊讶的效果。

采用Java开发的大型应用系统越来越大、越来越复杂；很多系统甚至是将很多第三方系统

集成在一起，整个系统看起来像一个黑盒子。系统运行遭遇问题(系统停止响应，运行越来越

慢，或者性能低下，甚至系统core dump)，如何迅速命中问题的根本原因是颇具挑战性的任务。

这类问题的定位技巧是本文介绍的重点，借助这些技巧可以快速找到这些问题的突破口。

功能性的问题定位往往有很清晰的套路（如单步跟踪等），因此本书对此不做介绍。本书

着重介绍稳定性和可靠性方面的问题定位技术，特别是那些在实验室难以发现的深层次的问

题。本书将Java问题定位的方法体系化，提供一种以黑盒子方式进行问题定位的思路：如何使

用线程堆栈进行性能瓶颈分析？如何分析内存泄漏？如何分析系统挂死？在掌握本书所介绍的

方法后，很多情况下无需对系统了解就可以对这类问题进行定位。

对于可靠性和稳定性等非功能需求很多时候难以验证，我们不可能写出"万能的"测试用

例来发现系统所有的可靠性和稳定性问题，所以非功能特性缺陷带来的灾难和难以验证的特

点需要我们采取一切可能的办法进行提前预防，将非功能性需求表现在代码中，是一个优秀

程序工程师的功底的一个体现。因此本书除了介绍"事后"定位技术以外，同时还介绍了大量

的事前预防技术，对一些严重影响稳定性或者可靠性问题相关的陷阱进行了深入分析,它们正

是大型系统容易忽略但对系统稳定性和可靠性有巨大影响的暗礁，如果能在系统的设计和编

码阶段就防止埋上这些"地雷"，那么就不需要事后补救这种代价极高的维护成本。

本书旨在让软件能表现出"工业强度"，即一个"产品级别"的软件，"产品级别"与"功能完

备"是完全不同的两个概念。验收测试的通过与系统能否承受实际应用中的压力完全是两回

事。经过验收测试的系统有可能在真实的环境下表现得一塌糊涂，也有可能非常地棒。举个例

子，我们能保证不存在内存泄漏吗？没人会在测试服务器中在完全模拟实际的负载的情况下

对系统进行一个周或者一个月的测试。因此，通过QA并不能保证没有内存泄漏的发生，因此

它很容易就被带入到产品中。内存泄漏情况大多是与流量相关的，也就是说，流量越大，内存

泄漏的速度就越快。这意味着你根本无法预测什么时候要重启程序，问题往往发生在系统最

忙的时候，墨菲法则往往就在这个时候生效。"产品级别"的另一个方面是系统对所谓"瞬时峰

值"的应对能力，也就是应对系统的短暂性冲击的能力。经过短暂峰值的冲击的系统能否自动

恢复？很多系统经过短暂的峰值冲击，往往不能恢复，这常常是由于异常情况没有很好地进

行"善后处理",导致大量资源泄漏，比如数据库连接泄露，一旦衰退开始，系统崩溃就只是迟

早的问题了。要想将功能完备软件变为产品级软件，系统要有一套完整的异常处理机制，对异

常进行了合适的"善后处理",避免由于异常导致的资源泄漏等问题。本书对这些具有坏味道的

代码也进行了深入剖析。

本书介绍的定位技术主要有：内存泄漏定位，线程堆栈分析等。内存定位套路比较固定，

但线程堆栈分析需要一定的火候，它需要一定的悟性和长期的修炼。在可靠性和稳定性问题

的定位中，线程堆栈分析是最有力的武器，掌握了这个定位工具，会大大增强自己的"内功"。

本书适合如下人员阅读：

•

开发的应用属于7*24的应用，并要求99.999%(俗称5个9)的高稳定性高可靠性。

开发的应用属于大型应用，每个人只熟悉系统的一小部分。

对下面一些问题模糊不清的开发人员：

–

将不用的对象设为null,就可以避免内存泄漏.

由于JVM自动进行内存管理，因此java中不会有内存泄漏.

unix/linux下使用top观察到内存上升，可以断定程序存在内存泄漏.

线程不安全的HashMap并发读是不会出现问题的.

字符集和字符编码的关系。

"系统挂死"、"宕机"感觉比较抽象。

•

负责对系统进行优化维护的开发人员。

致力于开发大型可靠系统的开发人员。

本书实用性强，定位疑难问题命中率高。

—

—张民卫——

作者简介

J AVA线程堆栈分析

1 Java线程堆栈分析

如果您是从C++/C转到Java上的程序员，那么线程堆栈应该不是陌生的技术，但对于原

生的Java程序员来说，很多人不清楚还有这个这个密门绝技。什么是线程堆栈¹？线程堆栈也称

作线程调用堆栈。Java线程堆栈是虚拟机中线程（包括锁）状态的一个瞬间快照，即系统在某

个时刻所有线程的运行状态,包括每一个线程的调用堆栈，锁的持有情况等信息。每一种Java虚

拟机(SUN JVM、IBM JVM、JRokit、GNU JVM等等)都提供了线程转储(thread dump)的后门，

通过这个后门可以将那个时刻的线程堆栈打印出来。虽然各种Java虚拟机在线程堆栈的打印

输出格式上有一些不同，但是线程堆栈的信息都包含：

. 线程的名字，ID，线程的数量等。

. 线程的运行状态，锁的状态（锁被哪个线程持有，哪个线程再等待锁等）。

. 调用堆栈（即函数的调用层次关系）。调用堆栈包含完整的类名，所执行的方法，源代码

的行数。

具体打印出的堆栈信息内容多少依赖于你的系统的复杂程度，也许从几十行到上万行。借

助线程堆栈，可以分析许多问题，如线程死锁、锁争用、死循环、识别耗时操作等等。在多线

程场合下的稳定性问题分析和性能问题分析，线程堆栈分析是最有效的方法，在多数情况下

甚至无需对系统了解就可以进行相应的分析。

由于线程堆栈是系统当时某个时刻的线程运行状况（即瞬间快照），对于已经消失而又没

留有痕迹的信息，线程堆栈是无法进行历史追踪的。这种情况下，只能结合日志进行分析。如

连接池中的连接被哪些线程使用了而没有释放这类问题。尽管如此，总的来说，线程堆栈是多

线程类应用程序非功能型问题定位的最有效手段，可以说是杀手锏。线程堆栈最善于分析如

下类型的问题:

•

系统无缘无故CPU过高。

系统挂起，无响应。

系统运行越来越慢。

性能瓶颈（如无法充分利用CPU等）

线程死锁、死循环，饿死等。

由于线程数量太多导致系统失败（如无法创建线程等）。

借助线程堆栈会帮助我们迅速地缩小问题的范围，找到突破口，命中目标。本章对线程堆栈进

行详细的介绍，包括如下内容：

•

如何输出线程堆栈?

也叫做Thread dump或者trace stack

J AVA线程堆栈分析

•

如何解读线程堆栈?

如何借助线程堆栈进行问题分析?

线程堆栈不能分析什么类型的问题？

本书只所以先开门见山地首先介绍线程堆栈技术，是因为该技术是分析可靠性、稳定性、

性能问题的最有力的技术，以笔者的经验，大约有50%以上的问题可以通过堆栈分析得以快速

精确定位。同时线程堆栈分析很多时候并不需要源代码，这在很多场合，具有无可比拟的优

势。笔者采用该技术，曾经定位/解决了多个几乎不可能完成的任务(详见第 §13.22节第 216)，

下面我们就开始我们的线程堆栈之旅。

J AVA线程堆栈分析

1.1 如何输出线程堆栈?

Java虚拟机提供了线程转储(Thread dump)的后门，通过这个后门，可以将线程堆栈打印

出来。这个后门就是通过向Java进程发送一个QUIT信号，Java虚拟机收到该信号之后，将系

统当前的J AVA线程调用堆栈打印出来。有的虚拟机实现（如SUN JDK）堆栈信息将打印在屏

幕上。另外有的虚拟机实现（如IBM JDK）直接将线程堆栈打印到一个文件中，从当前的运行

目录下可以找到该文件。如果JDK将线程堆栈打印在屏幕上，由于信息量太大（一般的系统都

有几千行或者几万行），经常会超出控制台缓冲区的最大行数限制造成信息丢失，因此最好手

工进行重定向到一个文件中。在Windows下和Unix/Linux下，通过如下的命令行方式向Java进

程请求堆栈输出：

windows 在运行java的控制台窗口上按<ctrl> + <break>组合键。

unix/Linux 使用kill -3 <java pid>²

在AIX上用IBM的JVM，需要进行以下设置,kill -3才可以有效进行线程转储：

export IBM_HEAPDUMP=true

export IBM_HEAP_DUMP=true

export IBM_HEAPDUMP_OUTOFMEMORY=true

export IBM_HEAPDUMPDIR=<directory path>

同时请确保Java命令行中没有DISABLE_JAVADUMP运行选项。按照上面介绍的方法之后，

就可以打印线程堆栈了。

在Unix下如果是以后台方式启动的java进程，打印的线程堆栈会和其它屏幕输出一样，在

控制台已经被关闭的情况下，这些信息你无法"捡"回它们。因此为了避免这种情况，在启动时

系统时最好做一下重定向。重定向符号有如下

两个，

将屏幕输出写入到文件中，重写文件内容。

> 将屏幕输出添加到文件末尾。

特别地，在linux/unix下使用如下的方式进行重定向：

myrun.sh > run.log 2>&1

在操作系统中，0,1,2分别表示输入/输出流，含义如下：

- 标准输入，即C中的stdin，或者C++中的cin，或者Java中的System.in

- 标准输出，即C中的stdout，或者C++中的cout，或者Java中的System.out

- 错误输出，即C中的stderr，或者C++中的cerr，或者Java中的System.err

即Java进程ID

J AVA线程堆栈分析

>&1表示将错误输出重定向到标准输出流中，即将标准输出和错误输出都重定向到一个文件

中。

提示：

在JDK1.5以上的版本中，可以在Java程序中通过Thread.getStackTrace()控制堆栈自动打

印.通过这种方式，线程堆栈的打印时机可编程。通过手工编程，可以在满足某些条件时，

将线程堆栈自动打印。

J AVA线程堆栈分析

1.2 如何解读线程堆栈?

下面通过一个实际的例子对线程堆栈的解读进行详细介绍。掌握了线程堆栈解读的方法，

就可以庖丁解牛，对线程堆栈进行深入剖析。

1.2.1 线程的解读

如下面一段Java源代码程序：

public class MyTest {

Object obj1 = new Object();

Object obj2 = new Object();

public void fun1()

{

synchronized(obj1){

fun2();

}

public void fun2()

{

synchronized(obj2){

while(true){ //为了演示需要，该函数永不退出

System.out.print("");

}

public static void main(String[] args) {

MyTest aa = new MyTest();

aa.fun1();

}

运行该程序: java MyTest,通过上节介绍的方法打印线程堆栈，打印的线程堆栈如下(Linux下)³：

Full thread dump Java HotSpot(TM) Client VM (1.5.0_08-b03 mixed mode, sharing):

Low Memory Detector" daemon prio=1 tid=0x080a5848 nid=0xd2e runnable //第(1)个线程

CompilerThread0" daemon prio=1 tid=0x080a42a0 nid=0xd2d waiting on condition//(2)

Signal Dispatcher" daemon prio=1 tid=0x080a31d8 nid=0xd2c runnable

Finalizer" daemon prio=1 tid=0x0809c660 nid=0xd2b in Object.wait()

at java.lang.Object.wait(Native Method)

//(3)

//(4)

waiting on <0xc8bf06c8> (a java.lang.ref.ReferenceQueue$Lock)

为了排版需要，将某些线程的地址信息给删除掉了，这些信息在问题分析中用处不大，如："Reference

Handler" daemon prio=1 tid=0x0809b970 nid=0xd2a in Object.wait()[0xf26d9000..0xf26da0b0]中后面的[]中的信

息给略掉了。

J AVA线程堆栈分析

at java.lang.ref.ReferenceQueue.remove(ReferenceQueue.java:116)

- locked <0xc8bf06c8> (a java.lang.ref.ReferenceQueue$Lock)

at java.lang.ref.ReferenceQueue.remove(ReferenceQueue.java:132)

at java.lang.ref.Finalizer$FinalizerThread.run(Finalizer.java:159)

Reference Handler" daemon prio=1 tid=0x0809b970 nid=0xd2a in Object.wait() //(5)

at java.lang.Object.wait(Native Method)

waiting on <0xc8bf05d8> (a java.lang.ref.Reference$Lock)

at java.lang.Object.wait(Object.java:474)

at java.lang.ref.Reference$ReferenceHandler.run(Reference.java:116)

locked <0xc8bf05d8> (a java.lang.ref.Reference$Lock)

main" prio=1 tid=0x0805c988 nid=0xd28 runnable [0xfff65000..0xfff659c8]

at java.lang.String.indexOf(String.java:1352)

//(6)

at java.io.PrintStream.write(PrintStream.java:460)

locked <0xc8bf87d8> (a java.io.PrintStream)

at java.io.PrintStream.print(PrintStream.java:602)

at MyTest.fun2(MyTest.java:16)

locked <0xc8c1a098> (a java.lang.Object)

at MyTest.fun1(MyTest.java:8)

locked <0xc8c1a090> (a java.lang.Object)

at MyTest.main(MyTest.java:26)

VM Thread" prio=1 tid=0x08098d88 nid=0xd29 runnable

//(7)

VM Periodic Task Thread" prio=1 tid=0x080a6d30 nid=0xd2f waiting on condition//(8)

在这段堆栈输出中可以看出，我们看出系统当前共有如下线程：Low Memory Detector、

CompilerThread0、Signal Dispatcher、Finalizer、Reference Handler、main、VM Thread、VM

Periodic Task Thread共八个，其中只有main线程属于Java用户线程，其它七个都是由虚拟机自

动创建的,如果是java界面程序，虚拟机还会自动创建事件分发线程awt-eventqueue等，我们在

实际分析的过程中，只关心Java用户线程即可。

从上面的main线程中看，线程堆栈里面的最直观的信息是当前线程的调用上下文，即从

哪个函数中调用到哪个函数中（从下往上看），正执行到哪个类的哪一行，借助这些信息，我

们就对当前系统正在做什么就一目了然。线程堆栈在分析问题中的作用请见后面的章节。其

中一个线程的某一层调用含义如下⁴：

如果括号中没有显示Java源代码文件名，可能是由于系统运行期间启动了JIT,JIT详见第 142页第 §7.3节。

J AVA线程堆栈分析

at MyTest.fun1(MyTest.java:8)

+-----当前正在调用的函数所在的源代码文件的行号

+------------当前正在调用的函数所在的源代码文件

+---------------------当前正在调用的方法名

---------------------------当前正在调用的类名

另外，从main线程的堆栈中，有"- locked <0xc8c1a090> (a java.lang.Object)"语句,这表示

该线程(即main线程)已经占有了锁<0xc8c1a090>，其中0xc8c1a090表示锁ID，这个锁的ID是系

统自动产生的，我们只需要知道每次打印的堆栈，同一个ID表示是同一个锁即可⁵。每一个线

程堆栈的第一行含义如下：

main" prio=1 tid=0x0805c988 nid=0xd28 runnable [0xfff65000..0xfff659c8]

+--线程占用内存地址

+-----------线程的状态

+----线程对应的本地线程id号

+-------------------线程id

+--------------------------线程优先级

-------------------------------线程名称

其中"线程对应的本地线程id号"所指的"本地线程"是指该Java线程所对应的虚拟机中的

本地线程。我们知道Java是解析型语言，执行的实体是Java虚拟机，因此Java语言中的线程是

依附于Java虚拟机中的本地线程来运行的，实际上是本地线程在执行Java线程代码。Java代码

中创建一个thread，虚拟机在运行期就会创建一个对应的本地线程，而这个本地线程才是真正

的线程实体。为了更加深入得理解本地线程和Java线程的关系，在Unix/Linux下，我们可以通

过如下方式把Java虚拟机的本地线程打印出来：

. 使用ps -ef | grep java 获得Java进程ID。

. 使用pstack <java pid>获得Java虚拟机的本地线程的堆栈⁶。

本例中，我们获取的本地线程堆栈如下：

Thread 8 (Thread 4067802000 (LWP 3369)):

0xffffe402 in __kernel_vsyscall ()

0x0082042c in pthread_cond_timedwait@@GLIBC_2.3.2 ()

0x008208d5 in pthread_cond_timedwait@GLIBC_2.0 () from /lib/libpthread.so.0

0xf7ab9e4c in os::Linux::safe_cond_timedwait ()

0xf7aa5d71 in Monitor::wait ()

0xf7b5c25b in VMThread::loop ()

在有的虚拟机实现中，即使是同一个锁变量，当多次打印堆栈时，每次堆栈打印的锁ID也是不同的。

pstack可以打印出本地程序的线程堆栈，有的操作系统下，打印本地堆栈的命令是gstack

J AVA线程堆栈分析

0xf7b5bec0 in VMThread::run ()

0xf7ababe8 in _start ()

0x0081c3db in start_thread () from /lib/libpthread.so.0

0x0077c06e in clone () from /lib/libc.so.6

Thread 7 (Thread 4067273616 (LWP 3370)):

0xffffe402 in __kernel_vsyscall ()

0x008201a6 in pthread_cond_wait@@GLIBC_2.3.2 () from /lib/libpthread.so.0

0x0082085e in pthread_cond_wait@GLIBC_2.0 () from /lib/libpthread.so.0

0xf7ab9cee in os::Linux::safe_cond_wait ()

0xf7aafcef in ObjectMonitor::wait ()

0xf7b06176 in ObjectSynchronizer::wait ()

0xf7a02b03 in JVM_MonitorWait ()

0xf287a4db in ?? ()

0x0809ba30 in ?? ()

0xf26d9fcc in ?? ()

10 0x00000000 in ?? ()

Thread 6 (Thread 4066745232 (LWP 3371)):

0xffffe402 in __kernel_vsyscall ()

0x008201a6 in pthread_cond_wait@@GLIBC_2.3.2 () from /lib/libpthread.so.0

0x0082085e in pthread_cond_wait@GLIBC_2.0 () from /lib/libpthread.so.0

0xf7ab9cee in os::Linux::safe_cond_wait ()

0xf7aafcef in ObjectMonitor::wait ()

0xf7b06176 in ObjectSynchronizer::wait ()

0xf7a02b03 in JVM_MonitorWait ()

0xf287a4db in ?? ()

0x0809c720 in ?? ()

0xf2658f1c in ?? ()

10 0x00000000 in ?? ()

Thread 5 (Thread 4063869840 (LWP 3372)):

0xffffe402 in __kernel_vsyscall ()

0x008221ae in sem_wait@GLIBC_2.0 () from /lib/libpthread.so.0

0xf7abb046 in check_pending_signals ()

0xf7ab7f4d in os::signal_wait ()

0xf7ab5285 in signal_thread_entry ()

0xf7b233d3 in JavaThread::run ()

0xf7ababe8 in _start ()

0x0081c3db in start_thread () from /lib/libpthread.so.0

0x0077c06e in clone () from /lib/libc.so.6

Thread 4 (Thread 4063341456 (LWP 3373)):

0xffffe402 in __kernel_vsyscall ()

0x008201a6 in pthread_cond_wait@@GLIBC_2.3.2 () from /lib/libpthread.so.0

0x0082085e in pthread_cond_wait@GLIBC_2.0 () from /lib/libpthread.so.0

0xf7ab9cee in os::Linux::safe_cond_wait ()

J AVA线程堆栈分析

0xf7aa5e34 in Monitor::wait ()

0xf793658e in CompileQueue::get ()

0xf7938242 in CompileBroker::compiler_thread_loop ()

0xf7b28da6 in compiler_thread_entry ()

0xf7b233d3 in JavaThread::run ()

0xf7ababe8 in _start ()

10 0x0081c3db in start_thread () from /lib/libpthread.so.0

11 0x0077c06e in clone () from /lib/libc.so.6

Thread 3 (Thread 4062813072 (LWP 3374)):

0xffffe402 in __kernel_vsyscall ()

0x008201a6 in pthread_cond_wait@@GLIBC_2.3.2 () from /lib/libpthread.so.0

0x0082085e in pthread_cond_wait@GLIBC_2.0 () from /lib/libpthread.so.0

0xf7ab9cee in os::Linux::safe_cond_wait ()

0xf7aa5cc1 in Monitor::wait ()

0xf7a8e31f in LowMemoryDetector::low_memory_detector_thread_entry ()

0xf7b233d3 in JavaThread::run ()

0xf7ababe8 in _start ()

0x0081c3db in start_thread () from /lib/libpthread.so.0

0x0077c06e in clone () from /lib/libc.so.6

Thread 2 (Thread 4062284688 (LWP 3375)):

0xffffe402 in __kernel_vsyscall ()

0x0082042c in pthread_cond_timedwait@@GLIBC_2.3.2 ()

0x008208d5 in pthread_cond_timedwait@GLIBC_2.0 () from /lib/libpthread.so.0

0xf7ab8b38 in os::sleep ()

0xf7b22418 in WatcherThread::run ()

0xf7ababe8 in _start ()

0x0081c3db in start_thread () from /lib/libpthread.so.0

0x0077c06e in clone () from /lib/libc.so.6

Thread 1 (Thread 4160560000 (LWP 3368)):

0xf28fc863 in ?? ()

0x00000000 in ?? ()

0xf28fc863 in ?? ()

从操作系统打印出的虚拟机的本地线程看，本地线程数量和Java线程堆栈中的线程数量相同，

都是8个。说明二者是一一对应的。其中本地线程各项含义如下：

Thread 1 (Thread 4160560000 (LWP 3368)):

+----本地线程id(另一种表示,LWP-light weight process)

+-------------------本地线程id

------------------------------线程名称

但是这个本地线程号如何与Java Thread Dump文件中对应起来呢？很简单，在Java Thread

Dump文件中，每个线程都有tid=...nid=...的属性，通过这些属性可以对应到相应的本地线程,

J AVA线程堆栈分析

我们先看Java线程的第一行，里面有一个属性为"nid=",如：

main" prio=1 tid=0x0805c988 nid=0xd28 runnable [0xfff65000..0xfff659c8]

-----线程对应的本地线程id号

其中nid就是native thread id，也就是指的本地线程中的LWPID，二者是相同的，只不过java线

程中的nid中用16进制来表示，而本地线程中的id用十进制表示。例如上面的例子中3368的十

六进制表示为0xd28.在Java线程中查找nid=0xd28即是本地线程对应Java线程。即：

main" prio=1 tid=0x0805c988 nid=0xd28 runnable [0xfff65000..0xfff659c8]

at java.lang.String.indexOf(String.java:1352)

at java.io.PrintStream.write(PrintStream.java:460)

locked <0xc8bf87d8> (a java.io.PrintStream)

at java.io.PrintStream.print(PrintStream.java:602)

at MyTest.fun2(MyTest.java:16)

locked <0xc8c1a098> (a java.lang.Object)

at MyTest.fun1(MyTest.java:8)

locked <0xc8c1a090> (a java.lang.Object)

at MyTest.main(MyTest.java:26)

二者是表示是同一个线程。在本例中，Java线程和本地线程的映射关系(即java线程中nid与本

地线程中lwp属性相等的)见图1。

368（十进制）=0xd28(十六进制) 说明二者是同一个线程

Thread 1 (Thread 4160560000 (LWP 3368)) "main" prio=1 tid=0x0805c988 nid=0xd28 runnable ...

0 0xf28fc863 in ?? ()

1 0x00000000 in ?? ()

0 0xf28fc863 in ?? ()

at java.lang.String.indexOf(String.java:1352)

at java.io.PrintStream.write(PrintStream.java:460)

]

locked <0xc8bf87d8> (a java.io.PrintStream)

]

at java.io.PrintStream.print(PrintStream.java:602)

at MyTest.fun2(MyTest.java:16)

locked <0xc8c1a098> (a java.lang.Object)

at MyTest.fun1(MyTest.java:8)

locked <0xc8c1a090> (a java.lang.Object)

at MyTest.main(MyTest.java:26)

本地线程堆栈

Java线程堆栈

图 1 本地线程和Java线程的映射

J AVA线程堆栈分析

上面例子中，本地线程和Java线程的映射关系如下：

表 1 Java线程和本地线程的映射关系

Native Thread(LWP) JavaThread(nid)

368

369

370

371

372

373

374

375

0xd28

0xd29

0xd2a

0xd2b

0xd2c

0xd2d

0xd2e

0xd2f

从上面的分析可以看出，Java线程实际上和本地线程指的是同一个东西，只有本地线程才

是真正的线程实体，Java线程实际上就是指这个本地线程，它并不是一个另外存在的的实体。

关于本地线程的作用，在后面的章节有介绍。下面我们继续介绍线程堆栈中的其它标识：

main" prio=1 tid=0x0805c988 nid=0xd28 runnable [0xfff65000..0xfff659c8]

中的"runnable"表示当前线程处于运行状态。这个runnable状态是从虚拟机的角度来看的,表示

这个线程正在运行。但是处于Runnable状态的线程不一定真地消耗CPU. 处于Runnable的线程

只能说明该线程没有阻塞在java的wait或者sleep方法上，同时也没等待在锁上面。但是如果该

线程调用了本地方法⁷，而本地方法处于等待状态，这个时候虚拟机是不知道本地代码中发生

了什么⁸，此时尽管当前线程实际上也是阻塞的状态，但实际上显示出来的还是runnable状态，

这种情况下是不消耗CPU的。如下面的线程堆栈：

Thread-243" prio=1 tid=0xa58f2048 nid=0x7ac2 runnable [0xaeedb000..0xaeedc480]

at java.net.SocketInputStream.socketRead0(Native Method)

at java.net.SocketInputStream.read(SocketInputStream.java:129)

at oracle.net.ns.Packet.receive(Unknown Source)

at oracle.net.ns.DataPacket.receive(Unknown Source)

at oracle.net.ns.NetInputStream.getNextPacket(Unknown Source)

at oracle.net.ns.NetInputStream.read(Unknown Source)

at oracle.jdbc.driver.T4CMAREngine.getNBytes(T4CMAREngine.java:1520)

at oracle.jdbc.driver.T4CMAREngine.unmarshalNBytes()

at oracle.jdbc.driver.T4CLongRawAccessor.readStreamFromWire()

at oracle.jdbc.driver.T4CLongRawAccessor.readStream()

at oracle.jdbc.driver.T4CInputStream.getBytes(T4CInputStream.java:70)

有两种可能会调用本地方法，一种是调用到用户手工写的JNI本地代码中,另一种Java自身提供的API调用

到了本地代码中，像at java.net.SocketInputStream.socketRead0(Native Method)中的"Native Method"就表示当

前调用正在本地方法中.

但操作系统是知道的，pstack就是操作提供的一个命令，它知道当前线程正在执行的本地代码上下文。

J AVA线程堆栈分析

locked <0x934f4258> (a oracle.jdbc.driver.T4CInputStream)

locked <0x6b0dd600> (a oracle.jdbc.driver.T4CConnection)

at oracle.jdbc.driver.OracleInputStream.needBytes()

... ...

at org.hibernate.loader.Loader.list(Loader.java:1577)

at org.hibernate.loader.hql.QueryLoader.list()

at com.wes.timer.TimerTaskImpl.execute(TimerTaskImpl.java:627)

locked <0x80df8ce8> (a com.wes.timer.TimerTaskImpl)

at com.wes.threadpool.RunnableWrapper.run(RunnableWrapper.java:209)

at com.wes.threadpool.PooledExecutorEx$Worker.run()

at java.lang.Thread.run(Thread.java:595)

该线程处于runnable状态，而它正在调用如下的本地方法:

at java.net.SocketInputStream.socketRead0(Native Method)

但实际上像读socket的本地方法大多数时间是阻塞的。除非socket的缓冲区中有数据，底层

的TCP/IP协议栈将唤醒阻塞的线程。这里仅想说明"runnable"状态不意味这个线程正在消

耗CPU。因此我们在分析哪个线程在消耗大量CPU时，不能以这个"runnable"字样作为判断

该线程是否消耗CPU的依据。

另外，我们常在线程堆栈中发现".<init>"或者".<clinit>"字样的函数，比如下面两个堆栈

信息:

Thread-5" prio=1 tid=0xa58f2048 nid=0x7ac2 runnable [...]

at java.lang.UNIXProcess.forkAndExec(Native Method)

at java.lang.UNIXProcess.<init>;(UNIXProcess.java:156)

at java.lang.Runtime.execInternal(Native Method)

at java.lang.Runtime.exec(Runtime.java:568)

at java.lang.Runtime.exec(Runtime.java:433)

at TestApply.main(TestApply.java:14)

又如：

main" prio=10 tid=0x08074680 nid=0x1 waiting for monitor entry [...]

at java.util.logging.LogManager.addLogger(LogManager.java:322)

waiting to lock <0xb5627710> (a java.util.logging.LogManager)

at java.util.logging.LogManager$1.run(LogManager.java:180)

at java.security.AccessController.doPrivileged(Native Method)

at java.util.logging.LogManager.<clinit>(LogManager.java:156)

at test.main(test.java:14)

那么".<clinit>"和".<init>"各表示什么含义呢？实际上，".<clinit>"表示当前正在执行类的初

始化。".<init>"正在执行对象的构造函数。如下：

at java.lang.UNIXProcess.<init>;(UNIXProcess.java:156)

----正在执行UNIXProcess对象的构造函数

J AVA线程堆栈分析

at java.util.logging.LogManager.<clinit>(LogManager.java:156)

--正在执行LogManager类的初始化

下面详细介绍一下类的初始化和对象的初始化。

类初始化类"初始化"阶段，它是一个类或接口被首次使用的前阶段中的最后一项工作，本

阶段负责为类变量赋予正确的初始值。Java 编译器把所有的类变量初始化语句和类型的静态

初始化器通通收集到<clinit> 方法内，该方法只能被Jvm 调用，专门承担初始化工作。除接

口以外，初始化一个类之前必须保证其直接超类已被初始化，并且该初始化过程是由Jvm 保

证线程安全的。另外，并非所有的类都会拥有一个<clinit>() 方法，在以下条件中该类不会拥

有<clinit>() 方法：

•

该类既没有声明任何类变量，也没有静态初始化语句；

该类声明了类变量，但没有明确使用类变量初始化语句或静态初始化语句初始化；

该类仅包含静态ﬁnal 变量的类变量初始化语句，并且类变量初始化语句是编译时常量表

达式。

对象初始化对象实例化和初始化是就是对象生命的起始阶段的活动，在这里我们主要讨论

对象的初始化工作的相关特点。Java 编译器在编译每个类时都会为该类至少生成一个实例初

始化方法–即"<init>()" 方法。此方法与源代码中的每个构造方法相对应，如果类没有明确地

声明任何构造方法，编译器则为该类生成一个默认的无参构造方法，这个默认的构造器仅仅调

用父类的无参构造器，与此同时也会生成一个与默认构造方法对应的"<init>()" 方法. 通常来

说，<init>() 方法内包括的代码内容大概为：调用另一个<init>() 方法；对实例变量初始化；

与其对应的构造方法内的代码。如果构造方法是明确地从调用同一个类中的另一个构造方法

开始，那它对应的<init>() 方法体内包括的内容为：一个对本类的<init>() 方法的调用；对应

用构造方法内的所有字节码。如果构造方法不是通过调用自身类的其它构造方法开始，并且

该对象不是Object 对象，那<init>() 法内则包括的内容为：一个对父类<init>() 方法的调用；

对实例变量初始化方法的字节码；最后是对应构造子的方法体字节码。如果这个类是Object，

那么它的<init>() 方法则不包括对父类<init>() 方法的调用。

另外，还有的时候，我们会发现堆栈信息里面包含"Native Method"，或者"Compiled Code"。

at java.lang.UNIXProcess.forkAndExec(Native Method)

该方法是一个本地方法（JNI） ------+

at org/apache/axis/client/Call.invoke(Call.java:2467)(Compiled Code)

该class的方法已经被JIT编译成了本地代码------+

J AVA线程堆栈分析

1.2.2 锁的解读

在介绍线程堆栈的解读方法之前，先介绍一点关于多线程的背景知识。即wait()和sleep()的

重大区别.wait()和sleep() 有一个共同点，就是二者都会把当前的线程阻塞住（时长为函数参数

指定的时间），我们称之为睡眠或者等待。但二者实际上是完全不同的两个函数，二者有着最

为本质的区别：

wait() 当线程执行到wait()方法上，当前线程会释放监视锁，此时其它线程可以占有该锁，

一旦wait()方法执行完成，当前线程又继续持有该锁，直到执行完该锁的作用域。可以

说wait()是多线程场合下用得最多的一个方法。结合notify(),可以实现两个线程之间的通

信,一个线程可以通过这种方法通知另一个线程继续执行，完成线程之间的配合。wait()和

锁的示意图如下:

占

有

锁

synchronized(lock){

map.put(new String("miller"),new Object());

map.put(new String("mike"),new Object());

.. ...

释

放

锁

lock.wait(5000);

.. ...

占

有

锁

map.remove(new String("mike"))

map.remove(new String("miller"))

}

图 2 含有wait(5000)的代码段锁的占用情况

在wait(5000)这5秒（5000毫秒）期间，当前线程会释放它占有的锁，此时其它线程有

机会获得该锁。当wait(5000)执行完成后，当前线程继续获得该锁的使用权。满足如下条

件之一，wait()方法退出：

•

达到了等待的时间之后，自动退出。如wait(5000),5秒后wait方法退出。

其它的线程调用了该锁的notify()方法。当如果多个线程在等待同一个锁，只有一个

线程会被通知到。

提示：

正是由于wait()的这个特性（一旦执行到一个锁的wait()方法，该线程就会释放这个

锁），所以可以有多个线程一起进入到同步块。

sleep() 与锁操作无关，如果该方法恰好在一个锁的保护范围之内，当前线程即使在执行sleep()的

时候，仍然继续保持监视锁。该方法实际上仅仅是完成等待或者睡眠的语义。示意图如

J AVA线程堆栈分析

下：

占

有

锁

synchronized(lock){

map.put(new String("miller"),new Object());

map.put(new String("mike"),new Object());

.. ...

占

有

锁

Thread.sleep(5000);

.. ...

占

有

锁

map.remove(new String("mike"))

map.remove(new String("miller"))

}

图 3 含有sleep(5000)的代码段锁的占用情况

从上面的代码Thread.sleep(5000)可以看出，sleep()方法并不是锁上面的一个方法，而是线

程的一个静态方法。也就是说该方法实际上是和锁操作无关的。如果sleep()方法恰好在一个锁

的保护范围之内，那么当前线程即使执行到该sleep方法，也不会产生特别的锁操作(持有锁或

者释放锁)，如果原来持有，现在仍然持有。如果原来没有持有，那么现在仍然不持有。

从上面介绍的线程堆栈看，线程堆栈中包含的直接信息为：线程的个数、每个线程调用的

方法堆栈、当前锁的状态。线程的个数可以直接数出来；线程调用的方法堆栈，从下向上看，

即表示当前的线程调用了哪个类上的哪个方法。而锁的状态看起来稍微有一点技巧。与锁相

关的三个重要信息如下：

•

当一个线程占有一个锁的时候，线程堆栈中会打印—locked <0x22bﬀb60>

当一个线程正在等待其它线程释放该锁，线程堆栈中会打印—waiting to lock <0x22bﬀb60>

当一个线程占有一个锁，但又执行到该锁的wait()上，线程堆栈中首先打印locked,然后又

会打印—waiting on <0x22c03c60>

例如下面的源代码：

package MyPackage;

public class ThreadTest {

public static void main(String[] args) {

Object shareobj = new Object();

TestThread_Locked thread1 = new TestThread_Locked(shareobj);

thread1.start(); //启动第一个线程

J AVA线程堆栈分析

TestThread_WaitingTo thread2 = new TestThread_WaitingTo(shareobj);

thread2.start(); //启动第二个线程

TestThread_WaitingOn thread3 = new TestThread_WaitingOn();

thread3.start(); //启动第三个线程

}

package MyPackage;

public class TestThread_Locked extends Thread{

Object lock = null;

public TestThread_Locked(Object lock_)

{

lock = lock_;

this.setName(this.getClass().getName());

}

public void run()

{

fun();

}

public void fun(){

synchronized(lock){

fun_longtime();

}

public void fun_longtime(){

try{

Thread.sleep(20000); //<---打印线程堆栈时，该线程运行到这里

}

catch(Exception e){

e.printStackTrace();

}

package MyPackage;

public class TestThread_WaitingOn extends Thread{

Object lockobj1 = new Object();

public TestThread_WaitingOn()

{

J AVA线程堆栈分析

this.setName(this.getClass().getName());

}

public void run()

{

fun();

}

public void fun(){

synchronized(lockobj1){

fun_wait();

}

public void fun_wait(){

try{

lockobj1.wait(100000);//<--- 打印线程堆栈时，该线程运行到这里

}

catch(Exception e){

e.printStackTrace();

}

package MyPackage;

public class TestThread_WaitingTo extends Thread{

Object lock = null;

public TestThread_WaitingTo(Object lock_)

{

lock = lock_;

this.setName(this.getClass().getName());

}

public void run()

{

fun();

}

public void fun()

{

synchronized(lock){ //<--打印线程堆栈时，该线程运行到这里

fun_longtime();

}

public void fun_longtime(){

J AVA线程堆栈分析

try{

}

Thread.sleep(20000);

catch(Exception e){

e.printStackTrace();

}

运行该程序，打印堆栈如下：

MyPackage.TestThread_WaitingOn" prio=6 tid=0x00a85ab8 nid=0xb04 in

Object.wait() [0x02d6f000..0x02d6fae8]

at java.lang.Object.wait(Native Method)

/此时wait方法会导致该锁被释放,其它线程又可以占有该锁。

waiting on <0x22c03c60> (a java.lang.Object)

+--0x22c03c60锁的类型是Object

--表示该线程执行到了锁0x22c03c60的wait()方法上

at MyPackage.TestThread_WaitingOn.fun_wait(TestThread_WaitingOn.java:22)

at MyPackage.TestThread_WaitingOn.fun(TestThread_WaitingOn.java:16)

locked <0x22c03c60> (a java.lang.Object)

--locked表示该线程占有了锁0x22c03c60（即已经进入synchronized代码块中了）

at MyPackage.TestThread_WaitingOn.run(TestThread_WaitingOn.java:11)

MyPackage.TestThread_WaitingTo" prio=6 tid=0x00a855c0 nid=0xb08

waiting for monitor entry [0x02d2f000..0x02d2fb68]

at MyPackage.TestThread_WaitingTo.fun(TestThread_WaitingTo.java:17)

waiting to lock <0x22bffb60> (a java.lang.Object)

--waiting to lock表示锁0x22bffb60已经被其它线程占有，该线程只能等待该锁

at MyPackage.TestThread_WaitingTo.run(TestThread_WaitingTo.java:12)

MyPackage.TestThread_Locked" prio=6 tid=0x00a862e8 nid=0xb00

waiting on condition [0x02cef000..0x02cefbe8]

at java.lang.Thread.sleep(Native Method)

at MyPackage.TestThread_Locked.fun_longtime(TestThread_Locked.java:22)

at MyPackage.TestThread_Locked.fun(TestThread_Locked.java:17)

locked <0x22bffb60> (a java.lang.Object)

--该线程占有了锁0x22bffb60（已经进入synchronized代码块）

at MyPackage.TestThread_Locked.run(TestThread_Locked.java:12)

J AVA线程堆栈分析

从上面这个例子中，可以很清晰地看出，在线程堆栈中与锁相关的三个最重要的特征字:

locked,waiting to lock,waiting on,了解这三个特征字，就能够对锁进行分析了。

一般情况下，当一个(些)线程在等待一个锁时，应该有一个线程占用这个锁，即如果有

的线程在等待一个锁，该锁必然被另一个线程占有了，也就是说，从打印的堆栈中如果能看

到waiting to lock <0x22bﬀb60>,应该也应该能找到一个线程locked <0x22bﬀb60>, 大多数情

况确实如此，但在有些情况下，你会发现堆栈中可能根本就没有locked <0x22bﬀb60>，而只

有wainting to. 这是什么原因呢？实际上，在一个线程释放锁和另一个线程被唤醒之间有一

个时间窗，在这期间，如果恰巧进行了堆栈转储，那么就会发生上面所介绍的堆栈，只能找到

一个锁的wainting to,但找不到locked该锁的线程。另外，当通过kill -3 <java pid>(unix/linux)或

者<ctrl>+<break>(windows)向虚拟机进程发送信号，请求输出线程堆栈时，有的虚拟机有不

同的实现策略，并不一定立即响应该请求，也许会等待正在执行的线程执行完成，然后才打印

堆栈。在实际的应用中看，IBM的JDK打印出的堆栈，经常能找到一个锁的wainting to线程,但

找不到locked该锁的线程；而SUN的JDK绝大多数都是配对出现的。

J AVA线程堆栈分析

1.2.3 线程状态的解读

借助线程堆栈，可以分析很多类型的问题，CPU的消耗分析即是线程堆栈分析的一个重

要内容。本节介绍如何解决线程堆栈的状态信息。

Java线程状态有如下几类：

RUNNABLE 从虚拟机的角度看，线程处于正在运行状态。

那么处于RUNNABLE的线程是不是一定消耗CPU呢？实际上不一定。下面的线程堆栈

表示该线程正在从网络读取数据，尽管下面这个线程显示为RUNNABLE状态，但实际上网

络IO,线程绝大多数时间是被挂起，只有当数据到达之后，线程才被重新唤醒。挂起发生在本

地代码(Native)中，虚拟机根本不知道，不像显式调用了Java的sleep()或者wait()等方法，虚拟

机能知道线程的真正状态，但对于本地代码中的挂起，虚拟机无法真正地知道线程状态，因

此它一概显示为RUNNABLE。像这种socket IO操作，不会消耗大量的CPU,因为大多时间在等

待，只有数据到来之后，才消耗一点点CPU.

Thread-39" daemon prio=1 tid=0x08646590 nid=0x666d runnable [5beb7000..5beb88b8]

java.lang.Thread.State: RUNNABLE

at java.net.SocketInputStream.socketRead0(Native Method)

at java.net.SocketInputStream.read(SocketInputStream.java:129)

at java.io.BufferedInputStream.fill(BufferedInputStream.java:183)

at java.io.BufferedInputStream.read(BufferedInputStream.java:201)

locked <0x47bfb940> (a java.io.BufferedInputStream)

at org.postgresql.PG_Stream.ReceiveChar(PG_Stream.java:141)

at org.postgresql.core.QueryExecutor.execute(QueryExecutor.java:68)

locked <0x47bfb758> (a org.postgresql.PG_Stream)

at org.postgresql.Connection.ExecSQL(Connection.java:398)

下面的线程正在执行纯Java代码指令，实实在在是消耗CPU的线程。

Thread-444" prio=1 tid=0xa4853568 nid=0x7ade runnable [0xafcf7000..0xafcf8680]

java.lang.Thread.State: RUNNABLE

/实实在在再对应CPU运算指令

at org.apache.commons.collections.ReferenceMap.getEntry(Unknown Source)

at org.apache.commons.collections.ReferenceMap.get(Unknown Source)

at org.hibernate.util.SoftLimitMRUCache.get(SoftLimitMRUCache.java:51)

at org.hibernate.engine.query.QueryPlanCache.getNativeSQLQueryPlan()

at org.hibernate.impl.AbstractSessionImpl.getNativeSQLQueryPlan()

at org.hibernate.impl.AbstractSessionImpl.list()

at org.hibernate.impl.SQLQueryImpl.list(SQLQueryImpl.java:164)

at com.mogoko.struts.logic.user.LeaveMesManager.getCommentByShopId()

at com.mogoko.struts.action.shop.ShopIndexBaseInfoAction.execute()

.....

J AVA线程堆栈分析

下面的线程正在进行JNI本地方法调用，具体是否消耗CPU，要看TcpRecvExt的实现，如

果TcpRecvExt 是纯运算代码，那么是实实在在消耗CPU,如果TcpRecvExt()中存在挂起的代

码，那么该线程尽管显示为RUNNABLE,但实际上也是不消耗CPU的。

ClientReceiveThread" daemon prio=1 tid=0x99dbacf8 nid=0x7988 runnable [...]

java.lang.Thread.State: RUNNABLE

at com.pangu.network.icdcomm.htcpapijni.TcpRecvExt(Native Method)

at com.pangu.network.icdcomm.IcdComm.receive(IcdComm.java:60)

at com.msp.client.MspFactory$ClientReceiveThread.task(MspFactory.java:333)

at com.msp.system.TaskThread.run(TaskThread.java:94)

TIMED_WAITING(on object monitor) 表示当前线程被挂起一段时间,说明该线程正在

执行obj.wait(int time)方法.

下面的线程堆栈表示当前线程正处于TIMED_WAITING状态，当前正在被挂起，时长为

参数中指定的时长，如obj.wait(2000)。因此该线程当前不消耗CPU。

JMX server" daemon prio=6 tid=0x0ad2c800 nid=0xdec in Object.wait() [...]

java.lang.Thread.State: TIMED_WAITING (on object monitor)

at java.lang.Object.wait(Native Method)

waiting on <0x03129da0> (a [I)

at com.sun.jmx.remote.internal.ServerComm$Timeout.run(ServerComm.java:150)

locked <0x03129da0> (a [I)

at java.lang.Thread.run(Thread.java:620)

TIMED_WAITING(sleeping) 表示当前线程被挂起一段时间,即正在执行Thread.sleep(int

time)方法.

下面的线程正处于TIMED_WAITING状态，表示当前被挂起一段时间，时长为参数中指

定的时长，如Thread.sleep(100000)。因此该线程当前不消耗CPU。

[

Comm thread" daemon prio=10 tid=0x00002aaad4107400 nid=0x649f waiting on condition

0x000000004133b000..0x000000004133ba00]

java.lang.Thread.State: TIMED_WAITING (sleeping)

at java.lang.Thread.sleep(Native Method)

at org.apache.hadoop.mapred.Task$1.run(Task.java:282)

at java.lang.Thread.run(Thread.java:619)

TIMED_WAITING(parking) 当前线程被挂起一段时间,即正在执行Thread.sleep(int time)方

法.

下面的线程正处于TIMED_WAITING状态，表示当前被挂起一段时间，时长为参数中指

定的时长，如LockSupport.parkNanos(blocker, l10000) 。因此该线程当前不消耗CPU。

RMI TCP" daemon prio=6 tid=0x0ae3b800 nid=0x958 waiting on condition [0x17eff000..0x17effa94]

J AVA线程堆栈分析

java.lang.Thread.State: TIMED_WAITING (parking)

at sun.misc.Unsafe.park(Native Method)

parking to wait for <0x02f49f58> (a java.util.concurrent.SynchronousQueue$TransferStack)

at java.util.concurrent.locks.LockSupport.parkNanos(LockSupport.java:179)

at java.util.concurrent.SynchronousQueue$TransferStack.awaitFulfill(SynchronousQueue.java:424)

at java.util.concurrent.SynchronousQueue$TransferStack.transfer(SynchronousQueue.java:323)

at java.util.concurrent.SynchronousQueue.poll(SynchronousQueue.java:871)

at java.util.concurrent.ThreadPoolExecutor.getTask(ThreadPoolExecutor.java:495)

at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:693)

at java.lang.Thread.run(Thread.java:620)

WAINTING(on object monitor) 当前线程被挂起，即正在执行obj.wait()方法(无参数的wait()方

法).

下面的线程正处于WAITING状态，表示当前线程被挂起，如obj.wait()（只能通过notify()唤

醒）。因此该线程当前不消耗CPU。

IPC Client" daemon prio=10 tid=0x00002aaad4129800 nid=0x649d in Object.wait() [0x039000..0x039d00]

java.lang.Thread.State: WAITING (on object monitor)

at java.lang.Object.wait(Native Method)

waiting on <0x00002aaab3acad18>; (aorg.apache.hadoop.ipc.Client$Connection)

at java.lang.Object.wait(Object.java:485)

at org.apache.hadoop.ipc.Client$Connection.waitForWork(Client.java:234)

locked <0x00002aaab3acad18> (aorg.apache.hadoop.ipc.Client$Connection)

at org.apache.hadoop.ipc.Client$Connection.run(Client.java:273)

总结：

处于TIMED_WAITING、WAINTING状态的线程一定不消耗CPU. 处于RUNNABLE的线

程，要结合当前线程代码的性质判断，是否消耗CPU.

•

如果是纯Java运算代码，则消耗CPU.

如果是网络IO,很少消耗CPU.

如果是本地代码，结合本地代码的性质判断(可以通过pstack/gstack获取本地线程堆栈)，

如果是纯运算代码，则消耗CPU, 如果被挂起，则不消耗CPU,如果是IO,则不怎么消

耗CPU。

J AVA线程堆栈分析

1.3 如何借助线程堆栈进行问题分析?

大的应用程序中，线程堆栈打印出来的行数特别多（依赖于线程的数量和调用层次的多

少），如何从众多的信息中找到真正有价值的信息，需要一定的技巧，本节对此进行详细的介

绍。

线程堆栈反映了系统在当前时间正在执行什么代码。根据这些信息就可以知道系统当前

到底再做什么。看堆栈一般是从三个视角来分析：堆栈的局部信息、一次堆栈的统计信息（全

局信息）、多个堆栈的对比信息。

视角一从一次的堆栈信息中，我们能直接获取以下直接的信息：

•

当前每一个线程的调用层次关系（即调用上下文），即每个线程当前正在调用哪些函数。

当前每个线程当前的状态：持有了哪些锁？在等待哪些锁？

视角二从一次的堆栈信息中，我们还可以获得下面的统计方面的信息：

•

当前锁的争用情况：

–

是不是很多线程在等待同一个锁,如果很多线程在等待同一个锁，那么说明这个系统

已经出现了性能瓶颈，并导致了锁竞争。还可能是某个线程长时间持有一个锁不释

放（比如这个线程正陷入了死循环的代码或者正在请求一个资源，很长时间得不到

唤醒）。

–

是否有死锁，哪些线程形成了锁环？

•

当前大多数线程正在干什么，即正在执行什么代码？

当前线程总的数量。

视角三从多次（即前后打印多次堆栈进行对比）的堆栈信息中，我们还可以获得下面的统计

对比方面的信息：

•

一个线程是否在长期执行。如果每次打印的堆栈，某一个线程一直处于同样的调用上下

文中，那么说明这个线程一直在执行这段代码，此时就要根据代码逻辑检查，这种长期执

行是否是合理的？

•

某个线程是否存在长期获取不到锁的情况？线程是不是永远得不到唤醒？如果每次打印

的堆栈，某一个线程一直在等待一个锁，那么就需要检查占有这个锁的线程为什么不释

放锁？

打印一次堆栈，是一个切面，如果打印多次堆栈，那么就是立体的了。通过以上多个视角

进行观察，线程堆栈在定位如下类型的问题上非常有帮助：

线程死锁分析（视角一）

J AVA线程堆栈分析

Java代码导致的CPU过高分析（视角三）⁹

死循环分析（视角三）¹⁰

资源不足分析（视角二）。

性能瓶颈分析(视角二和视角三)¹¹

线程堆栈在很多类型的问题分析上，非常有帮助，本章就一些典型的场景进行介绍，原理都是

类似的。

导致CPU过高还有其它的可能原因，详见第 205页第 §13.9节

0详见第 198页第 §13.5节

1使用线程堆栈分析性能瓶颈单独一章进行介绍，请参考第 39页 2章。

J AVA线程堆栈分析

1.3.1 线程死锁分析

线程死锁的原因当两个或多个线程正在等待被对方占有的锁，死锁就会发生。死锁会导致

两个线程无法继续运行，被永远挂起。下图描述了两个线程死锁的场景：

在时间点0的时候，线程0占有了lock0，线程1占有了lock1。在时间点1二者又做了一些其

它操作(此处略去). 在时间点2的时候，线程0企图获取lock1，由于此时lock1已经被线程1锁住，

因此此时只能等待对方释放lock1。线程1同时企图获取lock0，由于此时lock0已经被线程0锁住，

因此此时只能等待对方释放锁。由于这两个线程互相要等待被对方占有的锁，自己才能继续，

因此这就造成了死锁。二者永远没有机会继续运行下去。

时间

线程0

lock 0

...

线程1

lock 1

...

¨*

H ¨

lock 1

lock 0

图 4 线程死锁

两个或超过两个线程因为环路的锁依赖关系而形成的锁环，就形成了真正的死锁。一个

简单的死锁例子代码如下：

package MyPackage;

public class Main {

public static void main(String[] args) {

Object lockobj1 = new Object();

Object lockobj2 = new Object();

TestThread1 thread1 = new TestThread1(lockobj1,lockobj2);

thread1.start();

TestThread2 thread2 = new TestThread2(lockobj1,lockobj2);

thread2.start();

}

package MyPackage;

public class TestThread1 extends Thread{

Object lock1 = null;

Object lock2 = null;

public TestThread1(Object lock1_,Object lock2_)

{

lock1 = lock1_;

J AVA线程堆栈分析

lock2 = lock2_;

this.setName(this.getClass().getName());

}

public void run()

{

fun();

}

public void fun(){

synchronized(lock1){

try{

Thread.sleep(2);

}

catch(Exception e){

e.printStackTrace();

}

synchronized(lock2){

}

package MyPackage;

public class TestThread2 extends Thread{

Object lock1 = null;

Object lock2 = null;

public TestThread2(Object lock1_,Object lock2_)

{

lock1 = lock1_;

lock2 = lock2_;

this.setName(this.getClass().getName());

}

public void run()

{

fun();

}

public void fun(){

synchronized(lock2){

try{

Thread.sleep(2);

}

catch(Exception e){

J AVA线程堆栈分析

e.printStackTrace();

}

synchronized(lock1){

}

执行该程序，并打印堆栈，结果如下：

Found one Java-level deadlock:

============================

MyPackage.TestThread2":

waiting to lock monitor 0x0003f04c (object 0x22bffb08, a java.lang.Object),

which is held by "MyPackage.TestThread1"

MyPackage.TestThread1":

waiting to lock monitor 0x0003f06c (object 0x22bffb10, a java.lang.Object),

which is held by "MyPackage.TestThread2"

Java stack information for the threads listed above:

==================================================

MyPackage.TestThread2":

at MyPackage.TestThread2.fun(TestThread2.java:25)

waiting to lock <0x22bffb08> (a java.lang.Object)-------+

locked <0x22bffb10> (a java.lang.Object)

<-------+

at MyPackage.TestThread2.run(TestThread2.java:14)

MyPackage.TestThread1":

at MyPackage.TestThread1.fun(TestThread1.java:25)

waiting to lock <0x22bffb10> (a java.lang.Object)--+

locked <0x22bffb08> (a java.lang.Object) <-------------+

at MyPackage.TestThread1.run(TestThread1.java:14)

从打印的线程堆栈中我们能看到"Found one Java-level deadlock"，即如果存在线程死锁情况，

堆栈中会直接给出死锁的分析结果。

对于上面提到的死锁，是真正的死锁。每个线程都在等待一个被对方占用的锁，结果造成

了死锁。对于真正的死锁而言，虚拟机从锁的持有和请求情况就能够判断出来，因此打印堆栈

时虚拟机会自动给出死锁的提示。但在实际中，很多人把系统无响应的问题统称为死锁，这种

称谓实际是不恰当的。真正的死锁就是指上面所介绍的真正含义上的死锁，即是由于代码的

引入的错误而导致的死锁。

当一组Java线程发生死锁的时候，那么意味着Game Over，这些线程永远得被挂在那里了，

永远不能继续运行下去。当发生死锁的线程正在执行系统的关键功能时，那么这个死锁可能

会导致整个系统的瘫痪，具体的严重程度取决于这些线程执行的是什么性质的功能代码，要

想恢复系统，临时也是唯一的规避办法是将系统重启。然后赶快去修改导致这个死锁的Bug。

J AVA线程堆栈分析

与其它并发的危险相同，死锁很少能够立即被发现，也就是说在实验室测试，能否及时发现这

类问题，依赖于你的运气和你准备的测试用例的有效性。代码如果有发生死锁的潜在可能并

不意味着死锁每次都发生，它只发生在该发生的时候,当死锁出现的时候，往往是遇到了最不

幸的时候－在高负载的生产环境之下。

要避免死锁的问题，唯一的办法是修改代码。一个可靠的并发系统可以说是设计出来的，

而不是通过改Bug改出来的，这一点与其它类型的

Bug有很大的不同¹²。另外，死锁的两个或多个线程是不消耗CPU的，有的人认为CPU

00%的使用率是线程死锁导致的，这个说法是完全错误的。无限循环（即死循环），并且在循

环中代码都是CPU密集型，才有可能导致CPU的100%使用率，像socket或者数据库等IO操作是

不怎么消耗CPU的。

2关于并发介绍，请参考第 89页第 §4.1节

J AVA线程堆栈分析

1.3.2 Java代码死循环等导致的CPU过高分析

当系统负载大的时候,CPU的使用率会较高，但是不正确的代码也会导致CPU过高，比如

死循环。当发生CPU过高的问题，我们需要能够分析CPU高的真正原因。既然CPU过高可能

是死循环导致的，那么如何从线程堆栈中找到死循环的线程呢？方法是多次打印堆栈，通过前

后堆栈对比找到一直在运行的线程，这些线程都是可疑的线程¹³，具体的步骤如下：

. 通过前面介绍的堆栈获取方法获取第一次堆栈信息(详细请参考第 3页第 §1.1节)。

. 等待一定的时间，再获取第二次堆栈信息。

. 预处理两次堆栈信息，首先去掉处于sleeping或者waiting状态的线程，因为这种线程是不

消耗CPU的。

. 比较第一次堆栈和第二次堆栈预处理后的线程，找出这段时间一直活跃的线程，如果两

次堆栈中同一个线程处于同样的调用上下文，那么就应该列为重点怀疑对象。结合代码

逻辑检查该线程的执行上下文所对应的代码段是否属于应该长期运行的代码。如果不属

于，那么就要仔细检查，为什么这个线程长期执行不完那段代码，这段代码是否可能存在

一个死循环。

如果通过堆栈定位，没有发现热点代码段，那么CPU过高可能是不恰当的内存设置导致

的频繁GC,从而导致CPU过高（请参考第 81页第 1节）。其它原因导致的CPU过高，请参考第

04页第 §13.9节。下面的线程在间隔为5分钟，分两次堆栈打印，发现该线程一直在执行同一

段代码，因此怀疑这个代码段中存在死循环。其中第一次堆栈：

Thread-444" prio=1 tid=0xa4853568 nid=0x7ade runnable [0xafcf7000..0xafcf8680]

at org.apache.commons.collections.ReferenceMap.getEntry(Unknown Source)

at org.apache.commons.collections.ReferenceMap.get(Unknown Source)

at org.hibernate.util.SoftLimitMRUCache.get(SoftLimitMRUCache.java:51)

at org.hibernate.engine.query.QueryPlanCache.getNativeSQLQueryPlan()

at org.hibernate.impl.AbstractSessionImpl.getNativeSQLQueryPlan()

at org.hibernate.impl.AbstractSessionImpl.list()

at org.hibernate.impl.SQLQueryImpl.list(SQLQueryImpl.java:164)

at com.mogoko.struts.logic.user.LeaveMesManager.getCommentByShopId()

at com.mogoko.struts.action.shop.ShopIndexBaseInfoAction.execute()

.....

第二次堆栈，该线程仍在那儿：

Thread-444" prio=1 tid=0xa4853568 nid=0x7ade runnable [0xafcf7000..0xafcf8680]

at org.apache.commons.collections.ReferenceMap.getEntry(Unknown Source)

at org.apache.commons.collections.ReferenceMap.get(Unknown Source)

at org.hibernate.util.SoftLimitMRUCache.get(SoftLimitMRUCache.java:51)

3即前面介绍的视角三，请参考第 23页第 §1.3节

J AVA线程堆栈分析

at org.hibernate.engine.query.QueryPlanCache.getNativeSQLQueryPlan()

at org.hibernate.impl.AbstractSessionImpl.getNativeSQLQueryPlan()

at org.hibernate.impl.AbstractSessionImpl.list()

at org.hibernate.impl.SQLQueryImpl.list(SQLQueryImpl.java:164)

at com.mogoko.struts.logic.user.LeaveMesManager.getCommentByShopId()

at com.mogoko.struts.action.shop.ShopIndexBaseInfoAction.execute()

.. ...

在长达5分钟的时间里，这个线程一直在执行org.apache.commons.collections.ReferenceMap

getEntry() 方法，说明这个函数执行一直没有结束。在有些场合下，有的函数永远不退出，这

是正常的代码逻辑。这时候，具体这个函数是否属于正常还是属于Bug导致的死循环，需要结

合源代码进行判断。像上面的函数，在一个Map中获取一个元素在长达几分钟的时间内还不返

回，这种函数明显属于不正常情况。因此首先怀疑该函数是否存在死循环。

导致死循环的代码属于代码的Bug，这种类型的问题，重现比较难，但一旦重现问题，这

类问题解决起来就比较容易。一般通过分析代码就可以发现问题。导致死循环的原因大致有

如下几个：

•

HashMap等线程不安全的容器，用在多线程读/写的场合，导致HashMap的方法调用形成

死循环¹⁴。

•

多线程场合，对共享变量没有进行保护，导致数据混乱，从而使循环退出的条件永远不满

足，导致死循环的发生，如

–

for,while循环中的退出条件永远不满足导致的死循环。

链表等数据结构首尾相接，导致遍历永远无法停止。

•

其它错误的编码。

对于死循环导致的CPU 过高问题，通过下节介绍的方法能够一次性得到定位。下节介绍

的方法要借助一些操作系统工具，这对操作系统有一定的依赖。因此实际问题的定位，可以根

据情况选择合适的定位手段。

4将HashMap用在多线程场合下，发生死循环是很常见的现象。

J AVA线程堆栈分析

1.3.3 高消耗CPU代码的常用分析方法

借助操作系统提供的性能分析工具进行CPU消耗分析死循环可能导致CPU持续过高，对于

非死循环的CPU密集型代码，也可能由于算法过于复杂，也会导致CPU过高。上面介绍的

方法仅适用于死循环导致的CPU过高分析，对于非死循环导致的CPU过高，分析起来就

不那么方便了，只能寻找其它更有效的定位方法。我们知道在Linux/Unix下都提供了相应

的性能统计工具，通过该工具可以获得一个进程中的每一个线程所消耗的CPU比例。如

在Linux下，可以通过top，在Solaris下，可以通过prstat -L <pid>获取每个线程的CPU占

用的时间百分比。不同的操作系统，线程CPU统计的命令见下表：

操作系统

solaris

linux

aix

命令名称 prstat -L <pid> top -p <pid> ps -emo THREAD

该工具统计的是Java虚拟机本地线程的CPU使用情况，如果通过某种方法找到本地

线程对应的Java线程，那么结合Java的线程堆栈就可以找到消耗CPU的Java代码段。实际

上，在 §1.2.1节第 9页我们介绍了本地线程和Java线程的映射关系，二者是一一对应的。

具体步骤如下（假设当前的java进程id为3368）：

. top -p 3368¹⁵

. 输入’H’查看该进程所有线程的统计情况(CPU等)

PID USER

PR NI VIRT RES SHR S %CPU %MEM

TIME+ COMMAND

5:42.06 java

0:00.00 java

368 zmw2

369 zmw2

370 zmw2

371 zmw2

372 zmw2

373 zmw2

374 zmw2

375 zmw2

256m 9620 6460 R 93.3 0.7

256m 9620 6460 S 0.0 0.7

通过top中的’H’命令可以获取如下详细信息：每个线程(在’H’命令下面，PID列是指线

程ID,即LWPID)消耗了多少CPU。但是这个线程号如何与Java Thread Dump文件中对应

起来呢¹⁶？很简单，在Java Thread Dump文件中，每个线程都有tid=...nid=...的属性，其

中nid就是native thread id，只不过nid中用16进制来表示。例如上面的例子中3368的十六

进制表示为0xd28.在Java线程中查找nid=0xd28即是本地线程对应Java线程¹⁷：

5早期版本的top不支持对线程的统计，可以使用ps命令，如：ps H -eo user,pid.ppid,tid,time,%cpu,cmd -

sort=%cpu

6详见 §1.2.1 第 9页

7完整的Java堆栈请参考第 §1.2.1节第 5页

J AVA线程堆栈分析

main" prio=1 tid=0x0805c988 nid=0xd28 runnable [0xfff65000..0xfff659c8]

at java.lang.String.indexOf(String.java:1352)

at java.io.PrintStream.write(PrintStream.java:460)

locked <0xc8bf87d8> (a java.io.PrintStream)

at java.io.PrintStream.print(PrintStream.java:602)

at MyTest.fun2(MyTest.java:16)

locked <0xc8c1a098> (a java.lang.Object)

at MyTest.fun1(MyTest.java:8)

locked <0xc8c1a090> (a java.lang.Object)

at MyTest.main(MyTest.java:26)

具体导致问题的代码可能是：

. 纯Java代码导致的CPU过高。

. Java代码中调用的JNI代码导致的CPU过高

. 虚拟机自身的代码导致的CPU过高，比如GC的bug等。

无论是哪个地方引起的问题，通过线程堆栈（Java线程堆栈或者本地线程堆栈）分析

可以一次命中问题：

. 通过top -p <jvm pid> ¹⁸获取最消耗CPU的本地线程ID。

. 通过kill -3打印Java线程堆栈。

. 通过pstack <java pid> （有的操作系统下命令为gstack）打印本地线程堆栈。

. 在Java线程堆栈中查找nid=<第1步获得的最耗CPU时间的线程id>。

(a) 如果在Java线程堆栈中找到了对应的线程ID,并且该线程正在执行纯Java代码，

说明是该Java代码导致的CPU过高。如：

Thread-444" prio=1 tid=0xa4853568 nid=0x7ade runnable [0xafcf7000..0xafcf8680]

/当前正在执行的代码是纯Java代码

at org.apache.commons.collections.ReferenceMap.getEntry(Unknown Source)

at org.apache.commons.collections.ReferenceMap.get(Unknown Source)

at org.hibernate.util.SoftLimitMRUCache.get(SoftLimitMRUCache.java:51)

at org.hibernate.engine.query.QueryPlanCache.getNativeSQLQueryPlan()

at org.hibernate.impl.AbstractSessionImpl.getNativeSQLQueryPlan()

at org.hibernate.impl.AbstractSessionImpl.list()

at org.hibernate.impl.SQLQueryImpl.list(SQLQueryImpl.java:164)

at com.mogoko.struts.logic.user.LeaveMesManager.getCommentByShopId()

at com.mogoko.struts.action.shop.ShopIndexBaseInfoAction.execute()

.. ...

(b) 如果在Java线程堆栈中找到了对应的线程ID,并且该Java线程正在执行Native code,说明导

致CPU过高的问题代码在JNI调用中。如：

⁸Solaris下使用prstat -L

J AVA线程堆栈分析

Thread-609" prio=5 tid=0x01583d88 nid=0x280 runnable [7a680000..7a6819c0]

/CheckLicense是Native方法，说明导致CPU过高的问题代码在本地代码中。

at meetingmgr.conferencemgr.Operation.CheckLicense(Native method)

at meetingmgr.MeetingAdapter.prolongMeeting(MeetingAdapter.java:171)

at meetingmgr.timer.OnMeetingExec.execute(OnMeetingExec.java:189)

at util.threadpool.RunnableWrapper.run(RunnableWrapper.java:131)

at EDU.oswego.cs.dl.util.concurrent.PooledExecutor$Worker.run(...)

at java.lang.Thread.run(Thread.java:534)

此时可以根据第三步获取到所有的本地线程堆栈，根据之前获得的最耗CPU时间

的线程id，在本地线程堆栈中找到对应线程，即为高CPU消耗的线程。借助该本地

线程堆栈信息，可以直接定位到本地代码中的死循环等问题,当然，如果是JDK的

问题，只能通过JDK来解决。

0x00000037e1e324aa in checksum ()

0x00000037dcacbd66 in calculate()

.. ...

5 0x0000000000428f27 in CheckLicense ()

Thread 1 (Thread 46912546288176 (LWP 640)):

i. JNI调用中重新创建的线程来执行，那么在Java线程堆栈中就不存在该线程的信息。

ii. 虚拟机自身代码导致的CPU过高，如堆内存枯竭导致的频繁FULL GC,或者虚拟机的Bug等。

此时同样可以根据第三步获取到所有的本地线程堆栈，根据之前获得的最耗CPU时间的线

程id，在本地线程堆栈中找到对应线程，即为高CPU消耗的线程。借助该本地线程堆栈信息，

可以直接定位到本地代码中的死循环等问题。

这种定位方式由于能够直接定位到特定的线程ID，因此基本上能够一次命中问题。是

最为有效的一种方式。不管什么原因导致的CPU过高，通过这种方式都能查出来。这种方

式对系统的消耗最小，非常适合在生产环境使用。

Xrunprof协助分析虚拟机自身也提供了一些CPU剖析工具，借助这些工具，可以获得哪些

代码段消耗了更多的CPU,借助这些信息我们也可以找到可疑的性能点。runprof的详细使

用请参考第 §7.4节第 144页的介绍。

JProﬁler或者OptimizeIt等工具

一些商业化的剖析工具，如JProﬁler或者OptimizeIt等也

提供了CPU剖析的能力，借助这些工具，也可以分析出消耗CPU比较多的代码段。详细请

参考随机软件资料。

多次打印堆栈对于耗时多的代码段，通过多次打印堆栈，该代码段在堆栈中被命中的频率相

应较高，通过这种方式，也可以找出消耗CPU比较高的代码段。

上面介绍的四种方式，总的来说，第一种和第四种对系统影响最小，特别适合在生产环境

下定位问题使用。而第二种和第三种通过剖析工具进行定位，由于剖析工具的极度消耗CPU,会

导致整个系统的性能急剧下降，因此不太适合生产环境使用。

J AVA线程堆栈分析

1.3.4 资源不足等导致的性能下降分析

这里所说的资源包括数据库连接等。大多时候资源不足和性能瓶颈是同一类问题。当资

源不足，就会导致资源争用，请求该资源的线程会被阻塞或者挂起(wait)，自然就导致性能下

降。系统对于资源，一般的设计模式是：当需要资源的时候，获取资源，当不需要的时候，就把

资源释放，如果暂时没有可用资源，那么就等待（即阻塞）在那里（即等在一个资源锁上面），

如果有别的线程释放资源，那么等待的线程被notify() ,等待的线程获得资源继续运行(一般资

源的设计都是遵循wait/notify的模式，详见 §4.8 第 95页)。如果资源不足，那么有大量的线程

在等待资源，打印的线程堆栈如果具有这个特征，那么就说明该系统资源是瓶颈。对于资源不

足的导致的性能瓶颈，打印出的线程堆栈有如下特点：

•

大量的线程停在同样的调用上下文上。

如：下面的堆栈¹⁹大量的http-8082-Processor线程都停止在org.apache.commons.pool.impl

GenericObjectPool.borrowObject上面，说明大量的线程正在等待该资源。这就说明了该系统

资源是瓶颈。

http-8082-Processor84" daemon prio=10 tid=0x0887c000 nid=0x5663 in Object.wait()

java.lang.Thread.State: WAITING (on object monitor)

at java.lang.Object.wait(Object.java:485)

at org.apache.commons.pool.impl.GenericObjectPool.borrowObject(Unknown Source)

locked <0x75132118> (a org.apache.commons.dbcp.AbandonedObjectPool)

at org.apache.commons.dbcp.AbandonedObjectPool.borrowObject()

locked <0x75132118> (a org.apache.commons.dbcp.AbandonedObjectPool)

at org.apache.commons.dbcp.PoolingDataSource.getConnection()

at org.apache.commons.dbcp.BasicDataSource.getConnection(BasicDataSource.java:312)

at dbAccess.FailSafeConnectionPool.getConnection(FailSafeConnectionPool.java:162)

at servlets.ControllerServlet.doGet(ObisControllerServlet.java:93)

.. ...

http-8082-Processor85" daemon prio=10 tid=0x0887c000 nid=0x5663 in Object.wait()