当前位置：首页 > news >正文

java怎么找bug？Arthas原理与实战指南

news 2025/4/26 21:32:23

Arthas原理与实战指南

1. Arthas简介

Arthas是阿里巴巴开源的Java诊断工具，其名字取自《魔兽世界》的人物阿尔萨斯。它面向线上问题定位，被广泛应用于性能分析、定位问题、安全审计等场景。Arthas的核心价值在于它能够在不修改应用代码、不重启Java进程的情况下，实时动态地监控和分析运行中的Java程序。

Arthas支持JDK 6+，支持Linux/Mac/Windows，采用命令行交互模式，同时提供丰富的Tab自动补全功能。

2. 核心原理深度解析

2.1 Java Agent技术

Arthas基于Java Agent技术，Java Agent是JDK 1.5引入的一种能够在不修改Java源代码的情况下，动态修改Java字节码的技术。

Java Agent通过以下两种方式工作：

静态加载：通过JVM启动参数-javaagent指定
动态加载：通过Attach API动态附加到运行中的JVM

Arthas采用了动态加载的方式，使其能够在Java应用运行过程中被加载。

2.2 Instrumentation API

Java的java.lang.instrument包提供了一套API，允许Java Agent程序修改已加载的类的字节码。Arthas利用这一API来实现类和方法的监控和分析。

关键接口和类：

Instrumentation：提供注册类文件转换器、获取所有已加载类等功能
ClassFileTransformer：类文件转换器，用于修改类的字节码
Agent：Agent程序的入口点，通过premain或agentmain方法启动

2.3 JVM Attach机制

Attach机制允许一个JVM进程连接到另一个JVM进程，实现进程间通信。Arthas使用该机制动态加载Agent到目标JVM中。

核心实现在com.sun.tools.attach包中，关键类有：

VirtualMachine：代表一个JVM进程
VirtualMachineDescriptor：JVM进程的描述信息

2.4 ASM字节码操作

Arthas使用ASM库操作Java字节码，通过修改字节码来实现方法拦截、监控等功能。ASM是一个轻量级的字节码操作框架，能够动态生成和修改Java字节码。

字节码转换过程：

读取原始类字节码
使用ASM分析字节码结构
修改字节码（如添加方法入口/出口的监控代码）
返回修改后的字节码

2.5 命令处理引擎

Arthas采用命令行交互方式，内部实现了一套完整的命令处理引擎：

命令解析：将用户输入解析为命令对象
命令执行：根据命令执行相应操作
结果渲染：将执行结果格式化输出

3. 安装与启动详解

3.1 安装方式

方式一：使用arthas-boot（推荐）

# 下载启动脚本
curl -O https://arthas.aliyun.com/arthas-boot.jar# 启动
java -jar arthas-boot.jar

方式二：使用全量包

# 下载全量包
curl -O https://arthas.aliyun.com/arthas-packaging.jar# 解压
java -jar arthas-packaging.jar# 启动
cd arthas
./arthas.sh

方式三：使用as.sh

# 下载并安装
curl -L https://arthas.aliyun.com/install.sh | sh# 启动
./as.sh

3.2 启动选项详解

启动Arthas时，可以指定多种参数：

# 指定目标Java进程
java -jar arthas-boot.jar [PID]# 指定目标进程名称的关键字
java -jar arthas-boot.jar --select JAVA_HOME# 启动时禁用某些命令
java -jar arthas-boot.jar --exclude-commands=jvm,thread# 指定端口号
java -jar arthas-boot.jar --telnet-port 9998 --http-port 9999# 以批处理模式执行命令
java -jar arthas-boot.jar --command "thread" -c "thread" > output.txt

3.3 连接方式

Arthas提供多种连接方式：

本地命令行模式：
直接在启动终端操作
Telnet连接：
```
telnet 127.0.0.1 3658
```
WebSocket连接：
通过浏览器访问http://127.0.0.1:8563/
HTTP API：
```
curl http://127.0.0.1:8563/api
```

4. 核心功能与命令详解

4.1 JVM相关命令

dashboard - 系统实时数据面板

提供系统整体情况的实时数据，包括线程、内存、GC、运行环境等信息。

# 每5秒刷新一次
dashboard -i 5000# 只显示前10个线程
dashboard -n 10

输出示例：

ID     NAME                   GROUP                  PRIORITY  STATE    %CPU     DELTA_TIME TIME     INTERRUPTED DAEMON
17     pool-2-thread-1        main                   5         RUNNABLE 27       0.136      0:0.203  false       false
21     pool-2-thread-5        main                   5         RUNNABLE 26       0.132      0:0.096  false       false
22     pool-2-thread-6        main                   5         RUNNABLE 26       0.132      0:0.097  false       false
......Memory                    used    total    max      usage    GC
heap                      32M     155M     1820M    1.76%    gc.ps_scavenge.count              118
ps_eden_space             14M     65M      672M     2.21%    gc.ps_scavenge.time(ms)           1890
ps_survivor_space         4M      5M       5M       81.92%   gc.ps_marksweep.count             5
ps_old_gen                12M     85M      1365M    0.91%    gc.ps_marksweep.time(ms)          1140

jvm - JVM信息

# 显示JVM信息
jvm# 同时显示ClassLoader信息
jvm -c

输出包含：

Java运行时版本与厂商
JVM参数
类加载统计
JVM内存区域使用情况
垃圾收集器信息
操作系统和硬件信息

thread - 线程分析

# 显示所有线程
thread# 查看指定线程的栈信息
thread 1# 查看最忙的前3个线程栈
thread -n 3# 查看阻塞其他线程的线程
thread -b# 查找指定状态的线程
thread --state BLOCKED# 线程池信息
thread -i

线程池参数解析：

- corePoolSize: 核心线程数
- maximumPoolSize: 最大线程数
- keepAliveTime: 线程存活时间
- queueCapacity: 队列容量
- taskCount: 已执行和未执行的任务总数
- completedTaskCount: 已完成的任务数
- largestPoolSize: 历史最大线程数
- poolSize: 当前线程数
- activeCount: 当前活动线程数

sysprop - 系统属性

# 查看所有系统属性
sysprop# 查看指定属性
sysprop java.version# 设置系统属性
sysprop user.country US

heapdump - 堆转储

# 生成堆转储文件到指定路径
heapdump /tmp/dump.hprof# 只转储活着的对象
heapdump --live /tmp/dump.hprof

4.2 类相关命令

sc - 查找类

# 模糊查找类
sc *List*# 查找指定类的详细信息
sc -d java.util.ArrayList# 查找类的方法信息
sc -d -f java.util.ArrayList# 显示类加载器信息
sc -c -d java.util.ArrayList# 指定类加载器查找
sc -c classLoaderHash *MathGame*

sm - 查找方法

# 查找类的所有方法
sm java.util.ArrayList# 查找方法的详细信息
sm -d java.util.ArrayList add# 正则匹配方法
sm java.util.ArrayList "add|remove"

jad - 反编译

# 反编译指定类
jad com.example.demo.arthas.user.UserController# 指定反编译结果输出路径
jad --source-only com.example.demo.arthas.user.UserController > /tmp/UserController.java# 只反编译指定的方法
jad com.example.demo.arthas.user.UserController getUserById

mc - 内存编译

# 编译指定Java文件
mc /tmp/UserController.java# 指定输出目录
mc -d /tmp/output /tmp/UserController.java# 指定ClassLoader编译
mc -c 5a54a66 /tmp/UserController.java

redefine - 热加载

# 重新加载类
redefine /tmp/output/com/example/demo/arthas/user/UserController.class# 指定ClassLoader
redefine -c 5a54a66 /tmp/output/com/example/demo/arthas/user/UserController.class# 批量重新加载
redefine -p /tmp/output/

4.3 方法相关命令

monitor - 方法监控

# 监控方法执行情况
monitor -c 5 com.example.demo.arthas.user.UserController * # 匹配正则表达式方法 
monitor -c 5 com.example.demo.arthas.user.UserController get*# 监控异常统计
monitor -e -c 5 com.example.demo.arthas.user.UserController *# 监控匹配的构造函数
monitor -c 5 com.example.demo.arthas.user.UserController <init>

监控指标说明：

- timestamp: 时间戳
- class: 类名
- method: 方法名
- total: 调用次数
- success: 成功次数
- fail: 失败次数
- rt: 平均响应时间(ms)
- fail-rate: 失败率

watch - 方法观察

# 观察方法的入参和返回值
watch com.example.demo.arthas.user.UserController getUserById '{params, returnObj}' -x 3# 观察异常信息
watch com.example.demo.arthas.user.UserController getUserById '{params, throwExp}' -e -x 2# 观察入参和返回值，并按照条件过滤
watch com.example.demo.arthas.user.UserController getUserById '{params, returnObj}' 'params[0] > 100' -x 3# 观察入参和返回值，限制次数
watch com.example.demo.arthas.user.UserController getUserById '{params, returnObj}' '#cost > 10' -n 3# 按表达式过滤，只有耗时大于10ms的才会输出
watch com.example.demo.arthas.user.UserController getUserById '{params, returnObj, #cost}' '#cost > 10' -n 3 -x 3

watch支持的表达式工具类：

params：参数列表
returnObj：返回值
throwExp：抛出的异常
target：当前对象实例
clazz：当前类
method：当前方法
#cost：执行耗时

trace - 方法调用链分析

# 跟踪方法执行的调用链
trace com.example.demo.arthas.user.UserController getUserById# 指定最大展开层级
trace -j 2 com.example.demo.arthas.user.UserController getUserById# 按调用耗时过滤
trace com.example.demo.arthas.user.UserController getUserById '#cost > 10'# 只跟踪本地方法
trace --skipJDKMethod false com.example.demo.arthas.user.UserController getUserById

输出示例：

`---ts=2018-12-04 18:11:45;thread_name=http-nio-8080-exec-5;id=31;is_daemon=true;priority=5;TCCL=org.springframework.boot.web.embedded.tomcat.TomcatEmbeddedWebappClassLoader@6bc168e5`---[10.127743ms] com.example.demo.arthas.user.UserController:getUserById()+---[0.060919ms] com.example.demo.arthas.user.UserController:getUserById:before()`---[9.732368ms] com.example.demo.arthas.user.UserRepository:findById()`---[9.499895ms] org.hibernate.jpa.internal.EntityManagerImpl:find()`---[9.187044ms] org.hibernate.jpa.internal.EntityManagerImpl:find()

stack - 调用栈跟踪

# 查看调用来源
stack com.example.demo.arthas.user.UserController getUserById# 条件表达式过滤
stack com.example.demo.arthas.user.UserRepository findById 'params[0]==1'# 指定采样次数
stack -n 5 com.example.demo.arthas.user.UserController getUserById

tt - 方法执行时空隧道

tt命令记录方法执行的详细信息，支持回放。

# 记录方法执行过程
tt -t com.example.demo.arthas.user.UserController getUserById# 查看记录的调用信息
tt -l# 查看记录的详细信息
tt -i 1000# 重新执行一次调用
tt -i 1000 -p# 指定方法入参重新执行
tt -i 1000 -p '{params[0] = 2}'# 条件过滤
tt -t com.example.demo.arthas.user.UserController getUserById 'params[0]==1'

4.4 增强功能

profiler - 性能剖析

# 查看profiler支持的事件
profiler list# 开始采样，按CPU采样
profiler start# 指定采样事件
profiler start --event alloc# 指定文件输出格式(支持svg、html、jfr等)
profiler start --format html# 采样一段时间后停止
profiler stop# 将结果保存到指定文件
profiler stop --file /tmp/result.html# 支持火焰图
profiler start --event cpu --format svg
profiler stop --file /tmp/cpu.svg

vmtool - JVM工具

# 获取对象
vmtool --action getInstances --className java.lang.String --limit 10# 查看对象信息
vmtool --action getInstances --className com.example.demo.arthas.user.User --express 'instances[0].username'# 强制GC
vmtool --action forceGc

ognl - 执行OGNL表达式

# 获取静态字段
ognl '@com.example.demo.arthas.user.UserService@INSTANCE'# 调用静态方法
ognl '@java.lang.System@currentTimeMillis()'# 获取变量值
ognl '#user=@com.example.demo.arthas.user.UserController@userService.findById(1), #user.username'# 调用对象方法
ognl '#user=@com.example.demo.arthas.user.UserController@userService.findById(1), #user.setUsername("arthas"), #user'

5. 实战案例详解

5.1 CPU使用率过高问题分析

当应用CPU使用率异常升高时，使用Arthas可以快速定位问题：

实战步骤：

首先执行dashboard查看系统整体情况：
```
dashboard -n 10
```
发现有线程CPU使用率很高，执行thread命令查看线程状态：
```
# 查看占用CPU最高的3个线程
thread -n 3
```
定位到问题线程，查看其栈信息：
```
thread 16234
```

发现可疑方法，使用trace跟踪执行链路：

trace com.example.service.OrderService calculatePrice '#cost > 200'

使用profiler进行火焰图分析：

profiler start --event cpu
# 等待30秒
profiler stop --format svg --file /tmp/cpu.svg

5.2 内存泄漏分析

实战步骤：

首先执行dashboard和memory观察内存使用情况：

# 观察内存趋势
dashboard -i 5000# 查看详细内存信息
memory

发现Old区内存持续增长，使用heapdump导出堆内存：
```
heapdump --live /tmp/heap.hprof
```
使用MAT分析堆转储文件（离线分析）

根据MAT分析结果，定位到可疑类，使用vmtool查看实例：

vmtool --action getInstances --className com.example.cache.UserCache --limit 10

使用ognl查看对象详情：

ognl '#cache=@com.example.cache.UserCache@INSTANCE, #cache.cacheMap.size()'

使用watch监控可疑方法：

watch com.example.cache.UserCache put '{params, target.cacheMap.size()}' -x 3

5.3 线上修复Bug

实战步骤：

首先定位到问题代码，使用jad反编译：

jad --source-only com.example.service.OrderService > /tmp/OrderService.java

修改源代码，修复Bug：
```
vim /tmp/OrderService.java
```

使用mc编译修改后的代码：

mc -d /tmp/classes /tmp/OrderService.java

使用redefine热加载修改后的类：

redefine /tmp/classes/com/example/service/OrderService.class

使用watch验证修复效果：

watch com.example.service.OrderService calculatePrice '{params, returnObj}' -x 3

5.4 定位接口超时问题

实战步骤：

首先用trace跟踪超时接口：

trace com.example.controller.ApiController handleRequest '#cost > 1000'

发现有方法特别耗时，使用stack查看其调用来源：
```
stack com.example.service.RemoteService requestData
```

使用watch观察方法的入参和返回值：

watch com.example.service.RemoteService requestData '{params, returnObj, #cost}' -x 3

使用tt记录多次调用，分析变化趋势：

tt -t com.example.service.RemoteService requestData

回放某次执行，调试分析：
```
tt -i 1000 -p
```

6. 高级应用场景

6.1 Spring Boot应用诊断

诊断Spring应用的常用命令组合：

# 查找所有Controller
sc -d *Controller# 查看一个Bean的详细信息
ognl '#context=@org.springframework.web.context.support.WebApplicationContextUtils@getWebApplicationContext(#request.getServletContext()), #context.getBean("userService")'# 查找所有RequestMapping
ognl '#springContext=@org.springframework.web.context.ContextLoader@getCurrentWebApplicationContext(), #springContext.getBean("requestMappingHandlerMapping").getHandlerMethods().entrySet()' -x 2

6.2 动态日志调整

运行时调整日志级别是Arthas的强大功能：

# 查看logger信息
logger# 查看指定logger信息
logger -n org.springframework.web# 修改日志级别
logger --name org.springframework.web --level debug# 在方法调用时临时调高日志级别
watch com.example.service.UserService update '{params, returnObj}' -x 3 '#cost>100' 'logger:org.springframework.web:TRACE'

6.3 性能优化

对应用进行性能优化的常用方法：

# 查找热点类和方法
profiler start --event cpu
profiler stop --format html --file /tmp/cpu-profiler.html# 用watch命令观察方法执行次数与耗时
monitor -c 5 com.example.service.* *# 对比优化前后性能变化
tt -t com.example.service.OrderService calculatePrice
# 优化后
tt -t com.example.service.OrderService calculatePrice
tt -l

6.4 多应用实例问题

当有多个同类型应用实例时，如何诊断问题：

# 启动时选择特定实例
java -jar arthas-boot.jar --select "demo-app"# 设置唯一tunnel id
java -jar arthas-boot.jar --tunnel-server "ws://tunnel-server:7777/ws" --agent-id "app1_instance1"# 使用Web Console连接特定实例
http://tunnel-server:8080/arthas-web-console/index.html?agentId=app1_instance1

7. 最佳实践与注意事项

7.1 性能影响控制

Arthas虽然强大，但使用不当会影响线上系统性能：

避免长时间使用trace/watch等命令：

# 限制采样次数
trace -n 10 com.example.service.OrderService calculatePrice# 限制命令执行时间
trace --duration 30 com.example.service.OrderService calculatePrice

使用条件表达式过滤：

# 只监控耗时超过100ms的调用
trace com.example.service.OrderService calculatePrice '#cost > 100'

合理设置采样间隔：

# 增加采样间隔，降低对系统的影响
monitor -c 10 -i 5000 com.example.service.OrderService calculatePrice

7.2 安全措施

生产环境使用Arthas需注意以下安全事项：

设置访问认证：

java -jar arthas-boot.jar --username admin --password admin

使用tunnel server模式保证网络安全：

java -jar arthas-boot.jar --tunnel-server 'ws://tunnel-server:7777/ws'

限制命令使用：

java -jar arthas-boot.jar --exclude-commands=jad,mc,redefine

及时退出Arthas会话：

# 使用完后退出
quit# 完全退出，卸载Agent
stop

7.3 版本兼容性

Arthas的不同版本可能有命令差异，建议：

总是使用与JDK版本兼容的Arthas版本
定期更新Arthas到最新版本以获取bug修复和新功能
在测试环境验证Arthas命令后再在生产环境使用

7.4 与其他工具配合使用

Arthas可以与其他工具结合使用，形成完整的问题诊断体系：

与MAT配合分析内存问题
与JMC/JFR结合进行性能分析
与ELK结合进行日志分析
与APM工具结合进行全链路追踪

8. 总结

Arthas作为一款强大的Java诊断工具，通过Java Agent技术实现了对JVM运行时的深度观测和操控能力。它的优势在于：

无侵入性：不需要修改应用代码或重启应用
实时分析：能够动态获取运行时数据
功能丰富：从线程分析到字节码操作，覆盖了诊断需求
易于使用：命令行界面简单直观

掌握Arthas使你在面对复杂的Java生产环境问题时，能够像手术刀一样精准定位并解决问题，真正做到知其所以然。

在实际应用中，建议通过大量实践熟悉各个命令的使用场景和优缺点，形成自己的问题诊断方法论。通过不断实践，你会发现Arthas不仅是一个工具，更是一种解决问题的思路和方法。

查看全文

http://www.xdnf.cn/news/34291.html

opencv图像旋转(单点旋转的原理）

中国AIOps行业分析

[dp19_01背包] 目标和 | 最后一块石头的重量 II

AUTOSAR图解==＞AUTOSAR_SWS_IntrusionDetectionSystemManager

652SJBH动漫网站Cosplay

嵌入式芯片中的低功耗模式内容细讲

【NLP 66、实践 ⑰ 基于Agent + Prompt Engineering文章阅读】

linux socket编程之udp(实现客户端和服务端消息的发送和接收)

Springboot+vue3开发项目——热点事件

[特殊字符] 高质量 Java 综合题 × 10（附应用场景 + 多知识点考核）

Spring Boot常用注解全解析：从入门到实战

洛谷P1120 小木棍

《AI大模型应知应会100篇》第26篇：Chain-of-Thought：引导大模型进行步骤推理

94. 二叉树的中序遍历

Simulink中建立交流单项永磁同步电机模型教程

python——列表和元组

深入剖析 HashMap：内部结构与性能优化

Linux——进程概念

网络开发基础（游戏）之 Socket API

[Java EE] Spring 配置和日志

代码随想录训练营第35天 || 01背包问题 416. 分割等和子集

Vue基础(6)_键盘事件

玛哈特整平机：工业制造中的关键设备

Java 动态代理实现

Python scikit-learn 机器学习算法实践

【每天一个知识点】模式识别

MySQL进阶-存储过程-变量语法结构

C++用于保留浮点数的两位小数，使用宏定义方法（可兼容低版本Visual Studio）

JZ8P1533 充电型数字可编程控制器

200+短剧出海平台：谁能成为“海外红果”？

Arthas原理与实战指南

1. Arthas简介

2. 核心原理深度解析

2.1 Java Agent技术

2.2 Instrumentation API

2.3 JVM Attach机制

2.4 ASM字节码操作

2.5 命令处理引擎

3. 安装与启动详解

3.1 安装方式

3.2 启动选项详解

3.3 连接方式

4. 核心功能与命令详解

4.1 JVM相关命令

dashboard - 系统实时数据面板

jvm - JVM信息

thread - 线程分析

sysprop - 系统属性

heapdump - 堆转储

4.2 类相关命令

sc - 查找类

sm - 查找方法

jad - 反编译

mc - 内存编译

redefine - 热加载

4.3 方法相关命令

monitor - 方法监控

watch - 方法观察

trace - 方法调用链分析

stack - 调用栈跟踪

tt - 方法执行时空隧道

4.4 增强功能

profiler - 性能剖析

vmtool - JVM工具

ognl - 执行OGNL表达式

5. 实战案例详解

5.1 CPU使用率过高问题分析

5.2 内存泄漏分析

5.3 线上修复Bug

5.4 定位接口超时问题

6. 高级应用场景

6.1 Spring Boot应用诊断

6.2 动态日志调整

6.3 性能优化

6.4 多应用实例问题

7. 最佳实践与注意事项

7.1 性能影响控制

7.2 安全措施

7.3 版本兼容性

7.4 与其他工具配合使用

8. 总结

相关文章：