当前位置: 首页 > news >正文

java怎么找bug?Arthas原理与实战指南

Arthas原理与实战指南

1. Arthas简介

Arthas是阿里巴巴开源的Java诊断工具,其名字取自《魔兽世界》的人物阿尔萨斯。它面向线上问题定位,被广泛应用于性能分析、定位问题、安全审计等场景。Arthas的核心价值在于它能够在不修改应用代码、不重启Java进程的情况下,实时动态地监控和分析运行中的Java程序。

Arthas支持JDK 6+,支持Linux/Mac/Windows,采用命令行交互模式,同时提供丰富的Tab自动补全功能。

2. 核心原理深度解析

2.1 Java Agent技术

Arthas基于Java Agent技术,Java Agent是JDK 1.5引入的一种能够在不修改Java源代码的情况下,动态修改Java字节码的技术。

Java Agent通过以下两种方式工作:

  • 静态加载:通过JVM启动参数-javaagent指定
  • 动态加载:通过Attach API动态附加到运行中的JVM

Arthas采用了动态加载的方式,使其能够在Java应用运行过程中被加载。

Arthas工作原理
Java Agent
Instrumentation API
premain方法/agentmain方法
类字节码转换
JVM Attach机制
VirtualMachine.attach
loadAgent方法
字节码操作
ASM库
动态代理
命令处理框架
命令解析
命令执行
结果输出

2.2 Instrumentation API

Java的java.lang.instrument包提供了一套API,允许Java Agent程序修改已加载的类的字节码。Arthas利用这一API来实现类和方法的监控和分析。

关键接口和类:

  • Instrumentation:提供注册类文件转换器、获取所有已加载类等功能
  • ClassFileTransformer:类文件转换器,用于修改类的字节码
  • Agent:Agent程序的入口点,通过premainagentmain方法启动

2.3 JVM Attach机制

Attach机制允许一个JVM进程连接到另一个JVM进程,实现进程间通信。Arthas使用该机制动态加载Agent到目标JVM中。

核心实现在com.sun.tools.attach包中,关键类有:

  • VirtualMachine:代表一个JVM进程
  • VirtualMachineDescriptor:JVM进程的描述信息

2.4 ASM字节码操作

Arthas使用ASM库操作Java字节码,通过修改字节码来实现方法拦截、监控等功能。ASM是一个轻量级的字节码操作框架,能够动态生成和修改Java字节码。

字节码转换过程:

  1. 读取原始类字节码
  2. 使用ASM分析字节码结构
  3. 修改字节码(如添加方法入口/出口的监控代码)
  4. 返回修改后的字节码

2.5 命令处理引擎

Arthas采用命令行交互方式,内部实现了一套完整的命令处理引擎:

  • 命令解析:将用户输入解析为命令对象
  • 命令执行:根据命令执行相应操作
  • 结果渲染:将执行结果格式化输出

3. 安装与启动详解

3.1 安装方式

方式一:使用arthas-boot(推荐)

# 下载启动脚本
curl -O https://arthas.aliyun.com/arthas-boot.jar# 启动
java -jar arthas-boot.jar

方式二:使用全量包

# 下载全量包
curl -O https://arthas.aliyun.com/arthas-packaging.jar# 解压
java -jar arthas-packaging.jar# 启动
cd arthas
./arthas.sh

方式三:使用as.sh

# 下载并安装
curl -L https://arthas.aliyun.com/install.sh | sh# 启动
./as.sh

3.2 启动选项详解

启动Arthas时,可以指定多种参数:

# 指定目标Java进程
java -jar arthas-boot.jar [PID]# 指定目标进程名称的关键字
java -jar arthas-boot.jar --select JAVA_HOME# 启动时禁用某些命令
java -jar arthas-boot.jar --exclude-commands=jvm,thread# 指定端口号
java -jar arthas-boot.jar --telnet-port 9998 --http-port 9999# 以批处理模式执行命令
java -jar arthas-boot.jar --command "thread" -c "thread" > output.txt

3.3 连接方式

Arthas提供多种连接方式:

  1. 本地命令行模式
    直接在启动终端操作

  2. Telnet连接

    telnet 127.0.0.1 3658
    
  3. WebSocket连接
    通过浏览器访问http://127.0.0.1:8563/

  4. HTTP API

    curl http://127.0.0.1:8563/api
    

4. 核心功能与命令详解

4.1 JVM相关命令

dashboard - 系统实时数据面板

提供系统整体情况的实时数据,包括线程、内存、GC、运行环境等信息。

# 每5秒刷新一次
dashboard -i 5000# 只显示前10个线程
dashboard -n 10

输出示例:

ID     NAME                   GROUP                  PRIORITY  STATE    %CPU     DELTA_TIME TIME     INTERRUPTED DAEMON
17     pool-2-thread-1        main                   5         RUNNABLE 27       0.136      0:0.203  false       false
21     pool-2-thread-5        main                   5         RUNNABLE 26       0.132      0:0.096  false       false
22     pool-2-thread-6        main                   5         RUNNABLE 26       0.132      0:0.097  false       false
......Memory                    used    total    max      usage    GC
heap                      32M     155M     1820M    1.76%    gc.ps_scavenge.count              118
ps_eden_space             14M     65M      672M     2.21%    gc.ps_scavenge.time(ms)           1890
ps_survivor_space         4M      5M       5M       81.92%   gc.ps_marksweep.count             5
ps_old_gen                12M     85M      1365M    0.91%    gc.ps_marksweep.time(ms)          1140
jvm - JVM信息
# 显示JVM信息
jvm# 同时显示ClassLoader信息
jvm -c

输出包含:

  • Java运行时版本与厂商
  • JVM参数
  • 类加载统计
  • JVM内存区域使用情况
  • 垃圾收集器信息
  • 操作系统和硬件信息
thread - 线程分析
# 显示所有线程
thread# 查看指定线程的栈信息
thread 1# 查看最忙的前3个线程栈
thread -n 3# 查看阻塞其他线程的线程
thread -b# 查找指定状态的线程
thread --state BLOCKED# 线程池信息
thread -i

线程池参数解析:

- corePoolSize: 核心线程数
- maximumPoolSize: 最大线程数
- keepAliveTime: 线程存活时间
- queueCapacity: 队列容量
- taskCount: 已执行和未执行的任务总数
- completedTaskCount: 已完成的任务数
- largestPoolSize: 历史最大线程数
- poolSize: 当前线程数
- activeCount: 当前活动线程数
sysprop - 系统属性
# 查看所有系统属性
sysprop# 查看指定属性
sysprop java.version# 设置系统属性
sysprop user.country US
heapdump - 堆转储
# 生成堆转储文件到指定路径
heapdump /tmp/dump.hprof# 只转储活着的对象
heapdump --live /tmp/dump.hprof

4.2 类相关命令

sc - 查找类
# 模糊查找类
sc *List*# 查找指定类的详细信息
sc -d java.util.ArrayList# 查找类的方法信息
sc -d -f java.util.ArrayList# 显示类加载器信息
sc -c -d java.util.ArrayList# 指定类加载器查找
sc -c classLoaderHash *MathGame*
sm - 查找方法
# 查找类的所有方法
sm java.util.ArrayList# 查找方法的详细信息
sm -d java.util.ArrayList add# 正则匹配方法
sm java.util.ArrayList "add|remove"
jad - 反编译
# 反编译指定类
jad com.example.demo.arthas.user.UserController# 指定反编译结果输出路径
jad --source-only com.example.demo.arthas.user.UserController > /tmp/UserController.java# 只反编译指定的方法
jad com.example.demo.arthas.user.UserController getUserById
mc - 内存编译
# 编译指定Java文件
mc /tmp/UserController.java# 指定输出目录
mc -d /tmp/output /tmp/UserController.java# 指定ClassLoader编译
mc -c 5a54a66 /tmp/UserController.java
redefine - 热加载
# 重新加载类
redefine /tmp/output/com/example/demo/arthas/user/UserController.class# 指定ClassLoader
redefine -c 5a54a66 /tmp/output/com/example/demo/arthas/user/UserController.class# 批量重新加载
redefine -p /tmp/output/

4.3 方法相关命令

monitor - 方法监控
# 监控方法执行情况
monitor -c 5 com.example.demo.arthas.user.UserController * # 匹配正则表达式方法 
monitor -c 5 com.example.demo.arthas.user.UserController get*# 监控异常统计
monitor -e -c 5 com.example.demo.arthas.user.UserController *# 监控匹配的构造函数
monitor -c 5 com.example.demo.arthas.user.UserController <init>

监控指标说明:

- timestamp: 时间戳
- class: 类名
- method: 方法名
- total: 调用次数
- success: 成功次数
- fail: 失败次数
- rt: 平均响应时间(ms)
- fail-rate: 失败率
watch - 方法观察
# 观察方法的入参和返回值
watch com.example.demo.arthas.user.UserController getUserById '{params, returnObj}' -x 3# 观察异常信息
watch com.example.demo.arthas.user.UserController getUserById '{params, throwExp}' -e -x 2# 观察入参和返回值,并按照条件过滤
watch com.example.demo.arthas.user.UserController getUserById '{params, returnObj}' 'params[0] > 100' -x 3# 观察入参和返回值,限制次数
watch com.example.demo.arthas.user.UserController getUserById '{params, returnObj}' '#cost > 10' -n 3# 按表达式过滤,只有耗时大于10ms的才会输出
watch com.example.demo.arthas.user.UserController getUserById '{params, returnObj, #cost}' '#cost > 10' -n 3 -x 3

watch支持的表达式工具类:

  • params:参数列表
  • returnObj:返回值
  • throwExp:抛出的异常
  • target:当前对象实例
  • clazz:当前类
  • method:当前方法
  • #cost:执行耗时
trace - 方法调用链分析
# 跟踪方法执行的调用链
trace com.example.demo.arthas.user.UserController getUserById# 指定最大展开层级
trace -j 2 com.example.demo.arthas.user.UserController getUserById# 按调用耗时过滤
trace com.example.demo.arthas.user.UserController getUserById '#cost > 10'# 只跟踪本地方法
trace --skipJDKMethod false com.example.demo.arthas.user.UserController getUserById

输出示例:

`---ts=2018-12-04 18:11:45;thread_name=http-nio-8080-exec-5;id=31;is_daemon=true;priority=5;TCCL=org.springframework.boot.web.embedded.tomcat.TomcatEmbeddedWebappClassLoader@6bc168e5`---[10.127743ms] com.example.demo.arthas.user.UserController:getUserById()+---[0.060919ms] com.example.demo.arthas.user.UserController:getUserById:before()`---[9.732368ms] com.example.demo.arthas.user.UserRepository:findById()`---[9.499895ms] org.hibernate.jpa.internal.EntityManagerImpl:find()`---[9.187044ms] org.hibernate.jpa.internal.EntityManagerImpl:find()
stack - 调用栈跟踪
# 查看调用来源
stack com.example.demo.arthas.user.UserController getUserById# 条件表达式过滤
stack com.example.demo.arthas.user.UserRepository findById 'params[0]==1'# 指定采样次数
stack -n 5 com.example.demo.arthas.user.UserController getUserById
tt - 方法执行时空隧道

tt命令记录方法执行的详细信息,支持回放。

# 记录方法执行过程
tt -t com.example.demo.arthas.user.UserController getUserById# 查看记录的调用信息
tt -l# 查看记录的详细信息
tt -i 1000# 重新执行一次调用
tt -i 1000 -p# 指定方法入参重新执行
tt -i 1000 -p '{params[0] = 2}'# 条件过滤
tt -t com.example.demo.arthas.user.UserController getUserById 'params[0]==1'

4.4 增强功能

profiler - 性能剖析
# 查看profiler支持的事件
profiler list# 开始采样,按CPU采样
profiler start# 指定采样事件
profiler start --event alloc# 指定文件输出格式(支持svg、html、jfr等)
profiler start --format html# 采样一段时间后停止
profiler stop# 将结果保存到指定文件
profiler stop --file /tmp/result.html# 支持火焰图
profiler start --event cpu --format svg
profiler stop --file /tmp/cpu.svg
vmtool - JVM工具
# 获取对象
vmtool --action getInstances --className java.lang.String --limit 10# 查看对象信息
vmtool --action getInstances --className com.example.demo.arthas.user.User --express 'instances[0].username'# 强制GC
vmtool --action forceGc
ognl - 执行OGNL表达式
# 获取静态字段
ognl '@com.example.demo.arthas.user.UserService@INSTANCE'# 调用静态方法
ognl '@java.lang.System@currentTimeMillis()'# 获取变量值
ognl '#user=@com.example.demo.arthas.user.UserController@userService.findById(1), #user.username'# 调用对象方法
ognl '#user=@com.example.demo.arthas.user.UserController@userService.findById(1), #user.setUsername("arthas"), #user'

5. 实战案例详解

5.1 CPU使用率过高问题分析

当应用CPU使用率异常升高时,使用Arthas可以快速定位问题:

用户 Arthas JVM 1. 执行dashboard命令观察系统情况 获取线程和CPU信息 返回高CPU线程信息 2. 执行thread -n 3命令查看最繁忙线程 获取繁忙线程栈 返回线程栈信息 3. 执行thread [threadId]查看具体线程栈 获取指定线程详细信息 返回线程详细信息 4. 执行trace命令跟踪热点方法 开始方法调用链跟踪 返回方法调用耗时 5. 执行profiler命令进行性能剖析 开始CPU采样 返回CPU采样结果 用户 Arthas JVM

实战步骤

  1. 首先执行dashboard查看系统整体情况:

    dashboard -n 10
    
  2. 发现有线程CPU使用率很高,执行thread命令查看线程状态:

    # 查看占用CPU最高的3个线程
    thread -n 3
    
  3. 定位到问题线程,查看其栈信息:

    thread 16234
    
  4. 发现可疑方法,使用trace跟踪执行链路:

    trace com.example.service.OrderService calculatePrice '#cost > 200'
    
  5. 使用profiler进行火焰图分析:

    profiler start --event cpu
    # 等待30秒
    profiler stop --format svg --file /tmp/cpu.svg
    

5.2 内存泄漏分析

持续上升
偶发暴涨
内存泄漏问题
观察JVM内存趋势
使用dashboard命令
使用heapdump导出堆内存
使用MAT分析堆转储文件
使用watch观察可疑方法
使用vmtool查看对象实例
定位问题对象

实战步骤

  1. 首先执行dashboardmemory观察内存使用情况:

    # 观察内存趋势
    dashboard -i 5000# 查看详细内存信息
    memory
    
  2. 发现Old区内存持续增长,使用heapdump导出堆内存:

    heapdump --live /tmp/heap.hprof
    
  3. 使用MAT分析堆转储文件(离线分析)

  4. 根据MAT分析结果,定位到可疑类,使用vmtool查看实例:

    vmtool --action getInstances --className com.example.cache.UserCache --limit 10
    
  5. 使用ognl查看对象详情:

    ognl '#cache=@com.example.cache.UserCache@INSTANCE, #cache.cacheMap.size()'
    
  6. 使用watch监控可疑方法:

    watch com.example.cache.UserCache put '{params, target.cacheMap.size()}' -x 3
    

5.3 线上修复Bug

发现线上Bug
使用jad反编译
修改代码
使用mc编译
使用redefine热加载
验证问题是否修复

实战步骤

  1. 首先定位到问题代码,使用jad反编译:

    jad --source-only com.example.service.OrderService > /tmp/OrderService.java
    
  2. 修改源代码,修复Bug:

    vim /tmp/OrderService.java
    
  3. 使用mc编译修改后的代码:

    mc -d /tmp/classes /tmp/OrderService.java
    
  4. 使用redefine热加载修改后的类:

    redefine /tmp/classes/com/example/service/OrderService.class
    
  5. 使用watch验证修复效果:

    watch com.example.service.OrderService calculatePrice '{params, returnObj}' -x 3
    

5.4 定位接口超时问题

用户 Arthas JVM 执行trace命令跟踪接口调用链 开始调用链跟踪 返回方法调用耗时 找到耗时长的方法,使用stack查看调用来源 获取方法调用栈 返回调用栈信息 使用watch命令观察方法执行 监控方法执行 返回方法入参和执行结果 使用tt命令记录执行历史 记录方法调用 保存调用记录 用户 Arthas JVM

实战步骤

  1. 首先用trace跟踪超时接口:

    trace com.example.controller.ApiController handleRequest '#cost > 1000'
    
  2. 发现有方法特别耗时,使用stack查看其调用来源:

    stack com.example.service.RemoteService requestData
    
  3. 使用watch观察方法的入参和返回值:

    watch com.example.service.RemoteService requestData '{params, returnObj, #cost}' -x 3
    
  4. 使用tt记录多次调用,分析变化趋势:

    tt -t com.example.service.RemoteService requestData
    
  5. 回放某次执行,调试分析:

    tt -i 1000 -p
    

6. 高级应用场景

6.1 Spring Boot应用诊断

诊断Spring应用的常用命令组合:

# 查找所有Controller
sc -d *Controller# 查看一个Bean的详细信息
ognl '#context=@org.springframework.web.context.support.WebApplicationContextUtils@getWebApplicationContext(#request.getServletContext()), #context.getBean("userService")'# 查找所有RequestMapping
ognl '#springContext=@org.springframework.web.context.ContextLoader@getCurrentWebApplicationContext(), #springContext.getBean("requestMappingHandlerMapping").getHandlerMethods().entrySet()' -x 2

6.2 动态日志调整

运行时调整日志级别是Arthas的强大功能:

# 查看logger信息
logger# 查看指定logger信息
logger -n org.springframework.web# 修改日志级别
logger --name org.springframework.web --level debug# 在方法调用时临时调高日志级别
watch com.example.service.UserService update '{params, returnObj}' -x 3 '#cost>100' 'logger:org.springframework.web:TRACE'

6.3 性能优化

对应用进行性能优化的常用方法:

# 查找热点类和方法
profiler start --event cpu
profiler stop --format html --file /tmp/cpu-profiler.html# 用watch命令观察方法执行次数与耗时
monitor -c 5 com.example.service.* *# 对比优化前后性能变化
tt -t com.example.service.OrderService calculatePrice
# 优化后
tt -t com.example.service.OrderService calculatePrice
tt -l

6.4 多应用实例问题

当有多个同类型应用实例时,如何诊断问题:

# 启动时选择特定实例
java -jar arthas-boot.jar --select "demo-app"# 设置唯一tunnel id
java -jar arthas-boot.jar --tunnel-server "ws://tunnel-server:7777/ws" --agent-id "app1_instance1"# 使用Web Console连接特定实例
http://tunnel-server:8080/arthas-web-console/index.html?agentId=app1_instance1

7. 最佳实践与注意事项

7.1 性能影响控制

Arthas虽然强大,但使用不当会影响线上系统性能:

  1. 避免长时间使用trace/watch等命令

    # 限制采样次数
    trace -n 10 com.example.service.OrderService calculatePrice# 限制命令执行时间
    trace --duration 30 com.example.service.OrderService calculatePrice
    
  2. 使用条件表达式过滤

    # 只监控耗时超过100ms的调用
    trace com.example.service.OrderService calculatePrice '#cost > 100'
    
  3. 合理设置采样间隔

    # 增加采样间隔,降低对系统的影响
    monitor -c 10 -i 5000 com.example.service.OrderService calculatePrice
    

7.2 安全措施

生产环境使用Arthas需注意以下安全事项:

  1. 设置访问认证

    java -jar arthas-boot.jar --username admin --password admin
    
  2. 使用tunnel server模式保证网络安全

    java -jar arthas-boot.jar --tunnel-server 'ws://tunnel-server:7777/ws'
    
  3. 限制命令使用

    java -jar arthas-boot.jar --exclude-commands=jad,mc,redefine
    
  4. 及时退出Arthas会话

    # 使用完后退出
    quit# 完全退出,卸载Agent
    stop
    

7.3 版本兼容性

Arthas的不同版本可能有命令差异,建议:

  1. 总是使用与JDK版本兼容的Arthas版本
  2. 定期更新Arthas到最新版本以获取bug修复和新功能
  3. 在测试环境验证Arthas命令后再在生产环境使用

7.4 与其他工具配合使用

Arthas可以与其他工具结合使用,形成完整的问题诊断体系:

  1. 与MAT配合分析内存问题
  2. 与JMC/JFR结合进行性能分析
  3. 与ELK结合进行日志分析
  4. 与APM工具结合进行全链路追踪

8. 总结

Arthas作为一款强大的Java诊断工具,通过Java Agent技术实现了对JVM运行时的深度观测和操控能力。它的优势在于:

  1. 无侵入性:不需要修改应用代码或重启应用
  2. 实时分析:能够动态获取运行时数据
  3. 功能丰富:从线程分析到字节码操作,覆盖了诊断需求
  4. 易于使用:命令行界面简单直观

掌握Arthas使你在面对复杂的Java生产环境问题时,能够像手术刀一样精准定位并解决问题,真正做到知其所以然。

在实际应用中,建议通过大量实践熟悉各个命令的使用场景和优缺点,形成自己的问题诊断方法论。通过不断实践,你会发现Arthas不仅是一个工具,更是一种解决问题的思路和方法。

http://www.xdnf.cn/news/34291.html

相关文章:

  • opencv图像旋转(单点旋转的原理)
  • 中国AIOps行业分析
  • [dp19_01背包] 目标和 | 最后一块石头的重量 II
  • AUTOSAR图解==>AUTOSAR_SWS_IntrusionDetectionSystemManager
  • 652SJBH动漫网站Cosplay
  • 嵌入式芯片中的 低功耗模式 内容细讲
  • 【NLP 66、实践 ⑰ 基于Agent + Prompt Engineering文章阅读】
  • linux socket编程之udp(实现客户端和服务端消息的发送和接收)
  • Springboot+vue3开发项目——热点事件
  • [特殊字符] 高质量 Java 综合题 × 10(附应用场景 + 多知识点考核)
  • Spring Boot常用注解全解析:从入门到实战
  • 洛谷P1120 小木棍
  • 《AI大模型应知应会100篇》第26篇:Chain-of-Thought:引导大模型进行步骤推理
  • 94. 二叉树的中序遍历
  • Simulink中建立交流单项永磁同步电机模型教程
  • python——列表和元组
  • 深入剖析 HashMap:内部结构与性能优化
  • Linux——进程概念
  • 网络开发基础(游戏)之 Socket API
  • [Java EE] Spring 配置 和 日志
  • 代码随想录训练营第35天 || 01背包问题 416. 分割等和子集
  • Vue基础(6)_键盘事件
  • 玛哈特整平机:工业制造中的关键设备
  • Java 动态代理实现
  • Python scikit-learn 机器学习算法实践
  • 【每天一个知识点】模式识别
  • MySQL进阶-存储过程-变量语法结构
  • C++用于保留浮点数的两位小数,使用宏定义方法(可兼容低版本Visual Studio)
  • JZ8P1533 充电型数字可编程控制器
  • 200+短剧出海平台:谁能成为“海外红果”?