jmap执行失败了,怎么获取heapdump?

原创:扣钉日记(微信公众号ID:codelogs),欢迎分享,非公众号转载保留此声明。

在之前的OOM问题复盘中,我们添加了jmap脚本来自动dump内存现场,方便排查OOM问题。

但当我反复模拟OOM场景测试时,发现jmap有时可以dump成功,有时会报错,如下:
jmap_failed
经过网上一顿搜索,发现两种原因可能导致这个问题,一是执行jmap用户与jvm进程用户不一致,二是/tmp/.java_pidXXX文件被删除,但经过检查,这都不是我们jmap失败的原因。

经过了解,jmap导出内存的原理,大致如下:
jmap

  1. 如果jvm进程id是8255,jmap会先创建一个/tmp/.java_pid8255文件,然后发送SIGQUIT信号给jvm。
  2. jvm收到信号后启动AttachListener线程,以UNIX domain socket的形式监听/tmp/.java_pid8255文件,以接收命令。
  3. jmap也以UNIX domain socket的形式连接上/tmp/.java_pid8255文件,并发送dumpheap命令给jvm,这个过程中jvm会检查命令发送方用户的euid/egid是否与自己一致。
  4. AttachListener线程收到dumpheap命令后,等到JVM进入Safepoint后,执行HeapDumper操作以导出heap.hprof文件。

可以看出,当jvm已经卡死,或有长时间的GC正在Safepoint中执行,都会导致jmap长时间读不到命令的响应而超时失败!

使用jmap -F

当给jmap添加-F参数时,jmap会使用Linux的ptrace机制来导出堆内存,ptrace是Linux平台的一种调试机制,像strace、gdb都是基于它开发的,它使得调试进程(jmap)可以直接读取被调试进程(jvm)的原生内存,然后jmap再根据jvm的内存布局规范,将原生内存转换为hprof格式。

但在实际执行时,会发现jmap -F执行得非常慢,可能要几个小时,这是因为ptrace每次只能读一个字的内存,而我们的堆有10G,因此jmap -F对于我们几乎无法使用。

注:这里说的原生程序,指的是类似于C/C++这种直接编译出来、不需要依赖语言虚拟机的程序,而原生内存,指的是通过malloc或mmap等直接申请出来的内存。

使用gcore

有过Linux下原生程序调试经验的,应该会知道gcore这个实用工具,它可用来生成程序原生内存的core文件,然后jstack、jmap等都可以读取此类文件,如下:

# 生成core文件,8787是进程号
$ gcore -o core 8787
Saved corefile core.8787
[Inferior 1 (process 8787) detached]

$ ll -lh core.8787
-rw-r--r-- 1 work work 5.8G 2023-04-16 11:40:00 core.8787

# 从core文件中读取线程栈
$ jstack `which java` core.8787

# 将core文件转换为hprof文件,很慢,建议摘流量后执行
$ jmap -dump:format=b,file=heap.hprof `which java` core.8787

但是当我使用jmap转换core文件时,我发现我本机测试时可以成功,但在测试服务器上却一直报错,如下:
core_to_hprof_fail
我网上找了好久,都没找到报此错误的原因...

但我发现gcore执行时,是有一些警告信息的,如下:
gcore_warn
看起来可能是gcore导出的core文件不全,联想到jvm部署在容器中,怀疑是有某些权限限制,导致部分程序内存导出失败了。

使用Linux内核的coredump机制

除了gcore可以导原生内存,其实Linux内核也有自动的coredump机制,即进程在收到某些信号后,会自动触发内核的coredump机制,内核会负责将进程的原生内存保存为core文件,而内核一般是最高权限运行的,所以它生成的core文件应该是完整的。

先开启coredump机制,如下:

# 检查是否开启,输出unlimited表示core文件不受限制,即完全开启
$ ulimit -c

# 临时开启coredump
$ ulimit -c unlimited

# 永久开启
$ echo "ulimit -c unlimited" >> /etc/profile

然后,配置一下coredump文件保存位置,如下:

# 查看当前配置
$ cat /proc/sys/kernel/core_pattern
/home/core/core.%e.%p.%t

# 配置coredump文件保存位置,并使其生效
$ vi /etc/sysctl.conf
kernel.core_pattern=/home/core/core.%e.%p.%t
$ sysctl –p /etc/sysctl.conf

core_pattern占位符解释

占位符 解释
%p pid
%u uid
%g gid
%s signal number
%t UNIX time of dump
%h hostname
%e executable filename

注:如果没有权限修改core_pattern路径,可考虑使用软链接ln -s做路径跳转,当然,还需要保证coredump路径有写入权限。

配置ok后,可通过kill发送信号来触发内核coredump,可触发coredump的常见信号如下:

  • SIGQUIT 数值2 从键盘输入Ctrl+'\'可以产生此信号
  • SIGILL 数值4 非法指令
  • SIGABRT 数值6 abort调用
  • SIGSEGV 数值11 非法内存访问
  • SIGTRAP 数值5 调试程序时使用的断点

我选择了SIGABRT信号,即kill -6,经过验证,可生成core文件,而且core文件也能被jmap转换为hprof文件。

有了hprof文件,就可以愉快地使用MAT、JVisualVM、JMC等工具进行内存分析啦?

原文链接:https://www.cnblogs.com/codelogs/p/17323197.html

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:jmap执行失败了,怎么获取heapdump? - Python技术站

(0)
上一篇 2023年4月17日
下一篇 2023年4月17日

相关文章

  • win10 64位 jdk1.8的方法教程详解

    Win10 64位 JDK1.8的安装方法教程详解 1. 下载JDK 首先,你需要在Oracle官网下载JDK1.8的安装包。你可以通过以下链接进入下载界面:Java SE Development Kit 8 Downloads。在下载页面中,你需要同意许可协议并选择适合你的操作系统的版本进行下载。 2. 安装JDK 安装JDK很简单。按照以下步骤操作即可:…

    Java 2023年5月30日
    00
  • Hibernate对数据库删除、查找、更新操作实例代码

    下面就是详细讲解 Hibernate 对数据库删除、查找、更新操作实例代码的完整攻略。 什么是 Hibernate Hibernate 是一个开源的、高性能的 Java ORM(对象关系映射)框架。它可以让我们通过面向对象的方式进行数据库操作,避免了 SQL 语句难以管理和维护的问题。 使用Hibernate,我们可以通过定义 Java 类与数据库表的映射关…

    Java 2023年5月19日
    00
  • Java中的IllegalStateException是什么?

    Java中的IllegalStateException 在Java编程中,当我们的应用程序处于不适合执行给定操作的状态时,会抛出IllegalStateException。 通俗一点讲,即在方法调用之前或之后进行检查,如果当前对象状态无法支持这种方法调用,则抛出IllegalStateException异常。 何时会抛出IllegalStateExcepti…

    Java 2023年4月27日
    00
  • Intellij IDEA 2020.3 配置教程详解

    Intellij IDEA 2020.3 配置教程详解 Intellij IDEA 是一款强大的 Java 集成开发环境(IDE),提供了丰富的编辑工具、代码分析功能与调试工具,适合 Java 开发者使用。在开始使用 Intellij IDEA 之前,需要对它进行一些配置。本教程将详细讲解 Intellij IDEA 2020.3 的配置过程,包括如何配置 …

    Java 2023年5月20日
    00
  • java的Hibernate框架报错“TypeMismatchException”的原因和解决方法

    当使用Java的Hibernate框架时,可能会遇到“TypeMismatchException”错误。这个错误通常是由于以下原因之一引起的: 数据类型不匹配:如果您的数据类型不匹配,则可能会出现此错误。在这种情况下,需要检查您的数据类型以解决此问题。 数据库表结构不匹配:如果您的数据库表结构不匹配,则可能会出现此错误。在这种情况下,需要检查您的数据库表结构…

    Java 2023年5月4日
    00
  • SpringBoot与spring security的结合的示例

    首先,Spring Security 是基于 Spring 框架的安全模块,可以帮助开发者为 Web 应用程序提供安全认证和授权功能。而 Spring Boot 是基于 Spring 框架的快速开发应用程序的框架。结合两者,可以快速搭建安全可靠的 Web 应用。下面,将详细讲解结合的示例: 环境准备 首先,需要准备好以下环境: JDK 8 或 11 Mave…

    Java 2023年5月20日
    00
  • java.lang.NullPointerException出现的几种原因及解决方案

    Java.lang.NullPointerException出现的几种原因及解决方案 简介 Java.lang.NullPointerException是Java程序中常见的运行时异常,一般会出现在调用空对象的方法或属性时。出现该异常的原因较为多样,本文将介绍其中几种常见的原因,并提出对应的解决方案,以帮助程序开发者快速解决问题。 原因和解决方案 1. 调用…

    Java 2023年5月27日
    00
  • Java对象的销毁过程是什么?

    Java对象的销毁过程即垃圾回收过程,在Java语言中由垃圾回收器自动处理。当对象不再被引用时,就会进入垃圾回收流程,最终被回收。下面是对Java对象销毁过程的详细讲解。 对象生命周期 Java对象从创建到销毁的过程称为对象的生命周期。在Java中,对象的生命周期有三个阶段:创建阶段、使用阶段和回收阶段。 在创建阶段,对象被分配在堆上,成为可达对象。 在使用…

    Java 2023年5月11日
    00
合作推广
合作推广
分享本页
返回顶部