Linux程序员解决程序崩溃的问题

标签：文件 00 程序转储程序员内存 Linux 崩溃

Linux程序员解决程序崩溃的问题

1. 引言

嘿，各位程序员小伙伴们！你们是否曾经遇到过程序突然“跑路”崩溃的情况？是不是觉得那一刻就像被一只无形的手拍在了脑门上，整个人都懵了？别担心，今天我们就来聊聊如何像侦探一样追查程序崩溃的真相，让你的代码更加坚不可摧！

2. 程序崩溃的常见原因

要解决程序崩溃的问题，首先得知道它们是怎么“翻车”的。下面是一些常见的罪魁祸首：

2.1 内存错误

内存问题几乎是程序崩溃的“头号杀手”，尤其是在低级语言如 C、C++ 中。

非法访问：
程序试图读取或写入无权限访问的内存，比如通过空指针（NULL 指针）解引用或访问已释放的内存区域。
例子：
```
int *ptr = NULL;  
*ptr = 10;  // 触发段错误
```
越界访问：
访问数组或缓冲区时超出其合法范围。例如，你申请了 100 个字节的内存，却尝试访问第 101 个字节。
例子：
```
int arr[5];  
arr[5] = 10;  // 越界访问，导致未定义行为
```
未初始化变量：
使用未初始化的指针或变量，可能导致指向随机内存区域，从而引发崩溃。
例子：
```
int *p;  
*p = 42;  // 未初始化指针，导致崩溃
```
双重释放：
程序释放了一块内存后再次释放，会导致程序崩溃。
例子：
```
free(ptr);  
free(ptr);  // 第二次释放会引发错误
```

2.2 资源耗尽

系统资源有限，当程序消耗过多资源时，可能导致崩溃。

内存泄漏：
程序不断分配内存却从未释放，导致内存逐渐耗尽。长时间运行的程序尤其容易遇到这种情况。
工具：valgrind 是一个很好的工具，用于检测内存泄漏。
例子：
```
void leak() {  
    char *p = malloc(100);  
    // 忘记 free(p);  
}
```
文件描述符耗尽：
每个进程能打开的文件数是有限的，过多的文件或套接字未关闭，会耗尽文件描述符，导致程序崩溃。
解决方案：及时关闭不再使用的文件或套接字。
例子：
```
int fd = open("file.txt", O_RDONLY);  
// 忘记 close(fd);
```
句柄泄漏（Handle Leak）：
不仅仅是文件描述符，其他资源如线程、互斥锁等未正确释放也会导致句柄泄漏。

2.3 非法指令或段错误

段错误（Segmentation Fault）：
访问无效的内存地址时，操作系统会触发段错误，导致程序崩溃。这通常是由于空指针、野指针或非法内存访问引起的。
非法指令：
程序尝试执行一条无效或未定义的 CPU 指令，通常由函数指针错误或数据被错误解读为代码导致。

2.4 系统限制和环境问题

文件系统权限问题：
程序尝试访问一个没有权限的文件或目录，导致失败甚至崩溃。
解决方案：检查文件权限，确保程序有读写权限。
系统资源限制：
系统对资源有多种限制，包括：
- 最大打开文件数限制 (ulimit -n)。
- 最大堆栈大小限制 (ulimit -s)。
- 最大进程数限制 (ulimit -u)。

2.5 并发和多线程问题

多线程程序中的竞争条件、死锁等问题也可能导致崩溃。

竞争条件：
多个线程访问共享资源时未正确同步，可能导致数据不一致甚至崩溃。
例子：
```
// 线程A和线程B同时访问共享变量x，未加锁
```
死锁：
两个或多个线程互相等待对方释放资源，导致程序卡死或崩溃。
解决方案：使用超时机制或避免嵌套锁。

2.6 外部依赖问题

程序依赖的库或服务异常也可能导致崩溃。

动态链接库问题：
运行时找不到所需的共享库（如 libc.so），导致程序启动失败。
网络服务不可用：
程序依赖的远程服务不可用，导致程序无法继续运行。
解决方案：增加重试机制和容错处理。

2.7 未处理的异常

未捕获的异常：
在 C++ 等语言中，若异常未被捕获，会导致程序终止。
解决方案：使用 try-catch 块捕获异常。

3. 定位程序崩溃位置的方法

如果你能在开发环境中很容易复现程序崩溃的场景, 最简单的方法是直接使用gdb启动程序, 崩溃时gdb会自动定位到崩溃的位置。但是在生产环境中我们往往没有这样的条件，这时下面的方法就派上用场啦。

3.1 核心转储 (Core Dump)

核心转储文件是程序崩溃时操作系统生成的一份进程快照，记录了崩溃时程序的内存状态、寄存器值、堆栈信息和其他重要数据。通过分析这个文件，我们可以准确找到程序崩溃的位置和原因。

3.1.1 配置Core Dump

为了让操作系统帮你生成核心转储文件，得先检查设置。

系统默认路径
- 在Ubuntu系统上，默认是apport接管了核心转储, 核心转储文件通常保存在 /var/lib/apport/coredump 或者 /var/crash 目录中。
- 使用以下命令可以查看日志，了解核心转储保存位置：
```
cat /var/log/apport.log
```

临时配置Core Dump保存到当前目录
以下脚本可以将核心转储文件生成到当前目录，临时生效：

#!/bin/bash

if [ "$(id -u)" -ne 0 ]; then
    echo "请以 root 用户执行此脚本."
    exit 1
fi

ulimit -c unlimited
sysctl -w kernel.core_pattern="core.%e.%p"

echo "验证配置："
echo "ulimit -c 当前值：$(ulimit -c)"
echo "核心转储存储路径：$(cat /proc/sys/kernel/core_pattern)"

echo "核心转储设置已完成！"

说明：

ulimit -c unlimited：将核心转储文件大小限制设置为“无限”。
kernel.core_pattern="core.%e.%p"：定义核心转储文件的命名规则，%e 是程序名，%p 是进程ID。

3.1.2 分析Core Dump

常用的工具是gdb大神，一位“福尔摩斯”级的调试利器。

加载核心转储文件：

gdb /path/to/your/program /path/to/corefile

查看栈回溯：

 (gdb) bt
 #0  0x00005b3447991272 in main ()

如果程序有符号信息, 会显示行号:

(gdb) bt
 #0  0x0000647a928522b9 in main () at main.c:34

深入分析：

前提是使用gcc -g 编译的带有调试信息的程序

查看崩溃代码位置：

   (gdb) list
   32          // 引发段错误以测试
   33          int *p = NULL;
   34          *p = 42;  // 这里会触发SIGSEGV
   35
   36          return 0;
   37      }

查看局部变量的值：
```
(gdb) info locals
```

3.2 `backtrace`：程序崩溃的“导航仪”

backtrace是一种捕获栈帧信息的技术，可以帮助我们回溯程序的执行路径，迅速找到崩溃的根源。

3.2.1 生成`backtrace`

要在程序中生成backtrace，我们可以使用<execinfo.h>库提供的backtrace()和backtrace_symbols()函数。下面是一个小示例，当程序崩溃时自动输出栈帧信息：

#include <execinfo.h>
#include <signal.h>
#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>

void handler(int sig) {
    void *array[10];                // 保存栈帧地址的数组
    size_t size;                    // 栈帧数目
    char **strings;                 // 保存栈帧符号的字符串数组
    size_t i;

    // 获取栈帧地址
    size = backtrace(array, 10);
    strings = backtrace_symbols(array, size);

    // 输出错误信号和栈信息
    printf("Error: signal %d:\n", sig);
    for (i = 0; i < size; i++) {
        printf("%s\n", strings[i]);
    }

    free(strings);  // 释放内存

    // 退出程序
    exit(1);
}

int main() {
    // 捕获 SIGSEGV（段错误）信号
    signal(SIGSEGV, handler);

    // 故意触发段错误
    int *p = NULL;
    *p = 42;  // 触发崩溃

    return 0;
}

解释：

backtrace()：获取当前栈帧的地址，存储在array中。
backtrace_symbols()：将地址转换为可读的符号信息，如函数名和偏移量。
signal()：注册信号处理器，在程序发生SIGSEGV（段错误）时调用handler()。

注意：如果我们自定义处理信号处理了SIGSEGV，在程序崩溃时，操作系统通常不会再生成核心转储Core Dump文件。

3.2.2 分析`backtrace`

生成的backtrace输出可能如下：

Error: signal 11:
./my_program(main+0x15) [0x4006d5]
./my_program(func+0x2a) [0x40070a]
/lib/x86_64-linux-gnu/libc.so.6(__libc_start_main+0xf5) [0x7ffff7a5d0b5]
./my_program(_start+0x29) [0x400589]

如何分析：

符号地址：输出中每一行包含函数名、偏移量和地址。
使用addr2line转换地址为代码位置：
添加 -f 参数可以输出完整的函数名称。命令格式如下：
```
addr2line -e ./my_program -f 0x4006d5
```
解释：
- -f：显示完整的函数名。
- -e ./my_program：指定可执行文件。
- 0x4006d5：要转换的地址。

批量转换示例：
如果有多个地址，可以用循环批量转换：

for addr in 0x4006d5 0x40070a 0x400589; do
    addr2line -f -e ./my_program $addr
done

输出示例：

main
/home/user/my_program.c:12

这样不仅能看到崩溃位置的代码行号，还能明确是在哪个函数中发生了崩溃。

3.3 `dmesg`日志分析：内核的“侦探”

dmesg 命令用于查看内核环形缓冲区中的日志信息，通常记录着系统级别的事件。它在程序崩溃时能提供许多关键线索，帮助我们从内核的角度分析崩溃发生的原因。比如，内存溢出、权限错误、内核模块加载失败等都可能被记录在dmesg日志中。

3.3.1 分析`dmesg`输出

当程序崩溃时，内核可能会输出相关的错误信息，通常包括崩溃的信号（如SIGSEGV）、内存相关的错误或访问违规等。这些信息通常能帮助我们定位问题的根源。

假设你遇到了如下的崩溃日志输出：

[ 2162.223354] my_program[5583]: segfault at 0 ip 00005737d74792b9 sp 00007fff20bf9f00 error 6 in my_program[5737d7479000+1000] likely on CPU 10 (core 0, socket 20)
[ 2162.223438] Code: 48 8b 45 98 48 89 c7 e8 05 fe ff ff bf 01 00 00 00 e8 4b fe ff ff f3 0f 1e fa 55 48 89 e5 48 c7 45 f8 00 00 00 00 48 8b 45 f8 <c7> 00 2a 00 00 00 b8 00 00 00 00 5d c3 00 00 f3 0f 1e fa 48 83 ec

步骤 1: 理解日志

ip 00005737d74792b9: 表示崩溃发生的指令指针地址 (Instruction Pointer, IP)。
in my_program[5737d7479000+1000]: 表示程序 my_program 的加载基地址为 0x5737d7479000，偏移量为 0x1000。

要定位崩溃指令的确切位置，我们需要计算 崩溃指令的相对偏移地址。

步骤 2: 计算崩溃地址的偏移
崩溃的指令指针是 0x5737d74792b9，加载基地址是 0x5737d7479000。偏移计算如下：

崩溃偏移地址 = 崩溃指针地址 - 加载基地址 + 偏移量
              = 0x5737d74792b9 - 0x5737d7479000 + 0x1000
              = 0x12b9

步骤 3: 使用 objdump 反汇编并定位

运行以下命令生成反汇编文件：

objdump -d /path/to/my_program > disassembly.txt

打开 disassembly.txt，搜索偏移地址 12b9，你可以看到类似以下的输出：


00000000000012a5 <main>: 
    12a5:       f3 0f 1e fa             endbr64
    12a9:       55                      push   %rbp
    12aa:       48 89 e5                mov    %rsp,%rbp
    12ad:       48 c7 45 f8 00 00 00    movq   $0x0,-0x8(%rbp)
    12b4:       00
    12b5:       48 8b 45 f8             mov    -0x8(%rbp),%rax
--> 12b9:       c7 00 2a 00 00 00       movl   $0x2a,(%rax)  <--- 崩溃在这里
    12bf:       b8 00 00 00 00          mov    $0x0,%eax
    12c4:       5d                      pop    %rbp
    12c5:       c3                      ret

–> 12b9: c7 00 2a 00 00 00 movl $0x2a,(%rax) <— 崩溃在这里

通过以上步骤，你可以快速从 dmesg 的崩溃日志中找到程序崩溃的确切位置。

3.4 `strace`：追踪程序的“神探”

strace 是一个强大的工具，用于跟踪程序的系统调用。系统调用是程序与操作系统交互的桥梁，涉及文件操作、网络请求、内存分配等行为。通过查看strace输出，我们可以详细了解程序在崩溃前的操作序列，发现潜在的异常。

通过strace，我们可以记录程序的所有系统调用。特别是在程序崩溃时，strace输出可以帮助我们理解程序崩溃时的行为，如尝试打开不存在的文件、访问无权限的资源、分配内存失败等。

strace -f -o output.txt ./your_program

-f：跟踪所有子进程的系统调用。许多程序可能会启动子进程，这时加上-f可以确保我们不遗漏任何关键信息。
-o output.txt：指定将strace的输出保存到文件output.txt中，这样可以方便我们后续分析。

在程序运行时，strace会捕获所有的系统调用，并将它们输出到指定文件中。例如，文件打开、内存分配、进程间通信等操作都会被记录下来。

示例：

openat(AT_FDCWD, "/etc/passwd", O_RDONLY) = 3
mmap(NULL, 4096, PROT_READ, MAP_PRIVATE, 3, 0) = 0x7f7a12f02000
read(3, "root:x:0:0:root:/root:/bin/bash\n", 1024) = 36
close(3)                                = 0

这些行显示了程序进行的一些文件操作：

openat()：尝试以只读方式打开/etc/passwd文件。
mmap()：内存映射操作。
read()：从文件中读取数据。
close()：关闭文件描述符。

当程序崩溃时，strace的输出可能包含异常行为，比如：

系统调用失败（返回-1或-ENOMEM等错误代码）。
某些系统调用的返回值异常，如试图读取无效文件或进行无权限的操作。

例如，以下输出可能表示程序在读取文件时遇到了问题：

open("/nonexistent/file", O_RDONLY) = -1 ENOENT (No such file or directory)

这表明程序尝试访问一个不存在的文件，可能是崩溃的原因之一。

系统调用失败：查找所有返回-1的系统调用，检查错误代码。
内存分配失败：查找mmap、brk、malloc等相关调用，确认是否存在内存分配错误。

4. 总结

程序崩溃就像一场不可预知的“惊吓”，但正如每个悬疑故事都有其真相，每次崩溃背后也都有明确的原因。通过深入分析内存错误、资源耗尽、非法指令和系统限制等常见问题，我们可以从“症状”入手，层层剖析直至找到“病因”。

关键步骤回顾：

了解崩溃的根本原因：如内存非法访问、资源耗尽、未处理异常等。
使用工具定位问题：借助 gdb、valgrind 等调试工具和核心转储文件，通过 backtrace 和 dmesg 日志辅助分析。
做好预防和处理：通过代码中的错误检查、资源管理和异常捕获机制，尽量避免类似问题再现。

程序猿小贴士：

多用工具：善用调试工具和诊断工具是每个程序员的“法宝”。
严谨编码：避免疏忽大意，及时释放资源、检查边界条件。
勤于测试：在各种极限场景下测试程序，未雨绸缪才能避免线上“踩坑”。

每次程序崩溃都是一次成长的契机。学会与“崩溃”和平相处，你会发现，每一次修复都让你离“大神”的目标更近一步。

标签：文件,00,程序,转储,程序员,内存,Linux,崩溃
From： https://blog.csdn.net/weixin_47763623/article/details/144102071

Linux程序员解决程序崩溃的问题