首页 > 系统相关 >Linux 下 C/C++ 程序编译的过程

Linux 下 C/C++ 程序编译的过程

时间:2024-09-08 15:53:46浏览次数:12  
标签:文件 代码 C++ 编译 指令 Linux test 链接

目录


本文将介绍如何将 C/C++ 语言编写的程序转换成为处理器能够执行的二进制代码的过程,包括四个步骤:预处理(Preprocessing)编译(Compilation)汇编(Assembly)链接(Linking)。

在此之前,首先来看一下 GCC 工具链。

一、GCC 工具链

GCCGUN Compiler Collection 的简称,是 Linux 系统上常用的编译工具。GCC 工具链软件包括 GCCBinutils、C 运行库等。

  • GCC
    • GCCGNU C Compiler)是编译工具。本文所要介绍的将 C/C++ 语言编写的程序转换成为处理器能够执行的二进制代码的过程即由编译器完成。
  • Binutils
    • 一组二进制程序处理工具,包括:addr2linearobjcopyobjdumpasldlddreadelfsize等。这一组工具是开发和调试不可缺少的工具,分别简介如下:
      • addr2line:用来将程序地址转换成其所对应的程序源文件及所对应的代码行,也可以得到所对应的函数。该工具将帮助调试器在调试的过程中定位对应的源代码位置。
      • as:主要用于汇编,有关汇编的详细介绍请参见后文。
      • ld:主要用于链接,有关链接的详细介绍请参见后文。
      • ar:主要用于创建静态库。为了便于初学者理解,在此介绍动态库与静态库的概念:
        • 如果要将多个 .o 目标文件生成一个库文件,则存在两种类型的库,一种是静态库,另一种是动态库。
        • 在 windows 中静态库是以 .lib 为后缀的文件,共享库是以 .dll 为后缀的文件。
        • 在 Linux 中静态库是以 .a 为后缀的文件,共享库是以 .so 为后缀的文件。
        • 静态库和动态库的不同点在于代码被载入的时刻不同。静态库的代码在编译过程中已经被载入可执行程序,因此体积较大。共享库的代码是在可执行程序运行时才载入内存的,在编译过程中仅简单的引用,因此代码体积较小。在 Linux 系统中,可以用 ldd 命令查看一个可执行程序依赖的共享库。
        • 如果一个系统中存在多个需要同时运行的程序且这些程序之间存在共享库,那么采用动态库的形式将更节省内存。
      • ldd:可以用于查看一个可执行程序依赖的共享库。
      • objcopy:将一种对象文件翻译成另一种格式,譬如将 .bin 转换成 .elf、或者将 .elf 转换成 .bin 等。
      • objdump:主要的作用是反汇编。有关次命令的详细介绍,可以参考:Linux 下 objdump 命令的使用
      • readelf:显示有关 ELF 文件的信息,可以参考前文:ELF 文件格式
      • size:列出可执行文件每个部分的尺寸和总尺寸,代码段、数据段、总大小等,请参见后文了解使用 size 的具体使用实例。
  • C 运行库
    • C 语言标准主要由两部分组成:一部分描述 C 的语法,另一部分描述 C 标准库。
    • C 标准库定义了一组标准头文件,每个头文件中包含一些相关的函数、变量、类型声明和宏定义,譬如常见的 printf 函数便是一个 C 标准库函数,其原型定义在 stdio 头文件中。
    • C 语言标准仅仅定义了 C 标准库函数原型,并没有提供实现。
    • 因此,C 语言编译器通常需要一个 C 运行时库(C Run Time LibrayCRT)的支持。C 运行时库又常简称为 C 运行库。
    • 与 C 语言类似,C++ 也定义了自己的标准,同时提供相关支持库,称为 C++ 运行时库。

二、编译过程

示例程序:

// test.c
#include <stdio.h>
#include <stdlib.h>

int add(int a,int  b)
{
    printf("Number are added together\n");
    return a + b;
}

int main(void)
{
    int a,b;
    a = 3;
    b = 4;
    int ret = add(a,b);
    printf("Result:%u\n",ret);
    exit(0);
}

1、预处理

预处理的过程主要包括以下过程:

  • 将所有的 #define 删除,并且展开所有的宏定义,并且处理所有的条件预编译指令,比如 #if#ifdef#elif#else#endif 等。
  • 处理 #include 预编译指令,将被包含的文件插入到该预编译指令的位置。
  • 删除所有注释“//”和“/* */”。
  • 添加行号和文件标识,以便编译时产生调试用的行号及编译错误警告行号。
  • 保留所有的 #pragma 编译器指令,后续编译过程需要使用它们。

使用 GCC 进行预处理的命令如下:

$ gcc -E test.c -o test.i

下面是 test.i 文件的一部分内容:


正如前文所说,预处理过程删去了文件中的头文件,并将对应文件中的内容包含到当前文件中:

2、编译

编译过程就是对预处理完的文件进行一系列的词法分析,语法分析,语义分析及优化后生成相应的汇编代码。

  • 词法分析:将源码按照语法规则进行分割,识别出各个独立的单词(token),如变量名、关键字、运算符等,并生成词法单元(token)序列。
  • 语法分析:根据文法规则,分析词法单元序列的结构,构建抽象语法树(AST)。语法分析过程通常使用上下文无关文法和语法分析算法(如 LL 算法或 LR 算法)。
  • 语义分析:对抽象语法树进行静态语义检查,验证语法结构是否符合语言规范,包括类型检查、作用域检查、函数调用检查等。在这一阶段中,编译器会进行符号表的构建,并进行符号的引用和声明的匹配。
  • 中间代码生成:将抽象语法树转化为一种中间表示形式,包括三地址码、四元式、抽象指令集等。这种中间表示形式更加抽象,便于进行优化和目标代码生成。
  • 优化:对中间代码进行优化,以改进程序的运行效率和空间利用率。优化的方式包括常量折叠、循环优化、函数内联、代码复用等。
  • 目标代码生成:将优化后的中间代码转化为目标机器的机器代码。这一步根据目标机器的特点和指令集,将中间代码转化为目标机器能够执行的代码,包括指令的选择、寄存器分配、指令调度等。

更多详细的内容可以去了解编译原理。

使用 GCC 进行编译的命令如下:

$ gcc -S test.i -o test.s

上述命令生成的汇编程序 test.s 的代码片段如下所示,其全部为汇编代码。

3、汇编

汇编过程调用对汇编代码进行处理,生成处理器能识别的指令,保存在后缀为 .o 的目标文件中。由于每一个汇编语句几乎都对应一条处理器指令,因此,汇编相对于编译过程比较简单,通过调用 Binutils 中的汇编器 as 根据汇编指令和处理器指令的对照表一一翻译即可。当程序由多个源代码文件构成时,每个文件都要先完成汇编工作,生成 .o 目标文件后,才能进入下一步的链接工作。注意:目标文件已经是最终程序的某一部分了,但是在链接之前还不能执行。

  • 指令选择:根据目标机器的指令集架构和指令要求,将目标代码中的每个中间指令转化为目标机器的指令。指令选择的过程中会考虑目标机器的寻址模式、寄存器可用性等因素。
  • 寄存器分配:对于每个指令中需要使用到的寄存器,分配目标机器中可用的寄存器。寄存器分配算法可以根据寄存器的可用性、寄存器的生存周期等因素来进行。
  • 指令调度:根据目标机器的特性,对指令进行排序和调整,以最大程度地利用硬件资源,提高指令的并行度和执行效率。指令调度可以包括指令的重排、插入空闲周期、移动指令位置等操作。
  • 符号解析:解析目标代码中的符号引用,将其与实际的地址进行绑定。这一步通常需要用到链接器生成的重定位表,将符号引用转化为具体的地址。
  • 生成可执行文件:将经过汇编过程的目标代码生成可执行文件或者可执行的机器代码。这一步包括将目标代码写入文件中,并根据操作系统的格式要求进行文件头和相关信息的设置。

使用 GCC 进行汇编的命令如下:

$ gcc -c test.s -o test.o

# 或者直接调用as进行汇编
$ as -c test.s -o test.o

可以看出,test.o 目标文件为 ELF 格式的可重定向文件。

ELF 文件可以参考 ELF 文件格式

4、链接

链接也分为静态链接和动态链接,其要点如下:

  • 静态链接是指在编译阶段直接把静态库加入到可执行文件中去,这样可执行文件会比较大。链接器将函数的代码从其所在地(不同的目标文件或静态链接库中)拷贝到最终的可执行程序中。为创建可执行文件,链接器必须要完成的主要任务是:
    • 符号解析(把目标文件中符号的定义和引用联系起来)
    • 重定位(把符号定义和内存地址对应起来然后修改所有对符号的引用)。
  • 动态链接则是指链接阶段仅仅只加入一些描述信息,而程序执行时再从系统中把相应动态库加载到内存中去。
    • 在 Linux 系统中,gcc 编译链接时的动态库搜索路径的顺序通常为:首先从 gcc 命令的参数 -L 指定的路径寻找;再从环境变量LIBRARY_PATH 指定的路径寻址;再从默认路径 /lib/usr/lib/usr/local/lib 寻找。
    • 在 Linux 系统中,执行二进制文件时的动态库搜索路径的顺序通常为:首先搜索编译目标代码时指定的动态库搜索路径;再从环境变量LD_LIBRARY_PATH 指定的路径寻址;再从配置文件 /etc/ld.so.conf 中指定的动态库搜索路径;再从默认路径 /lib/usr/lib 寻找。
    • 在 Linux 系统中,可以用 ldd 命令查看一个可执行程序依赖的共享库。

由于链接动态库和静态库的路径可能有重合,所以如果在路径中有同名的静态库文件和动态库文件,比如 libtest.alibtest.so,gcc 链接时默认优先选择动态库,会链接 libtest.so,如果要让 gcc 选择链接 libtest.a 则可以指定 gcc 选项 -static,该选项会强制使用静态库进行链接。以上面的程序为例:如果使用命令“gcc test.c -o test”则会使用动态库进行链接,生成的 ELF 可执行文件的大小(使用 Binutils 的 size 命令查看)和链接的动态库(使用 Binutils 的 ldd 命令查看)如下所示:

$ gcc test.c -o test
$ size test # 使用 size 查看大小
$ ldd test  # 可以看出该可执行文件链接了很多其他动态库,主要是Linux的glibc动态库

如果使用命令“gcc -static test.c -o test”则会使用静态库进行链接,生成的 ELF 可执行文件的大小(使用 Binutils 的 size 命令查看)和链接的动态库(使用 Binutils 的 ldd 命令查看)如下所示:

$ gcc -static test.c -o test
$ size test # 使用size查看大小
$ ldd test

链接器链接后生成的最终文件为 ELF 格式可执行文件,一个 ELF 可执行文件通常被链接为不同的段,常见的段如 .text.data.rodata.bss 等段。

可以看到,使用静态链接,最终生成的可执行文件的大小比使用动态链接的时候大了很多:

关于 text、data、bss 这些段的信息可以参考:单片机内存区域划分

标签:文件,代码,C++,编译,指令,Linux,test,链接
From: https://blog.csdn.net/Teminator_/article/details/141938493

相关文章

  • C++11/14/17/20 新特性反汇编分析1
    区间for迭代类似于java中的foreach看个例子:数组的区间for迭代我们从第一行开始看,首先把数组a的地址放到eax中,再把eax的值放到[ebp-28h]中,也就是[ebp-28h]存储了元素的首地址,同理[ebp-34h]也存了a的首地址(这里猜测可能是多个变......
  • c++IOS优化【原创】
    这一期,我们来讲IOS优化,上一期讲了GCC的优化,这次给大家带来的是IOS优化,代码如下。ios::sync_stdio(0),cin.tie(),cout.tie();ios::sync_with_stdio(0):默认情况下,C++的标准输入输出流(cin/cout)会与C语言的标准输入输出流(scanf/printf)同步。这可能会导致一些性能开销。当使用......
  • 状压DP(c++)
    好久都没来水博客了,现在闲的来写一篇刚学的状压DP思想状压DP要把一个集合中的所有元素一一分别拿出来讨论,需要用到二进制保存集合状态例如110001010二进制,0代表没有,1代表有这个元素876543210他的位置所有状压dp差不多就一个思想逐步将集合中的点包含进来首先引入一道题......
  • C++STL之stack和queue容器适配器:基本使用及模拟实现
    目录stack的介绍和使用stack的介绍stack的使用queue的介绍和使用queue的介绍queue的使用priority_queue的介绍和使用priority_queue的介绍priority_queue的使用deque双端队列(容器)deque的介绍及使用deque的缺点deque的原理(了解)容器适配器概念stack和queue的......
  • C++ 模板进阶知识——完美转发
    目录C++模板进阶知识——完美转发1.完美转发的步骤演绎完美转发的关键点2.std::forward2.1工作原理2.2重要性3.普通参数的完美转发4.在构造函数模板中使用完美转发范例5.在可变参数模板中使用完美转发范例5.1常规的在可变参模板中使用完美转发5.2将目标函数......
  • Linux网络配置(NAT模式下静态IP的配置)
    说明:子网IP在配置时可以随意设置,可以与当前主机不在同一个网段,只要保证前后配置一致即可。例如主机IP的网段为:192.168.6.0,虚拟机中的子网IP网段可以为:192.168.221.0网络规划: 网关:192.168.221.2;虚拟机IP:192.168.221.10;子网掩码:255.255.255.0一、将虚拟机设置为NAT网络模式......
  • linux启动过程
    当按下电源按钮启动Linux时,幕后发生了什么?一个名为BIOS或UEFI的程序会启动运行;改程序的基本用途是让计算机所有主要部分做好操作准备(这些部分包括:键盘,屏幕硬盘等)POST检查;测试可确保在安全打开所有设备之前,所有不同的硬件都正常工作;如果POST发现问题,通常会在屏幕上显示错误......
  • 高效诊断Linux性能问题
     从uptime命令开始;这里的关键指标是平均负载,它显示了过去1分钟,5分钟和15分钟内正在运行或等待资源的进程平均数量;如果这些数字持续高于CPU内核数,则可能表明进程正在争夺资源,提示我们使用其他工具深入研究1.使用top工具;top提供了系统流程和关键指标的动态,持续更新的视图;它就......
  • Linux运维学习记录04
    一、通过网络配置命令,让主机可以上网。ip,netmask,gateway,dns,主机名。相关命令总结,最终可以通过这些配置让你的主机上网。1.先修改网卡名2.然后配置静态IP地址,子网掩码和网关vim/etc/sysconfig/network-scripts/ifcfg-eth13.进行查看4.新增DNSvim/etc/resolv.co......
  • Linux代理端口设置
    目录前言创建ssh隧道设置全局代理设置局部代理参考资料前言有时候通过局域网连接的服务器缺少一些必备的工具,但是服务器没有连接互联网,导致无法直接下载安装。为了可以让未连接互联网的服务器直接访问网络下载所需工具,便可以通过ssh隧道的方式实现。首先,通过ssh隧......