首页 > 系统相关 >Linux C++ 开发3 - 你写的Hello world经过哪些过程才被计算机理解和执行?

Linux C++ 开发3 - 你写的Hello world经过哪些过程才被计算机理解和执行?

时间:2024-08-12 15:19:19浏览次数:17  
标签:x86 .. gnu -- linux C++ 64 Linux world

上一篇《Linux C++ 开发2 - 编写、编译、执行第一个程序》我们编写了一个Hello world程序,并在Linux下完成了正常的编译和执行。

上一篇中我们用g++ ./demo01.cpp这个指令就轻松将我们的demo01.cpp源代码编译成了二进制程序,那你知道这个指令内部经历了哪些过程吗?

1. C/C++的编译过程

先说结论:C/C++的编译过程包括 预处理编译汇编链接 四个关键的步骤,整个编译的处理流程如下图所示:

file

更粗粒度的划分,我们又把 预处理、编译、汇编 称为编译过程,就是把源代码(.c/.cpp/.cc)生成目标代码;链接的动作单独一个过程,称为链接过程

1.1. 预处理

预处理也称为预编译,由预处理器(cpp)执行,预处理阶段主要处理一些预处理指令,比如文件包含、宏定义、条件编译等。

  1. 文件包含,也就是将所有通过#include包含的头文件替换成真正的内容。
  2. 宏定义,预处理时需要把所有的宏定义替换成真正的内容。
  3. 条件编译,也就是通过如#ifdef, #ifndef, #else, #elif, #endif等指令定义的条件编译,预处理会把不符合条件的代码删除,只保留符合条件的代码。

1.2. 编译

编译阶段要做的工作就是通过词法分析、语法分析和语义分析,在确认所有的源代码都符合语法规则之后,将其翻译成等价的汇编代码(中间代码),即.s.asm文件。这个过程是整个程序构建的核心部分,也是最复杂的部分之一。

更多关于汇编语言的介绍参加《汇编语言1 - 什么是汇编语言?》。

除此之外,编译器还会在这个阶段进行代码优化。优化主要包含两大部分:一部分是对源代码本身逻辑的优化,如删除公共表达式、删除无用赋值、循环优化、复写传播等。另一部分是根据目标设备的硬件结构,对执行指令进行优化,如寄存器分配、指令调度、指令合并等。

1.3. 汇编

1.3.1. 汇编过程

汇编的过程就是通过不同平台的汇编器(如:Linux的AS、Windows的MASM)将汇编代码翻译成机器能识别的机器码,即生成目标文件(Linux下是.o,windows下是.obj)。

1.3.2. 目标文件

目标文件(Object File) 是源代码经过预处理、编译、汇编后生成的中间文件,Linux下的目标文件(.o)的文件格式是ELF(Executable and Linkable Format),它包含了机器代码、数据、符号表和重定位信息等。

我们来看一个.o文件的文件头,

# 查看.o文件的文件头
objdump -h demo01.o
# 输出结果:文件的组成
demo01.o:     file format elf64-x86-64

Sections:
Idx Name          Size      VMA               LMA               File off  Algn
  0 .text         0000003a  0000000000000000  0000000000000000  00000040  2**0
                  CONTENTS, ALLOC, LOAD, RELOC, READONLY, CODE
  1 .data         00000000  0000000000000000  0000000000000000  0000007a  2**0
                  CONTENTS, ALLOC, LOAD, DATA
  2 .bss          00000000  0000000000000000  0000000000000000  0000007a  2**0
                  ALLOC
  3 .rodata       00000011  0000000000000000  0000000000000000  0000007a  2**0
                  CONTENTS, ALLOC, LOAD, READONLY, DATA
  4 .comment      00000027  0000000000000000  0000000000000000  0000008b  2**0
                  CONTENTS, READONLY
  5 .note.GNU-stack 00000000  0000000000000000  0000000000000000  000000b2  2**0
                  CONTENTS, READONLY
  6 .note.gnu.property 00000020  0000000000000000  0000000000000000  000000b8  2**3       
                  CONTENTS, ALLOC, LOAD, READONLY, DATA
  7 .eh_frame     00000038  0000000000000000  0000000000000000  000000d8  2**3
                  CONTENTS, ALLOC, LOAD, RELOC, READONLY, DATA

行:

  • .text: 代码段(存放函数的二进制机器指令)
  • .data: 数据段(存已初始化的局部/全局静态变量、未初始化的全局静态变量)
  • .bss: bss段(声明未初始化变量所占大小)
  • .rodata: 只读数据段(存放 " " 引住的只读字符串)
  • .comment: 注释信息段
  • .node.GUN-stack: 堆栈提示段

列:

  • Size: 段的长度
  • File Off: 段的所在位置(即距离文件头的偏移位置)

段的属性:

  • CONTENTS: 表示该段在文件中存在
  • ALLOC: 表示只分配了大小,但没有存内容

1.4. 链接

程序的链接阶段可分为两个步骤:

  1. 第一步:由于每个.o文件都有都有自己的代码段、bss段,堆,栈等,所以链接器首先将多个.o 文件相应的段进行合并,建立映射关系及合并符号表。进行符号解析,符号解析完成后就是给符号分配虚拟地址。
  2. 第二步:将分配好的虚拟地址与符号表中定义的符号一一对应起来,使其成为正确的地址,使代码段的指令可以根据符号的地址执行相应的操作,最后由链接器生成可执行文件。

2. 编译过程示例

2.1. 源代码

我们还是以《Linux C++ 开发2 - 编写、编译、执行第一个程序》中使用的源代码为例进行讲解。

demo01.cpp:

#include <iostream>

int main()
{
    std::cout << "Hello, world!" << std::endl;
    return 0;
}

2.2. 逐步编译程序

2.2.1. 编译指令

我们分成 预处理编译汇编链接 四步来逐步编译程序。

# 1. 预处理: 将 .c/.cpp/.cc等源码文件进行预处理,生成.i文件
cpp ./demo01.cpp -o ./demo01.i
# 2. 编译: 将第1步生成的.i文件编译成.s文件
g++ -S ./demo01.i -o ./demo01.s
# 3. 汇编: 将第2步生成的.s文件汇编成.o文件
as ./demo01.s -o ./demo01.o
# 4. 链接: 将第3步生成的.o文件和标准库链接成可执行文件。
# 注:此命令可能会报错,可看后面会的讲解
ld ./demo01.o -o ./demo01.out
# 5. 运行: 运行可执行文件,输出结果
./demo01.out

2.2.2. 链接报错问题

执行上面第4步的链接命令时,可能会出现如下报错:

ld: warning: cannot find entry symbol _start; defaulting to 0000000000401000
ld: ./demo01.o: in function `main':
demo01.cpp:(.text+0x15): undefined reference to `std::cout'
ld: demo01.cpp:(.text+0x1d): undefined reference to `std::basic_ostream<char, std::char_traits<char> >& std::operator<< <std::char_traits<char> >(std::basic_ostream<char, std::char_traits<char> >&, char const*)'
ld: demo01.cpp:(.text+0x24): undefined reference to `std::basic_ostream<char, std::char_traits<char> >& std::endl<char, std::char_traits<char> >(std::basic_ostream<char, std::char_traits<char> >&)'
ld: demo01.cpp:(.text+0x2f): undefined reference to `std::ostream::operator<<(std::ostream& (*)(std::ostream&))'

这是因为:Linux系统下,链接目标文件生成可执行文件的过程比我们想象的要复杂许多,生成一个C++可执行文件,需要依赖很多系统库和相关的目标文件,比如C++的libc++库。那怎么解决这个问题呢?

方法一: 直接用g++的指令

g++ ./demo01.o -o ./demo01.out

方法二: 添加复杂参数

既然g++可以直接编译,我们何不看看g++内部到底是怎么编译的, 执行如下代码。

# -v参数可以查看gcc的详细编译过程
g++ -v ./demo01.o -o ./demo01.out
# 输出内容
Using built-in specs.
COLLECT_GCC=g++
COLLECT_LTO_WRAPPER=/usr/libexec/gcc/x86_64-linux-gnu/13/lto-wrapper
OFFLOAD_TARGET_NAMES=nvptx-none:amdgcn-amdhsa
OFFLOAD_TARGET_DEFAULT=1
Target: x86_64-linux-gnu
Configured with: ../src/configure -v --with-pkgversion='Ubuntu 13.2.0-23ubuntu4' --with-bugurl=file:///usr/share/doc/gcc-13/README.Bugs --enable-languages=c,ada,c++,go,d,fortran,objc,obj-c++,m2 --prefix=/usr --with-gcc-major-version-only --program-suffix=-13 --program-prefix=x86_64-linux-gnu- --enable-shared --enable-linker-build-id --libexecdir=/usr/libexec --without-included-gettext --enable-threads=posix --libdir=/usr/lib --enable-nls --enable-clocale=gnu --enable-libstdcxx-debug --enable-libstdcxx-time=yes --with-default-libstdcxx-abi=new --enable-libstdcxx-backtrace --enable-gnu-unique-object --disable-vtable-verify --enable-plugin --enable-default-pie --with-system-zlib --enable-libphobos-checking=release --with-target-system-zlib=auto --enable-objc-gc=auto --enable-multiarch --disable-werror --enable-cet --with-arch-32=i686 --with-abi=m64 --with-multilib-list=m32,m64,mx32 --enable-multilib --with-tune=generic --enable-offload-targets=nvptx-none=/build/gcc-13-uJ7kn6/gcc-13-13.2.0/debian/tmp-nvptx/usr,amdgcn-amdhsa=/build/gcc-13-uJ7kn6/gcc-13-13.2.0/debian/tmp-gcn/usr --enable-offload-defaulted --without-cuda-driver --enable-checking=release --build=x86_64-linux-gnu --host=x86_64-linux-gnu --target=x86_64-linux-gnu
Thread model: posix
Supported LTO compression algorithms: zlib zstd
gcc version 13.2.0 (Ubuntu 13.2.0-23ubuntu4)
COMPILER_PATH=/usr/libexec/gcc/x86_64-linux-gnu/13/:/usr/libexec/gcc/x86_64-linux-gnu/13/:/usr/libexec/gcc/x86_64-linux-gnu/:/usr/lib/gcc/x86_64-linux-gnu/13/:/usr/lib/gcc/x86_64-linux-gnu/
LIBRARY_PATH=/usr/lib/gcc/x86_64-linux-gnu/13/:/usr/lib/gcc/x86_64-linux-gnu/13/../../../x86_64-linux-gnu/:/usr/lib/gcc/x86_64-linux-gnu/13/../../../../lib/:/lib/x86_64-linux-gnu/:/lib/../lib/:/usr/lib/x86_64-linux-gnu/:/usr/lib/../lib/:/usr/lib/gcc/x86_64-linux-gnu/13/../../../:/lib/:/usr/lib/
COLLECT_GCC_OPTIONS='-v' '-o' './demo01.out' '-shared-libgcc' '-mtune=generic' '-march=x86-64' '-dumpdir' './demo01.out.'
 /usr/libexec/gcc/x86_64-linux-gnu/13/collect2 -plugin /usr/libexec/gcc/x86_64-linux-gnu/13/liblto_plugin.so -plugin-opt=/usr/libexec/gcc/x86_64-linux-gnu/13/lto-wrapper -plugin-opt=-fresolution=/tmp/cc9BwcQy.res -plugin-opt=-pass-through=-lgcc_s -plugin-opt=-pass-through=-lgcc -plugin-opt=-pass-through=-lc -plugin-opt=-pass-through=-lgcc_s -plugin-opt=-pass-through=-lgcc --build-id --eh-frame-hdr -m elf_x86_64 --hash-style=gnu --as-needed -dynamic-linker /lib64/ld-linux-x86-64.so.2 -pie -z now -z relro -o ./demo01.out /usr/lib/gcc/x86_64-linux-gnu/13/../../../x86_64-linux-gnu/Scrt1.o /usr/lib/gcc/x86_64-linux-gnu/13/../../../x86_64-linux-gnu/crti.o /usr/lib/gcc/x86_64-linux-gnu/13/crtbeginS.o -L/usr/lib/gcc/x86_64-linux-gnu/13 -L/usr/lib/gcc/x86_64-linux-gnu/13/../../../x86_64-linux-gnu -L/usr/lib/gcc/x86_64-linux-gnu/13/../../../../lib -L/lib/x86_64-linux-gnu -L/lib/../lib -L/usr/lib/x86_64-linux-gnu -L/usr/lib/../lib -L/usr/lib/gcc/x86_64-linux-gnu/13/../../.. ./demo01.o -lstdc++ -lm -lgcc_s -lgcc -lc -lgcc_s -lgcc /usr/lib/gcc/x86_64-linux-gnu/13/crtendS.o /usr/lib/gcc/x86_64-linux-gnu/13/../../../x86_64-linux-gnu/crtn.o
COLLECT_GCC_OPTIONS='-v' '-o' './demo01.out' '-shared-libgcc' '-mtune=generic' '-march=x86-64' '-dumpdir' './demo01.out.'

我们看到/usr/libexec/gcc/x86_64-linux-gnu/13/collect2开头的这一行,后面跟了一堆复杂的参数,这个就是链接时需要用到的参数。

collect2是什么?实际上collect2是对ld的封装,g++调用链接器collect2来完成链接工作,最终还是要调用到ld

我们可以尝试将collect2替换成ld,然后跟上后面的参数,执行如下的执行:

# 链接指令
ld -plugin /usr/libexec/gcc/x86_64-linux-gnu/13/liblto_plugin.so -plugin-opt=/usr/libexec/gcc/x86_64-linux-gnu/13/lto-wrapper -plugin-opt=-fresolution=/tmp/cc9BwcQy.res -plugin-opt=-pass-through=-lgcc_s -plugin-opt=-pass-through=-lgcc -plugin-opt=-pass-through=-lc -plugin-opt=-pass-through=-lgcc_s -plugin-opt=-pass-through=-lgcc --build-id --eh-frame-hdr -m elf_x86_64 --hash-style=gnu --as-needed -dynamic-linker /lib64/ld-linux-x86-64.so.2 -pie -z now -z relro -o ./demo01.out /usr/lib/gcc/x86_64-linux-gnu/13/../../../x86_64-linux-gnu/Scrt1.o /usr/lib/gcc/x86_64-linux-gnu/13/../../../x86_64-linux-gnu/crti.o /usr/lib/gcc/x86_64-linux-gnu/13/crtbeginS.o -L/usr/lib/gcc/x86_64-linux-gnu/13 -L/usr/lib/gcc/x86_64-linux-gnu/13/../../../x86_64-linux-gnu -L/usr/lib/gcc/x86_64-linux-gnu/13/../../../../lib -L/lib/x86_64-linux-gnu -L/lib/../lib -L/usr/lib/x86_64-linux-gnu -L/usr/lib/../lib -L/usr/lib/gcc/x86_64-linux-gnu/13/../../.. ./demo01.o -lstdc++ -lm -lgcc_s -lgcc -lc -lgcc_s -lgcc /usr/lib/gcc/x86_64-linux-gnu/13/crtendS.o /usr/lib/gcc/x86_64-linux-gnu/13/../../../x86_64-linux-gnu/crtn.o

# 执行demo01.out
./demo01.out                                                                          
Hello, world!

可以看到链接成功,且链接的结果demo01.out可以被正常执行。

2.3. 单步编译

# 直接编译成可执行文件a.out
g++ ./demo01.cpp
# 计算各个文件的md5值
 md5sum *
# 输出md5值
7512950d97efcb22fe2f488c9b6ada11  demo01.cpp
6c926dd87e4dbbb7bebb94565bc58a7e  demo01.i
2947e9b8bc49df9d3168af80a0d67fff  demo01.s
7b73665fe2b3d62f86aee04b96727e75  demo01.o
cccb05699b393ba43420bf9518a0cfd6  demo01.out
cccb05699b393ba43420bf9518a0cfd6  a.out

我们看到demo01.outa.out的md5值是一样的,说明:

  1. 直接编译得到的可执行文件(a.out)和经过预处理、编译、汇编、链接后得到的可执行文件(demo01.out)是一样的。
  2. C++的编译内部经过了预处理、编译、汇编、链接等过程

3. gcc/g++与gpp、as、ld的关系

3.1. 关系图

  1. gcc/g++对 预处理、编译、汇编、链接 等过程进行了捆绑,使用户只需要使用一次命令就可以把编译工作完成,这样极大的简化了编译的动作。
  2. gcc/g++相当于一个总控程序,内部组合了cppasld等工具,并通过参数传递的方式完成编译工作。
编译步骤 指令一 指令二
预处理 cpp g++ -E
编译 g++ -S g++ -S
汇编 as g++ -c
链接 ld g++

3.2. 示例演示

# 1. 预处理
g++ -E ./demo01.cpp -o ./demo02.i
# 2. 编译
g++ -S ./demo02.i -o ./demo02.s
# 3. 汇编
g++ -c ./demo02.s -o ./demo02.o
# 4. 链接
g++ ./demo02.o -o ./demo02.out
# 5. 运行
./demo02.out
# 计算各个文件的md5值
md5sum *
# 输出md5值
7512950d97efcb22fe2f488c9b6ada11  demo01.cpp
6c926dd87e4dbbb7bebb94565bc58a7e  demo01.i
2947e9b8bc49df9d3168af80a0d67fff  demo01.s
7b73665fe2b3d62f86aee04b96727e75  demo01.o
cccb05699b393ba43420bf9518a0cfd6  demo01.out
6c926dd87e4dbbb7bebb94565bc58a7e  demo02.i
2947e9b8bc49df9d3168af80a0d67fff  demo02.s
7b73665fe2b3d62f86aee04b96727e75  demo02.o
cccb05699b393ba43420bf9518a0cfd6  demo02.out

可以看到,编译的结构与"2.2. 逐步编译程序"完全一样。

4. 参考文档

https://blog.csdn.net/qq_40765537/article/details/105940800
https://www.cnblogs.com/mickole/articles/3659112.html
https://blog.csdn.net/gt1025814447/article/details/80442673


大家好,我是陌尘。

IT从业10年+, 北漂过也深漂过,目前暂定居于杭州,未来不知还会飘向何方。

搞了8年C++,也干过2年前端;用Python写过书,也玩过一点PHP,未来还会折腾更多东西,不死不休。

感谢大家的关注,期待与你一起成长。



【SunLogging】 扫码二维码,关注微信公众号,阅读更多精彩内容

标签:x86,..,gnu,--,linux,C++,64,Linux,world
From: https://www.cnblogs.com/luoweifu/p/18355010

相关文章

  • dev c++的使用
    前置软件:devc++首先开始学习前,先把软件下好点开devc++,发现有一个页面如下图:这时按Ctrl+n即可打开一个页面如下:这时你是否已经跃跃欲试了吗,哦不,还得慢慢来先敲上一段代码#include<iostream>usingnamespacestd;intmain(){return0;}好了可以了就完了可以......
  • cx_Freeze 打包生成Linux可执行文件
    准备一台linux系统环境安装cx_Freezepipinstallcx_Freeze准备两个py脚本1,app应用脚本,需要打包的app.pyimportrandomimporttimefromflaskimportFlask,jsonifyfromconcurrent.futuresimportThreadPoolExecutorapp=Flask(__name__)executor=ThreadPoolE......
  • Linux Debian 上安装桌面环境
    在Debian上安装桌面环境是一个相对简单的过程。以下是安装几种常见桌面环境的步骤:1.安装GNOME桌面环境更新软件包列表:sudoaptupdate安装GNOME桌面环境:sudoaptinstalltask-gnome-desktop2.安装KDEPlasma桌面环境更新软件包列表:sudoaptupdate......
  • 开始梦幻之旅--C++
    生活中有许多人人在忙忙碌碌,其中的许多人s都不会想到他们会被代替那个代替别人的东西就是人工智能人工智能是什么,他由什么来做成的呢人工智能是什么早在二战时期,图灵就已经开始了图灵测试,具体如下:一名测试者写下自己的问题,随后将问题以纯文本的形式(如计算机屏幕和键盘)发送......
  • linux下进程与计划任务管理
    linux下进程与定时任务的管理进程与程序程序:存储在硬盘、光盘等介质中含有可执行代码的可执行文件。不删除就永久存在。状态为静态。进程:进程是资源分配的最小单位。临时存储在内存中(关机消失)。动态执行的代码。一个父进程可以拥有多个子进程。若该进程的父进......
  • Linux常用基础命令
    1.1Linux系统的文件结构1/bin二进制文件,系统常规命令2/boot系统启动分区,系统启动时读取的文件3/dev设备文件4/etc大多数配置文件5/home普通用户的家目录6/lib32位函数库7/lib6464位库8/media......
  • 研究C++20语法----在ubuntu中安装gcc13和g++13
    前言由于要学习一点C++20的知识点,故需要安装gcc13和g++13Ubuntu默认不能直接下载gcc13和g++13,但是只有g++13和gcc13支持C++20的语法,故想要学习C++20,就必须借助第三方工具下载。默认安装目录:/usr/bin本机安装环境:ubuntu22.4文章目录1、安装build_essential2、添加ppa......
  • Ubuntu20.04搭建eclipse for C++环境
    【转载说明】适用于Ubuntu20.04上的C/C++开发人员的EclipseIDE。文章分为三部分。如何安装EclipseIDE先决条件如何下载面向C/C++开发人员的EclipseIDE如何提取EclipseIDEforC/C++Developers包EclipseIDE需要JavaJRE作为先决条件。因此,我们的第......
  • OpenCV C++ 霍夫直线变换-Hough Line Transform
    使用OpenCV在C++中实现霍夫直线变换(HoughLineTransform)可以通过以下步骤完成。我们将首先进行边缘检测,然后应用霍夫直线变换来检测图像中的直线。步骤概述读取图像:使用cv::imread读取图像。灰度转换:将图像转换为灰度图。边缘检测:使用Canny边缘检测器。霍夫直线......
  • 排序算法 内省排序(STL sort) IntroSort --C/C++
    内观排序/内省排序内省排序-维基百科,自由的百科全书(wikipedia.org)内省排序(英语:Introsort)是由大卫·穆塞尔在1997年设计的排序算法。这个排序算法首先从快速排序开始,当递归深度超过一定深度(深度为排序元素数量的对数值)后转为堆排序。采用这个方法,内省排序既能在常规数据集......