《程序员的自我修养》学习笔记——揭秘源文件到可执行文件的编译过程【第一弹】

程序代码到可执行程序编译链接过程

以c++/c 语言为例，预编译阶段的工作有以下几点：

预编译过程相当于如下命令：

gcc -E hello.c -o hello.i  (-E 表示只进行预编译)
或者
cpp hello.c > hello.i

编译过程可以分为如下步骤：

扫描
词法分析

运用一种类似于有限状态机的算法，将源代码的字符序列分割为一系列记号（关键字、标识符、字面常量、特殊符号等）。【一个名叫lex的程序可以完成这项任务】
语法分析

对由扫描器产生的记号进行语法分析，进而产生语法树。（采用上下文无关的语法分析手段）【同样一个叫做yacc的工具也可完成这项任务】
语义分析

包括静态语义（如声明和类型的匹配、类型的转化等）和动态语义（运行阶段才能确定）。
源代码优化【这阶段也包括中间代码(例如llvm 中的 IR)的生成】

由于直接在语法树上作优化难度较大，源代码优化器通常将语法树转化为中间代码，再进行优化。
目标代码生成和目标代码优化

代码生成器将中间代码转化成目标机器代码。

接着目标代码优化器对上述目标代码进行优化。（如选择合适的寻址方式，删除多余指令等）

编译过程相当于如下命令：
gcc -S hello.i -o hello.s (.s 是汇编输出文件的后缀)
或者
gcc -S hello.c -o hello.s  (预编译和编译合并了)

汇编器将汇编代码转变为机器可以执行的指令。（生成可重定位文件 .o）

编译过程相当于如下命令：
as  hello.s -o hello.o 
或者
gcc -c hello.s -o hello.o 
或者
gcc -c hello.c -hello.o (上面三个过程一步完成)

对于一个复杂的软件，将每个源代码模块独立地翻译，然后组装。这个组装模块的过程就是链接。（主要包括地址和空间分配、符号决议、重定位等步骤）

最基本的静态链接过程：每个模块的源代码文件（如.c）文件经过编译器编译成可重定位文件（Object File,扩展名为.o或.obj），可重定位文件和库一起链接形成最终可执行文件（.out）。

链接过程相当于如下命令：

gcc  hello.o -o hello.out

以如下代码为例：

#include<stdio.h>

int main()
{
printf("hello world");
return 0;
}

目前PC平台流行的可执行文件格式（Executable）主要是：

PE（Windows）和 ELF（Linux）。【两者都发源自 COFF 可执行文件格式】

另外的如ios 是 Mach-O格式，android 是dex格式。

而可重定位文件是源代码编译后但未进行链接的中间文件。（Windows 下的.obj 和 Linux 下的.o）。

因此，可重定位文件和可执行文件的内容和结构是很相似的。（可以广义的将二者看作一种类型的文件）

同时动态链接库（Windows 下的.dll 和 Linux 下的.so）和 静态链接库（Windows 下的.lib 和 Linux 下的.a）文件都可按照可执行文件格式存储。

【小技巧： Linux 下可使用file命令查看相应的文件格式】

程序的指令和数据分开存放的好处：

标签：可执行文件,文件,可重,程序员,源文件,编译,源代码,hello
From： https://www.cnblogs.com/Only-xiaoxiao/p/17174043.html