Linux C编程一站式学习-x86汇编基础

标签：x86 一站式 data edi eax 指令 Linux ebx start

要彻底搞清楚C语言的原理，必须要深入到指令一层去理解。你写一行C代码，编译器会生成什
么样的指令，要做到心中有数。本章介绍汇编程序的一些基础知识。

1. 最简单的汇编程序

#PURPOSE: Simple program that exits and returns a
# status code back to the Linux kernel
#
#INPUT: none
#
#OUTPUT: returns a status code. This can be viewed
# by typing
#
# echo $?
#
# after running the program
#
#VARIABLES:
# %eax holds the system call number
# %ebx holds the return status
#

.section .data

.section .text
.globl _start

_start:
movl $1, %eax   # this is the linux kernel command
                # number (system call) for exiting
                # a program
movl $4, %ebx   # this is the status number we will
                # return to the operating system.
                # Change this around and it will
                # return different things to
                # echo $?
#int $0x80       # this wakes up the kernel to run
                # the exit command

把这个程序保存成文件hello.s（汇编程序通常以.s作为文件名后缀），然后用汇编器
（Assembler）as把汇编程序中的助记符翻译成机器指令，生成目标文件hello.o：

as hello.s -o hello.o

然后用链接器（Linker，或Link Editor）ld把目标文件hello.o链接成可执行文件hello：

ld hello.o -o hello

在shell中运行

$ ./hello
$ echo $?
4

程序中的#号表示单行注释，类似于C语言的//注释。下面逐行解释非注释的代码。

.section .data

汇编程序中以.开头的名称并不是指令的助记符，不会被翻译成机器指令，而是给汇编器一些特
殊的指示，称为汇编指示（Assembler Directive）或伪操作（Pseudo-operation），由于它不
是真正的指令所以加个“伪”字。.section指示把代码划分成若干个段（Section），程序被操作
系统加载执行时，每个段被加载到不同的地址，具有不同的读、写、执行权限。.data段保存程
序的数据，是可读可写的，C程序的全局变量也属于.data段。本程序中没有定义数据，所
以.data段是空的。

.section .text

.text段保存代码，是只读和可执行的，后面那些指令都属于这个.text段。

.globl _start

_start是一个符号（Symbol），符号在汇编程序中代表一个地址，可以用在指令中，汇编程序
经过汇编器的处理之后，所有的符号都被替换成它所代表的地址值。在C语言中我们通过变量名
访问一个变量，其实就是读写某个地址的内存单元，我们通过函数名调用一个函数，其实就是
跳转到该函数第一条指令所在的地址，所以变量名和函数名都是符号，本质上是代表内存地址
的。
.globl指示告诉汇编器，_start这个符号要被链接器用到，所以要在目标文件的符号表中给它特
殊标记（在第 5.1 节 “目标文件”会讲到）。_start就像C程序的main函数一样特殊，是整个程序
的入口，链接器在链接时会查找目标文件中的_start符号代表的地址，把它设置为整个程序的
入口地址，所以每个汇编程序都要提供一个_start符号并且用.globl声明。如果一个符号没有
用.globl指示声明，就表示这个符号不会被链接器用到。

_start:

_start在这里就像C语言的语句标号一样。汇编器在处理汇编程序时会计算每个数据对象和每条
指令的地址，当汇编器看到这样一个标号时，就把它下面一条指令的地址作为_start这个符号
所代表的地址。而_start这个符号又比较特殊，它所代表的地址是整个程序的入口地址，所以
下一条指令movl $1, %eax就成了程序中第一条被执行的指令。

movl $1, %eax

这是一条数据传送指令，CPU内部产生一个数字1，然后传送到eax寄存器中。mov后面的l表
示long，说明是32位的传送指令。CPU内部产生的数称为立即数（Immediate），在汇编程序
中，立即数前面要加$，寄存器名前面要加%，以便跟符号名区分开。

movl $4, %ebx

和上一条指令类似，生成一个立即数4，传送到ebx寄存器中。

int $0x80

前两条指令都是为这条指令做准备的，执行这条指令时发生以下动作：

int指令称为软中断指令，可以用这条指令故意产生一个异常，上一章讲过，异常的处理和中断类似，CPU从用户模式切换到特权模式，然后跳转到内核代码中执行异常处理程序。
int指令中的立即数0x80是一个参数，在异常处理程序中要根据这个参数决定如何处理，在Linux内核中，int $0x80这种异常称为系统调用（System Call）。内核提供了很多系统服务供用户程序使用，但这些系统服务不能像库函数（比如printf）那样调用，因为在执行用户程序时CPU处于用户模式，不能直接调用内核函数，所以需要通过系统调用切换CPU模式，通过异常处理程序进入内核，用户程序只能通过寄存器传几个参数，之后就要按内核设计好的代码路线走，而不能由用户程序随心所欲，想调哪个内核函数就调哪个内核函数，这样保证了系统服务被安全地调用。在调用结束之后，CPU再切换回用户模式继续执行int指令后面的指令，在用户程序看来就像函数的调用和返回一样。
eax和ebx寄存器的值是传递给系统调用的两个参数，eax的值是系统调用号，1表示_exit系统调用，ebx的值则是传给_exit系统调用的参数，也就是退出状态。_exit这个系统调用会终止掉当前进程，而不会返回它继续执行。以后我们会讲到其它系统调用，也是由int $0x80指令引发的，eax的值是系统调用的编号，不同的系统调用需要的参数个数也不同，比如有的需要ebx、ecx、edx三个寄存器的值做参数，大多数系统调用完成之后是会返回用户程序继续执行的，本例的_exit系统调用比较特殊。

2. x86的寄存器

86的通用寄存器有eax、ebx、ecx、edx、edi、esi。这些寄存器在大多数指令中是可以任意选用的，比如movl指令可以把一个立即数传送到eax中，也可传送到ebx中。但也有一些指令规定只能用其中某些寄存器做某种用途，例如除法指令idivl要求被除数在eax寄存器中，edx寄存器必须是0，而除数可以在任意寄存器中，计算结果的商数保存在eax寄存器中（覆盖原来的被除数），余数保存在edx寄存器中。也就是说，通用寄存器对于某些指令而言不是通用的。x86的特殊寄存器有ebp、esp、eip、eflags。eip是程序计数器，eflags保存着计算过程中产生的标志位，包括第 3 节 “整数的加减运算”讲过的进位、溢出、零、负数四个标志位，在x86的文档中这几个标志位分别称为CF、OF、ZF、SF。ebp和esp用于维护函数调用的栈帧

3. 第二个汇编程序

#PURPOSE: This program finds the maximum number of a
# set of data items.
#
#VARIABLES: The registers have the following uses:
#
# %edi - Holds the index of the data item being examined
# %ebx - Largest data item found
# %eax - Current data item
#
# The following memory locations are used:
#
# data_items - contains the item data. A 0 is used
# to terminate the data
#

.section .data
data_items:                             #These are the data items
.long 3,67,34,222,45,75,54,34,44,33,22,11,66,0

.section .text
.globl _start

_start:
    movl $0, %edi                           # move 0 into the index register
    movl data_items(,%edi,4), %eax          # load the first byte of data
    movl %eax, %ebx                         # since this is the first item, %eax is
                                            # the biggest
    start_loop:                             # start loop
        cmpl $0, %eax                           # check to see if we've hit the end
        je loop_exit

        incl %edi                               # load next value
        movl data_items(,%edi,4), %eax
        
        cmpl %ebx, %eax                         # compare values
        jle start_loop                          # jump to loop beginning if the new
                                                # one isn't bigger
        movl %eax, %ebx                         # move the value as the largest
        jmp start_loop                          # jump to loop beginning
    loop_exit:
                                            # %ebx is the status code for the _exit system call
                                            # and it already has the maximum number
    movl $1, %eax                           #1 is the _exit() syscall
    int $0x80

汇编、链接、执行：

$ as max.s -o max.o
$ ld max.o -o max
$ ./max
$ echo $?

这个程序在一组数中找到一个最大的数，并把它作为程序的退出状态。这组数在.data段给出：

data_items:
 .long 3,67,34,222,45,75,54,34,44,33,22,11,66,0

.long指示声明一组数，每个数占32位，相当于C语言中的数组。这个数组开头有一个标号data_items，汇编器会把数组的首地址作为data_items符号所代表的地址，data_items类似于C语言中的数组名。data_items这个标号没有用.globl声明，因为它只在这个汇编程序内部使用，链接器不需要知道这个名字的存在。除了.long之外，常用的数据声明还有：

.byte，也是声明一组数，每个数占8位
.ascii，例如.ascii "Hello world"，声明了11个数，取值为相应字符的ASCII码。

注意，和C语言不同，这样声明的字符串末尾是没有'\0'字符的，如果需要以'\0'结尾可以声明,为.ascii "Hello world\0"。data_items数组的最后一个数是0，我们在一个循环中依次比较每个数，碰到0的时候让循环终止。在这个循环中：

edi寄存器保存数组中的当前位置，每次比较完一个数就把edi的值加1，指向数组中的下一个数。
ebx寄存器保存到目前为止找到的最大值，如果发现有更大的数就更新ebx的值。
eax寄存器保存当前要比较的数，每次更新edi之后，就把下一个数读到eax中。

_start:
 movl $0, %edi

初始化edi，指向数组的第0个元素。

 movl data_items(,%edi,4), %eax

这条指令把数组的第0个元素传送到eax寄存器中。data_items是数组的首地址，edi的值是数组的下标，4表示数组的每个元素占4字节，那么数组中第edi个元素的地址应该是data_items +edi * 4，从这个地址读数据，写成指令就是上面那样，这种地址的表示方式在下一节还会详细解释。

 movl %eax, %ebx

ebx的初始值也是数组的第0个元素。下面我们进入一个循环，在循环的开头用标号start_loop表示，循环的末尾之后用标号loop_exit表示。

start_loop:
 cmpl $0, %eax
 je loop_exit

比较eax的值是不是0，如果是0就说明到达数组末尾了，就要跳出循环。cmpl指令将两个操作数相减，但计算结果并不保存，只是根据计算结果改变eflags寄存器中的标志位。如果两个操作数相等，则计算结果为0，eflags中的ZF位置1。je是一个条件跳转指令，它检查eflags中的ZF位，ZF位为1则发生跳转，ZF位为0则不跳转，继续执行下一条指令。可见条件跳转指令和比较指令是配合使用的，前者改变标志位，后者根据标志位做判断，如果参与比较的两数相等则跳转，je的e就表示equal。

 incl %edi
 movl data_items(,%edi,4), %eax

将edi的值加1，把数组中的下一个数传送到eax寄存器中。

 cmpl %ebx, %eax
 jle start_loop

把当前数组元素eax和目前为止找到的最大值ebx做比较，如果前者小于等于后者，则最大值没
有变，跳转到循环开头比较下一个数，否则继续执行下一条指令。jle也是一个条件跳转指
令，le表示less than or equal。

 movl %eax, %ebx
 jmp start_loop

更新了最大值ebx然后跳转到循环开头比较下一个数。jmp是一个无条件跳转指令，什么条件也
不判断，直接跳转。loop_exit标号后面的指令用_exit系统调用退出程序。

下面是我对第二个二进制程序自己做的总结

1. 将 edi 修改为0
2. 取数组data_items中的第0个索引，赋值给 eax
data_items + edi * 4 = data_items + 0 * 4 = data_items(数组名默认为第0个索引)
3. 将 eax 的值赋值给 ebx

4. 定义一个start_loop的循环，结束在loop_exit

5. cmpl 比较 0 和 eax 的值，原理是使用 eax - 0，判断最后的结果，将结果保存到 eflags寄存器
一共有三种状态，正数，0，负数。分别代表 eax 是否大于、等于、小于0
这里比较的数不一定是0，可以使其他数，只有0-0的值为0，也就是判断eax的值是否为0
6. cmpl的结果会返回给 eflags 寄存器，如果为0，即 ZF 为 1，je就会判断ZF的值，为1则跳转
数组的最后一个数为0，使用该方式判断数组的结束

7.将 edi 的值 +1
8.取数组data_items中的第1个索引，复制给 eax

9. 比较 ebx 和 eax,相当于 eax - ebx,和杉树一样有三个结构
10. 使用 jle 判断，结果是否小于0或者等于0，如果小于0或者等于0其实就代表 eax并不大于ebx
跳转到循环的开始

11. 上述中如果没有跳转，代表 eax 值大于 ebx ，将 eax 的值赋值给 ebx
12. 跳转到循环的开始，从新来一轮循环，最终循环到数组最后一个值0结束循环

13. 将 1 赋值给 eax，1 代表 systemcall 中的 _exit()
14. 执行系统调用，没有加参数

标签：x86,一站式,data,edi,eax,指令,Linux,ebx,start
From： https://www.cnblogs.com/Junglezt/p/18215172

Linux C编程一站式学习-x86汇编基础

1. 最简单的汇编程序

2. x86的寄存器

3. 第二个汇编程序

相关文章

赞助商

阅读排行