首页 > 其他分享 >pwn学习笔记-栈溢出

pwn学习笔记-栈溢出

时间:2023-03-27 13:36:35浏览次数:55  
标签:函数 调用函数 地址 指令 笔记 pwn 函数调用 shellcode 溢出

背景知识

 

函数调用栈

函数调用栈是指程序运行时内存一段连续的区域,用来保存函数运行时的状态信息。包括函数参数与局部变量等。

称之为栈是因为在函数调用时,调用函数的状态被保存在栈内,被调用函数的状态被压入调用栈的栈顶;在函数调用结束之后,栈顶的函数状态会被弹出,栈顶回复到调用函数之前的状态。

函数调用栈在内存中中高地址向低地址生长,所以栈顶对应的内存地址在压栈时变小,退栈时变大。

 

 

 函数调用发生和结束时调用栈的变化

 

函数状态主要涉及三个寄存器:esp  ebp  eip。

esp:用来存储函数调用栈的栈顶地址,在压栈和退栈的时候发生变化。

ebp:用来存储当前函数的基地址,在函数运行时不变,可以用来索引确定函数参数或局部变量的位置。

eip:用来存储即将执行的程序指令的地址,cpu依照eip的存储内容读取指令并执行,eip随之指向相邻的下一条指令,如此反复,程序就得以连续执行命令。

 

下面我们来看看发生函数调用时,栈顶函数状态以及上述寄存器的变化。变化的核心任务是将调用函数caller的状态保存起来,同时创建被调用函数的状态。

首先将被调用函数的参数按照逆序依次压入栈中,如果被调用函数不需要参数,则没有这一步骤。这些参数仍会保存在调用函数的函数状态内,之后压入栈内的数据都会作为被调用函数的函数状态保存。

 

 

 

 

然后将调用函数(caller)进行调用之后的下一条指令地址作为返回地址压入栈内(就是eip)。这样调用函数(caller) eip(指令)信息得以保存。

 

 

 

 

 

 再将当前的ebp 寄存器的值(也就是调用函数的基地址)压入栈内,并 ebp 寄存器的值更新为当前栈顶的地址。这样调用函数(caller)的 ebp(基地址)信息得以保存。同时,ebp 被更新为被调用函数(callee)的基地址同时也是栈顶的地址。

 

 

 再之后是将被调用函数(callee)的局部变量等数据压入栈内。

 

 

 

在压栈的过程中,esp 寄存器的值不断减小(对应于栈从内存高地址向低地址生长)。压入栈内的数据包括调用参数、返回地址、调用函数的基地址,以及局部变量,其中调用参数以外的数据共同构成了被调用函数(callee)的状态。在发生调用时,程序还会将被调用函数(callee)的指令地址存到 eip 寄存器内,这样程序就可以依次执行被调用函数的指令了。

看过了函数调用发生时的情况,就不难理解函数调用结束时的变化。变化的核心任务是丢弃被调用函数(callee)的状态,并将栈顶恢复为调用函数(caller)的状态。

首先被调用函数的局部变量会从栈内直接弹出,栈顶会指向被调用函数(callee)的基地址。

 

 

然后将基地址内存储的调用函数(caller)的基地址从栈内弹出,并存到 ebp 寄存器内。这样调用函数(caller)的 ebp(基地址)信息得以恢复。此时栈顶会指向返回地址。

 

 

再将返回地址从栈内弹出,并存到 eip 寄存器内。这样调用函数(caller)的 eip(指令)信息得以恢复。

 

 

至此调用函数(caller)的函数状态就全部恢复了,之后就是继续执行调用函数的指令了。

  技术清单  

介绍完背景知识,就可以继续回归栈溢出攻击的主题了。当函数正在执行内部指令的过程中我们无法拿到程序的控制权,只有在发生函数调用或者结束函数调用时,程序的控制权会在函数状态之间发生跳转,这时才可以通过修改函数状态来实现攻击。而控制程序执行指令最关键的寄存器就是 eip(还记得 eip 的用途吗?),所以我们的目标就是让 eip 载入攻击指令的地址

先来看看函数调用结束时,如果要让 eip 指向攻击指令,需要哪些准备?首先,在退栈过程中,返回地址会被传给 eip,所以我们只需要让溢出数据用攻击指令的地址来覆盖返回地址就可以了。其次,我们可以在溢出数据内包含一段攻击指令,也可以在内存其他位置寻找可用的攻击指令。

 

 

核心目的是用攻击指令的地址来覆盖返回地址

 

再来看看函数调用发生时,如果要让 eip 指向攻击指令,需要哪些准备?这时,eip 会指向原程序中某个指定的函数,我们没法通过改写返回地址来控制了,不过我们可以“偷梁换柱”--将原本指定的函数在调用时替换为其他函数。

所以这篇文章会覆盖到的技术大概可以总结为(括号内英文是所用技术的简称):

  • 修改返回地址,让其指向溢出数据中的一段指令(shellcode)
  • 修改返回地址,让其指向内存中已有的某个函数(return2libc)
  • 修改返回地址,让其指向内存中已有的一段指令(ROP)
  • 修改某个被调用函数的地址,让其指向另一个函数(hijack GOT)

 

Shellcode

--修改返回地址,让其指向溢出数据中的一段指令

根据上面副标题的说明,要完成的任务包括:在溢出数据内包含一段攻击指令,用攻击指令的起始地址覆盖掉返回地址。攻击指令一般都是用来打开 shell,从而可以获得当前进程的控制权,所以这类指令片段也被成为“shellcode”。shellcode 可以用汇编语言来写再转成对应的机器码,也可以上网搜索直接复制粘贴,这里就不再赘述。下面我们先写出溢出数据的组成,再确定对应的各部分填充进去。

payload : padding1(esp和ebp) + address of shellcode + padding2 + shellcode

在做buuctf题目的时候写payload一直不明白其中的原理,今天终于搞懂了,padding1被存放到栈顶地址esp,也是被调用函数的基地址ebp。

 

 

 

shellcode 所用溢出数据的构造

 

padding1 处的数据可以随意填充(注意如果利用字符串程序输入溢出数据不要包含 “\x00” ,否则向程序传入溢出数据时会造成截断),长度应该刚好覆盖函数的基地址ebp。address of shellcode 是后面 shellcode 起始处的地址,用来覆盖返回地址。padding2 处的数据也可以随意填充,长度可以任意。shellcode 应该为十六进制的机器码格式。

 

根据上面的构造,我们要解决两个问题。

1. 返回地址之前的填充数据(padding1)应该多长?

我们可以用调试工具(例如 gdb)查看汇编代码来确定这个距离,也可以在运行程序时用不断增加输入长度的方法来试探(如果返回地址被无效地址例如“AAAA”覆盖,程序会终止并报错)。

 

2. shellcode起始地址应该是多少?

我们可以在调试工具里查看返回地址的位置(可以查看 ebp 的内容然后再加4(32位机),在溢出覆盖返回地址要在32位环境下+4偏移量,在64位环境下+8偏移量。参见前面关于函数状态的解释)

可是在调试工具里的这个地址有时候和正常运行时并不一致,这是运行时环境变量等因素有所不同造成的。所以这种情况下我们只能得到大致但不确切的 shellcode 起始地址。

解决办法是在 padding2 里填充若干长度的 “\x90”。这个机器码对应的指令是 NOP (No Operation),也就是告诉 CPU 什么也不做,然后跳到下一条指令。有了这一段 NOP 的填充,只要返回地址能够命中这一段中的任意位置,都可以无副作用地跳转到 shellcode 的起始处,所以这种方法被称为 NOP Sled(中文含义是“滑雪橇”)。这样我们就可以通过增加 NOP 填充来配合试验 shellcode 起始地址。

操作系统可以将函数调用栈的起始地址设为随机化(这种技术被称为内存布局随机化,即Address Space Layout Randomization (ASLR) ),这样程序每次运行时函数返回地址会随机变化。反之如果操作系统关闭了上述的随机化(这是技术可以生效的前提),那么程序每次运行时函数返回地址会是相同的,这样我们可以通过输入无效的溢出数据来生成core文件,再通过调试工具在core文件中找到返回地址的位置,从而确定 shellcode 的起始地址。

解决完上述问题,我们就可以拼接出最终的溢出数据,输入至程序来执行 shellcode 了。

 

 

shellcode 所用溢出数据的最终构造

看起来并不复杂对吧?但这种方法生效的一个前提是在函数调用栈上的数据(shellcode)要有可执行的权限(另一个前提是上面提到的关闭内存布局随机化)。很多时候操作系统会关闭函数调用栈的可执行权限,这样 shellcode 的方法就失效了,不过我们还可以尝试使用内存里已有的指令或函数,毕竟这些部分本来就是可执行的,所以不会受上述执行权限的限制。这就包括 return2libcROP 两种方法。

 

 

Return2libc

--修改返回地址,让其指向内存中已有的某个函数

根据上面副标题的说明,要完成的任务包括:在内存中确定某个函数的地址,并用其覆盖掉返回地址。由于 libc 动态链接库中的函数被广泛使用,所以有很大概率可以在内存中找到该动态库。同时由于该库包含了一些系统级的函数(例如 system() 等),所以通常使用这些系统级函数来获得当前进程的控制权。鉴于要执行的函数可能需要参数,比如调用 system() 函数打开 shell 的完整形式为 system(“/bin/sh”) ,所以溢出数据也要包括必要的参数。下面就以执行 system(“/bin/sh”) 为例,先写出溢出数据的组成,再确定对应的各部分填充进去。

payload: padding1 + address of system() + padding2 + address of “/bin/sh”

 

 

 

return2libc 所用溢出数据的构造

padding1 处的数据可以随意填充(注意不要包含 “\x00” ,否则向程序传入溢出数据时会造成截断),长度应该刚好覆盖函数的基地址ebp

address of system() 是 system() 在内存中的地址,用来覆盖返回地址。

padding2 处的数据长度为4(32位机),对应调用 system() 时的返回地址。因为我们在这里只需要打开 shell 就可以,并不关心从 shell 退出之后的行为,所以 padding2 的内容可以随意填充。

address of “/bin/sh” 是字符串 “/bin/sh” 在内存中的地址,作为传给 system() 的参数。

 

根据上面的构造,我们要解决个问题。

1. 返回地址之前的填充数据(padding1)应该多长?

解决方法和 shellcode 中提到的答案一样。

我们可以用调试工具(例如 gdb)查看汇编代码来确定这个距离,也可以在运行程序时用不断增加输入长度的方法来试探(如果返回地址被无效地址例如“AAAA”覆盖,程序会终止并报错)。

 

2. system() 函数地址应该是多少?

要回答这个问题,就要看看程序是如何调用动态链接库中的函数的。当函数被动态链接至程序中,程序在运行时首先确定动态链接库在内存的起始地址,再加上函数在动态库中的相对偏移量,最终得到函数在内存的绝对地址。说到确定动态库的内存地址,就要回顾一下 shellcode 中提到的内存布局随机化(ASLR),这项技术也会将动态库加载的起始地址做随机化处理。所以,如果操作系统打开了 ASLR,程序每次运行时动态库的起始地址都会变化,也就无从确定库内函数的绝对地址。在 ASLR 被关闭的前提下,我们可以通过调试工具在运行程序过程中直接查看 system() 的地址,也可以查看动态库在内存的起始地址,再在动态库内查看函数的相对偏移位置,通过计算得到函数的绝对地址。

 

最后,“/bin/sh” 的地址在哪里?

可以在动态库里搜索这个字符串,如果存在,就可以按照动态库起始地址+相对偏移来确定其绝对地址。如果在动态库里找不到,可以将这个字符串加到环境变量里,再通过 getenv() 等函数来确定地址。

 

解决完上述问题,我们就可以拼接出溢出数据,输入至程序来通过 system() 打开 shell 了。

 

 小结一下,本篇文章介绍了栈溢出的原理和两种执行方法,两种方法都是通过覆盖返回地址来执行输入的指令片段(shellcode)或者动态库中的函数(return2libc)。需要指出的是,这两种方法都需要操作系统关闭内存布局随机化(ASLR),而且 shellcode 还需要程序调用栈有可执行权限。  

以下几个可以练习安全技术的网站:

Pwnhub ( pwnhub | Beta ):长亭出品,题目丰富,积分排名机制,还可以兑换奖品,快来一起玩耍吧!

Pwnable.kr ( http://pwnable.kr ):有不同难度的题目,内容涵盖多个领域,界面很可爱

http://Pwnable.tw( Pwnable.tw ):由台湾CTF爱好者组织的练习平台,质量较高

Exploit Exercises ( https://exploit-exercises.com ):有比较完善的题目难度分级,还有虚拟机镜像供下载

 

参考文章:

https://zhuanlan.zhihu.com/p/25816426

标签:函数,调用函数,地址,指令,笔记,pwn,函数调用,shellcode,溢出
From: https://www.cnblogs.com/yushiting/p/17261203.html

相关文章

  • 阅读笔记-构建之法1
    《构建之法》第一章:软件=程序+软件工程。作为一名程序员,不能仅仅会写代码,深入了解一个软件是通过怎么样的层层工序制作出来,也是我们应当重点掌握的。文中通过生活实例,启发......
  • stm32学习笔记---i2c学习
    stm32学习笔记---i2c学习1、半双工,不能同时发送数据,一个设备发送另一个设备接受2、接受到数据有有应答3、能够挂在多个模块,且通信之间不受干扰,支持一主多从,多住多从4......
  • GNN(图)笔记
    图的基本概念不再详细描述有顶点(node,V)、边(edge,E),这里还有一个全局属性(global,U),但不知道具体表示什么边分为无向的边和有方向的边  三者都是通过向量来表示(embed......
  • 《构建之法》阅读笔记3
    第四章是《构建之法》中关于编程范式的章节,介绍了两种主流编程范式:面向对象编程和函数式编程。作者首先介绍了面向对象编程的概念和特点,通过一个简单的实例介绍了面向对象......
  • 轻松管理笔记,云端实现同步:Ihome主页插件的云笔记功能介绍
    IHome主页插件是一款方便实用的浏览器扩展,可以帮助用户快速访问常用的网站、应用和工具,提高上网效率和使用体验。它可以自定义主页,支持多种主题和布局,同时还提供了各种实用......
  • Spatio-Temporal Representation With Deep Neural Recurrent Network in MIMO CSI Fe
    阅读文献《Spatio-TemporalRepresentationWithDeepNeuralRecurrentNetworkinMIMOCSIFeedback》​ 该文献的作者是天津大学的吴华明老师,在2020年5月发表于IEEE......
  • jQuery(学习笔记1.0)
    jQuery是一个JavaScript库。jQuery极大地简化了JavaScript编程jQuery库可以通过一行简单的标记被添加到网页中。jQuery库包含以下特性:HTML元素选取HTML元素操作CSS操作HTML......
  • node.js 学习笔记
    阶段一1初始Node.jsjavascript运行环境1.2Node.js中的javacript运行环境1.3Node.js环境安装百度1.4node.js执行javaScript代码2fs文件系统模块2.1......
  • K8S学习笔记之卸载K8S集群
    阅读目录0x00概述0x01 操作0x00概述有时候需要卸载已安装在本机的K8S服务和服务,本文卸载的K8S面向使用kubeadm或者二进制方法安装的,不涉及使用rpm包安装的集群;......
  • Acer暗影骑士RTX3060 显卡最大功率95W笔记
    Acer暗影骑士RTX3060显卡默认85W,网上未见有人发过提高功率教程,自己摸索真机试了下说明:本文是本人亲测成功,型号暗影骑士NitroAN515-55,配置为Inteli710750+RTX3060,若是......