零拷贝IO

以下内容参考和转载自：小林coding，原来 8 张图，就可以搞懂「零拷贝」了。

1、DMA

在没有DMA（直接内存访问）技术之前，调用read()读取磁盘文件的话，会有5个步骤：CPU向磁盘发起IO请求—>磁盘控制器将数据放到磁盘缓冲区中后产生一个IO中断—>CPU收到IO中断信号后将磁盘缓冲区数据拷贝到内核缓冲区（PageCache）—>CPU将内核缓冲区的数据拷贝到用户缓存区—>然后read()返回。

在CPU收到IO中断信号一直到read()返回中间这些步骤都是靠CPU完成的，而有了DMA技术后，磁盘不再产生IO中断而是通知DMA控制器，DMA将数据从磁盘缓冲区拷贝到内核缓冲区（PageCache）后向CPU发出信号，CPU再从内核缓冲区中数据拷贝到用户缓冲区。也就是说原来CPU干的活（将数据从磁盘缓冲区拷贝到内核缓冲区）现在交给了DMA，这样CPU在这段时间就能去干其他事情了。

现在每个 I/O 设备里面都有自己的 DMA 控制器。

2、上下文切换

传统 I/O 的工作方式是，数据读取/写入是从用户空间到内核空间来回切换，如下所示的是从磁盘文件读取数据后发送到网卡的过程，一次read()或write()就会产生两次切换。之所以要发生上下文切换，这是因为用户空间没有权限操作磁盘或网卡，设备的操作都需要交由系统内核来完成：当read()/wirte()的时候，从用户态切换到内核态，当内核执行完任务后，再切换回用户态交由进程代码执行。

3、零拷贝

从上面我们可以看到，一次read()+write()会产生2次+2次即4次拷贝：比如read()会将数据从磁盘拷贝到内核缓冲区（PageCache），然后再将数据从内核缓冲区拷贝到用户缓冲区，调用write()到socket的话，会将数据从用户缓冲区拷贝到socket缓冲区，然后再将数据从socket缓冲区拷贝到网卡缓冲区后发送数据。而read()+write()总共会产生4次上下文切换。如果我们能减少数据拷贝次数，并且减少上下文切换次数的话就会提高IO效率，这就是零拷贝技术。

可以使用mmap()+sendfile()来实现零拷贝：mmap()可以将内核缓冲区内容「映射」到用户空间，这样内核缓冲区就是用户缓冲区，用户缓冲区也就是内核缓冲区，从而减少内核缓冲区到用户缓冲区的这一次拷贝。而使用sendfile()替换read()+write()的话，如果网卡支持 SG-DMA技术，那么sendfile()内部将内核缓冲区描述符和数据长度传到 socket 缓冲区后，SG-DMA 控制器可以直接将内核缓冲区的数据发送到网卡缓冲区，这样原来的4次拷贝就变成了现在的2次。而且由于内核缓冲区和socket缓冲区都属于内核态，原来的4次上下文切换现在也变成了2次，如下图所示。因为拷贝次数和上下文切换都少了一半，而且两次拷贝都不需要通过CPU，所以零拷贝技术可以将文件传输性能提高一倍以上。

4、PageCache

前面所说的内核缓冲区，实际上是磁盘高速缓存（PageCache），PageCache会缓存最近被访问的数据（当空间不足时淘汰最久未被访问的缓存）：读磁盘数据的时候，优先在 PageCache 找，如果数据存在则可以直接返回；如果没有，则从磁盘中读取，然后缓存到PageCache 中。PageCache还使用了“预读功能”：比如我们read() 0到32KB的数据的时候，其还会将后面32～64 KB的数据读取到PageCache，这样后面读取 32～64 KB 的成本就很低。

所以，使用PageCache 的优点主要是两个：缓存最近被访问的数据，预读功能，这两个优点会大大提高读写磁盘的性能。

然而，传输大文件的时候，使用PageCache会出现一些问题：一个就是大文件每当用户访问这些大文件的时候，内核就会把它们载入 PageCache 中，于是 PageCache 空间很快被这些大文件占满，所以现在PageCache中全是大文件的缓存数据，然而这些数据再次被访问的概率是比较低的，这样缓存光占了PageCache空间而未起作用。第二个问题就是由于文件太大，PageCache 空间很容易被这些大文件的缓存数据占满，这样其他「热点」的小文件数据就无法缓存到PageCache中。

5、大文件传输与异步IO

大文件传输使用PageCache的话，很难享受到PageCache缓存带来的好处，那也就没必要将数据缓存到PageCache上了，而异步IO就是这样，它不使用PageCache：在发起读请求后立即返回，数据直接从磁盘控制器拷贝到用户缓冲区，然后再通知用户，如下图所示。绕开 PageCache 的 I/O 叫直接 I/O，使用 PageCache 的 I/O 则叫缓存 I/O。通常，对于磁盘，异步 I/O 只支持直接 I/O。

所以，传输文件的时候，我们要根据文件的大小来使用不同的方式：

传输大文件的时候，使用「异步 I/O + 直接 I/O」；
传输小文件的时候，则使用「零拷贝技术」；

在 nginx 中，我们可以用如下配置，来根据文件的大小来使用不同的方式，当文件大小大于1G后，使用「异步 I/O + 直接 I/O」，否则使用「零拷贝技术」：

location /video/ { 
    sendfile on; 
    aio on; 
    directio 1024m; 
}

如果应用已经实现了磁盘数据的缓存，那么可以不需要 PageCache 再次缓存，以减少额外的性能损耗。比如在 MySQL 数据库中，可以通过参数来开启直接 I/O（避免使用PageCache），默认是不开启的。

5、异步IO与完成端口

实际上，从形式上来讲，异步IO也是属于零拷贝IO，比如对于读来说是直接从网卡拷贝到用户缓冲区，没有中间的DMA拷贝。在网上看到说使用完成端口实现异步通信的时候，需要将SO_RCVBUF设置为0以实现零拷贝，但是有另一种说法是在Win2K之后，不再需要将SO_RCVBUF设置为0，系统会自动将数据复制到用户的接收缓冲区中。

标签：内核,IO,缓冲区,磁盘,拷贝,PageCache
From： https://www.cnblogs.com/milanleon/p/18388781

相关文章

赞助商

阅读排行