Linux面试题2：网络IO模型 & IO多路复用

标签：面试题 set epoll int fd IO Linux select

网络IO

先确定一下范围，我们讨论的都是网络IO，现阶段计算机早已经从CPU密集型转换成网络IO密集型，所以网络io的类型对于服务响应而言更重要。

五种IO模型

依据Unix的IO分类，网络IO分为五类

阻塞IO（BlockingIO
非阻塞IO（Non-Blocking IO
IO多路复用（ IO Multiplexing
信号驱动IO（signal driven IO
异步IO（async IO

内核态和用户态

可见另一篇文章

网络IO的两阶段阶段

等待网卡读就绪 —> 将网卡数据复制奥内核缓冲区

将内核缓冲区的数据复制到用户空间

其中：第一阶段主要用来区分是否是阻塞IO

阻塞与非阻塞

进行一个IO操作之后，无论是否有数据、是否就绪，是否会立刻返回而不阻塞用户进程的逻辑。
当用户进程发出read操作时，如果kernel中的数据没有准备好，不会block用户进程，而是返回一个EAGAIN err。从用户的角度而言，发起一个读操作，不需要等待，马上得到了一个结果。
一旦kernel的数据准备好了，收到用户进程的一个systemcall，就会马上把数据拷贝到用户内存，然后返回。

同步与异步

第二阶段，内核将数据拷贝到用户空间是否是同步进行的，决定是否是异步IO；除了aync IO以外其他都是同步的IO模型。

面试回答

概述

IO多路复用实际就是select/poll/epoll这些多路选择器，使用一个线程同时监听多个文件描述符(fd_set), I/O事件，阻塞等待并且在某个文件描述符可读写时收到通知。linux在处理网络IO连接时的优化，复用的不是I/O连接，而是复用的是线程，让一个线程处理多个连接。

select/poll/epoll

选择器	运行逻辑	特点	缺点
select			1.最大并发数限制； 2.每次调用select，需要把fd_set集合拷贝到内核态；3.性能衰减严重
poll			poll与select类似，只是没有最大并发数限制
epoll

select

#include <sys/time.h>
#include <sys/types.h>
#include <unistd.h>
 
int select(int nfds, fd_set *readfds, fd_set *writefds, fd_set *exceptfds, struct timeval *timeout);
 
// 和 select 紧密结合的四个宏：
void FD_CLR(int fd, fd_set *set);
int FD_ISSET(int fd, fd_set *set);
void FD_SET(int fd, fd_set *set);
void FD_ZERO(fd_set *set);

运行逻辑
fd_set如果是1 字节byte， 1byte = 8bit，每一个bit可以表示一个文件描述符fd，则1byte的fd_set最大可以对应8个fd

执行 FD_ZERO(&set), 则 set 用位表示是 0000,0000

若 fd＝5, 执行 FD_SET(fd, &set); 后 set 变为 0001,0000(第 5 位置为 1)

再加入 fd＝2, fd=1，则 set 变为 0001,0011

执行 select(6, &set, 0, 0, 0) 阻塞等待

若 fd=1, fd=2 上都发生可读事件，则 select 返回，此时 set 变为 0000,0011 (注意：没有事件发生的 fd=5 被清空)

特点

可以监控的文件描述符个数取决于 sizeof（fd_set）的值。如果 sizeof（fd_set） = 512，每个bit表示一个文件描述符， 512 * 8 = 4096。

需要拷贝 fd_set，转换成一个array

需要循环fd_set，线性扫描整个fd_set

epoll

epoll是Linux Kernel 2.6之后引入的IO事件驱动技术，本质上还是一个线程处理所有链接的等待消息准备好IO事件。但是当数十万的并发连接存在时，可能每一毫秒猪油数百个活跃的链接，同时其余数十万连接在这一毫秒是非活跃的，而select&poll的使用方法是 返回的活跃链接 == select(全部带监控的连接)

高频调用的接口是select()方法，而这个方法任何轻微的效率损失都会被高频两个字放大。epoll解决了这个问题.

#include <sys/epoll.h>  
int epoll_create(int size); // int epoll_create1(int flags);
int epoll_ctl(int epfd, int op, int fd, struct epoll_event *event);
int epoll_wait(int epfd, struct epoll_event *events, int maxevents, int timeout);

epoll的工作原理如下图：

epoll_ctl 来插入和删除一个fd，实现从用户态到内核态的拷贝，确保每一个fd只在生命周期一次拷贝。
epoll使用红黑树存储所有监控的fd，红黑树的时间复杂度O(logN)。
每一个fd有一个关键步骤：fd回合相应的设备（网卡、硬盘）驱动程序建立一个回调关系，在fd相应的时间出发之后，内核就会调用这个回调函数，ep_poll_callback,这个回调函数会把fd添加到fdllist的双向链表（就绪列表之中）epoll_wait这个就是检查是否有就绪的fd，所以非常高效。

Reactor网络模型

Linux平台主流的高性能网络库/框架中，大都采用了Reactor模式，比如netty、libevent等。

Reactor模式本质上是指 IO多路复用 + 非阻塞IO的模式。

通常是：一个主线程负责做event-loop时间循环和IO读写，通过select/poll/epoll_wait等系统调用监听IO事件，业务逻辑提交给其他工作线程去做。
非阻塞IO核心思想是避免阻塞在read()或者write()或者其他IO系统调用上，这样可以最大限度的服用event-loop线程，让一个线程能服务多个sockets。

Reactor模式的基本工作流程如下：

Server端完成在bind&Listen之后，

标签：面试题,set,epoll,int,fd,IO,Linux,select
From： https://www.cnblogs.com/fenngz/p/16926621.html