# 网络,第 7 部分:非阻塞 I O,select()和 epoll
> 原文:<https://github.com/angrave/SystemProgramming/wiki/File-System%2C-Part-7%3A-Scalable-and-Reliable-Filesystems>
### 不要浪费时间等待
通常,当您调用`read()`时,如果数据不可用,它将等到数据准备就绪,然后函数返回。当您从磁盘读取数据时,该延迟可能不会很长,但是当您从慢速网络连接读取时,如果数据到达,则可能需要很长时间才能到达该数据。
POSIX 允许您在文件描述符上设置一个标志,以便对该文件描述符的`read()`的任何调用都将立即返回,无论它是否已完成。使用此模式下的文件描述符,您对`read()`的调用将启动读取操作,当它正在工作时,您可以执行其他有用的工作。这称为“非阻塞”模式,因为对`read()`的调用不会阻止。
要将文件描述符设置为非阻塞:
```c
// fd is my file descriptor
int flags = fcntl(fd, F_GETFL, 0);
fcntl(fd, F_SETFL, flags | O_NONBLOCK);
```
对于套接字,可以通过将`SOCK_NONBLOCK`添加到`socket()`的第二个参数,在非阻塞模式下创建它:
```c
fd = socket(AF_INET, SOCK_STREAM | SOCK_NONBLOCK, 0);
```
当文件处于非阻塞模式并且您调用`read()`时,它将立即返回任何可用的字节。假设已从套接字另一端的服务器到达 100 个字节,并调用`read(fd, buf, 150)`。 Read 将立即返回值 100,这意味着它会读取您要求的 150 个字节中的 100 个。假设您尝试通过调用`read(fd, buf+100, 50)`来读取剩余数据,但最后 50 个字节仍未到达。 `read()`将返回-1 并将全局错误变量 **errno** 设置为 EAGAIN 或 EWOULDBLOCK。这是系统告诉你数据尚未准备好的方式。
`write()`也适用于非阻塞模式。假设您要使用套接字将 40,000 个字节发送到远程服务器。系统一次只能发送这么多字节。通用系统一次可以发送大约 23,000 个字节。在非阻塞模式下,`write(fd, buf, 40000)`将返回它能够立即发送的字节数,或大约 23,000。如果你再次调用`write()`,它将返回-1 并将 errno 设置为 EAGAIN 或 EWOULDBLOCK。这是系统告诉你它仍然忙于发送最后一块数据的方式,并且尚未准备好发送更多数据。
### 如何检查 I / O 何时完成?
有几种方法。让我们看看如何使用 _ 选择 _ 和 _epoll_ 来做到这一点。
#### 选择
```c
int select(int nfds,
fd_set *readfds,
fd_set *writefds,
fd_set *exceptfds,
struct timeval *timeout);
```
给定三组文件描述符,`select()`将等待任何这些文件描述符变为“就绪”。
* `readfds` - 当有数据可以读取或达到 EOF 时,`readfds`中的文件描述符就绪。
* `writefds` - 当对 write()的调用成功时,`writefds`中的文件描述符就绪。
* `exceptfds` - 系统特定的,没有明确定义。只需为此传递 NULL。
`select()`返回准备好的文件描述符总数。如果它们在 _ 超时 _ 定义的时间内没有准备就绪,它将返回 0.在`select()`返回后,调用者需要遍历 readfds 和/或 writefds 中的文件描述符以查看哪些文件描述符准备好了。由于 readfds 和 writefds 同时充当输入和输出参数,当`select()`指示存在准备好的文件描述符时,它将覆盖它们以仅反映准备好的文件描述符。除非调用者只打算调用`select()`一次,否则在调用它之前保存 readfds 和 writefds 的副本是个好主意。
```c
fd_set readfds, writefds;
FD_ZERO(&readfds);
FD_ZERO(&writefds);
for (int i=0; i < read_fd_count; i++)
FD_SET(my_read_fds[i], &readfds);
for (int i=0; i < write_fd_count; i++)
FD_SET(my_write_fds[i], &writefds);
struct timeval timeout;
timeout.tv_sec = 3;
timeout.tv_usec = 0;
int num_ready = select(FD_SETSIZE, &readfds, &writefds, NULL, &timeout);
if (num_ready < 0) {
perror("error in select()");
} else if (num_ready == 0) {
printf("timeout\n");
} else {
for (int i=0; i < read_fd_count; i++)
if (FD_ISSET(my_read_fds[i], &readfds))
printf("fd %d is ready for reading\n", my_read_fds[i]);
for (int i=0; i < write_fd_count; i++)
if (FD_ISSET(my_write_fds[i], &writefds))
printf("fd %d is ready for writing\n", my_write_fds[i]);
}
```
[有关 select()](http://pubs.opengroup.org/onlinepubs/9699919799/functions/select.html)的更多信息
## epoll 的
_epoll_ 不是 POSIX 的一部分,但它受 Linux 支持。这是一种等待许多文件描述符的更有效方法。它会告诉你准确的描述符。它甚至为您提供了一种方法,可以使用每个描述符存储少量数据,如数组索引或指针,从而可以更轻松地访问与该描述符关联的数据。
要使用 epoll,首先必须使用 [epoll_create()](http://linux.die.net/man/2/epoll_create)创建一个特殊的文件描述符。您不会读取或写入此文件描述符;你只需将它传递给其他 epoll_xxx 函数并在结尾处调用 close()。
```c
epfd = epoll_create(1);
```
对于要使用 epoll 监视的每个文件描述符,您需要使用 [epoll_ctl()](http://linux.die.net/man/2/epoll_ctl)和`EPOLL_CTL_ADD`选项将其添加到 epoll 数据结构中。您可以向其添加任意数量的文件描述符。
```c
struct epoll_event event;
event.events = EPOLLOUT; // EPOLLIN==read, EPOLLOUT==write
event.data.ptr = mypointer;
epoll_ctl(epfd, EPOLL_CTL_ADD, mypointer->fd, &event)
```
要等待某些文件描述符准备就绪,请使用 [epoll_wait()](http://linux.die.net/man/2/epoll_wait)。它填充的 epoll_event 结构将包含您在添加此文件描述符时在 event.data 中提供的数据。这使您可以轻松查找与此文件描述符关联的自己的数据。
```c
int num_ready = epoll_wait(epfd, &event, 1, timeout_milliseconds);
if (num_ready > 0) {
MyData *mypointer = (MyData*) event.data.ptr;
printf("ready to write on %d\n", mypointer->fd);
}
```
假设您正在等待将数据写入文件描述符,但现在您要等待从中读取数据。只需将`epoll_ctl()`与`EPOLL_CTL_MOD`选项一起使用即可更改您正在监控的操作类型。
```c
event.events = EPOLLOUT;
event.data.ptr = mypointer;
epoll_ctl(epfd, EPOLL_CTL_MOD, mypointer->fd, &event);
```
要从 epoll 中取消订阅一个文件描述符,同时保留其他文件描述符,请将`epoll_ctl()`与`EPOLL_CTL_DEL`选项一起使用。
```c
epoll_ctl(epfd, EPOLL_CTL_DEL, mypointer->fd, NULL);
```
要关闭 epoll 实例,请关闭其文件描述符。
```c
close(epfd);
```
除了非阻塞`read()`和`write()`之外,对非阻塞套接字的`connect()`的任何调用也将是非阻塞的。要等待连接完成,请使用`select()`或 epoll 等待套接字可写。
## 有趣的 Blogpost 关于边缘情况与选择
[https://idea.popcount.org/2017-01-06-select-is-fundamentally-broken/](https://idea.popcount.org/2017-01-06-select-is-fundamentally-broken/)
- UIUC CS241 系统编程中文讲义
- 0. 简介
- #Informal 词汇表
- #Piazza:何时以及如何寻求帮助
- 编程技巧,第 1 部分
- 系统编程短篇小说和歌曲
- 1.学习 C
- C 编程,第 1 部分:简介
- C 编程,第 2 部分:文本输入和输出
- C 编程,第 3 部分:常见问题
- C 编程,第 4 部分:字符串和结构
- C 编程,第 5 部分:调试
- C 编程,复习题
- 2.进程
- 进程,第 1 部分:简介
- 分叉,第 1 部分:简介
- 分叉,第 2 部分:Fork,Exec,等等
- 进程控制,第 1 部分:使用信号等待宏
- 进程复习题
- 3.内存和分配器
- 内存,第 1 部分:堆内存简介
- 内存,第 2 部分:实现内存分配器
- 内存,第 3 部分:粉碎堆栈示例
- 内存复习题
- 4.介绍 Pthreads
- Pthreads,第 1 部分:简介
- Pthreads,第 2 部分:实践中的用法
- Pthreads,第 3 部分:并行问题(奖金)
- Pthread 复习题
- 5.同步
- 同步,第 1 部分:互斥锁
- 同步,第 2 部分:计算信号量
- 同步,第 3 部分:使用互斥锁和信号量
- 同步,第 4 部分:临界区问题
- 同步,第 5 部分:条件变量
- 同步,第 6 部分:实现障碍
- 同步,第 7 部分:读者编写器问题
- 同步,第 8 部分:环形缓冲区示例
- 同步复习题
- 6.死锁
- 死锁,第 1 部分:资源分配图
- 死锁,第 2 部分:死锁条件
- 死锁,第 3 部分:餐饮哲学家
- 死锁复习题
- 7.进程间通信&amp;调度
- 虚拟内存,第 1 部分:虚拟内存简介
- 管道,第 1 部分:管道介绍
- 管道,第 2 部分:管道编程秘密
- 文件,第 1 部分:使用文件
- 调度,第 1 部分:调度过程
- 调度,第 2 部分:调度过程:算法
- IPC 复习题
- 8.网络
- POSIX,第 1 部分:错误处理
- 网络,第 1 部分:简介
- 网络,第 2 部分:使用 getaddrinfo
- 网络,第 3 部分:构建一个简单的 TCP 客户端
- 网络,第 4 部分:构建一个简单的 TCP 服务器
- 网络,第 5 部分:关闭端口,重用端口和其他技巧
- 网络,第 6 部分:创建 UDP 服务器
- 网络,第 7 部分:非阻塞 I O,select()和 epoll
- RPC,第 1 部分:远程过程调用简介
- 网络复习题
- 9.文件系统
- 文件系统,第 1 部分:简介
- 文件系统,第 2 部分:文件是 inode(其他一切只是数据...)
- 文件系统,第 3 部分:权限
- 文件系统,第 4 部分:使用目录
- 文件系统,第 5 部分:虚拟文件系统
- 文件系统,第 6 部分:内存映射文件和共享内存
- 文件系统,第 7 部分:可扩展且可靠的文件系统
- 文件系统,第 8 部分:从 Android 设备中删除预装的恶意软件
- 文件系统,第 9 部分:磁盘块示例
- 文件系统复习题
- 10.信号
- 过程控制,第 1 部分:使用信号等待宏
- 信号,第 2 部分:待处理的信号和信号掩码
- 信号,第 3 部分:提高信号
- 信号,第 4 部分:信号
- 信号复习题
- 考试练习题
- 考试主题
- C 编程:复习题
- 多线程编程:复习题
- 同步概念:复习题
- 记忆:复习题
- 管道:复习题
- 文件系统:复习题
- 网络:复习题
- 信号:复习题
- 系统编程笑话