Linux 五種 IO 模型和三種多路復用技術(shù)大詳解

作者：騰訊技術(shù)工程 2025-04-24 10:05:51

select，poll，epoll都是IO多路復用機制，即可以監(jiān)視多個描述符，一旦某個描述符就緒（讀或?qū)懢途w），能夠通知程序進行相應讀寫操作。

作者 | symen

在Linux系統(tǒng)中，實際上所有的I/O設(shè)備都被抽象為文件這個概念，一切皆文件（Everything is File）。無論是磁盤、網(wǎng)絡(luò)數(shù)據(jù)、終端，還是進程間通信工具（如：管道pipe）等都被抽象為文件的概念。這種設(shè)計使得 I/O 操作可以通過統(tǒng)一的文件描述符（File Descriptor, FD）來管理。在了解多路復用select、poll、epoll實現(xiàn)之前，我們先簡單回憶復習以下兩個概念。

一、什么是多路復用

多路: 是指多個網(wǎng)絡(luò)連接（Socket）

復用: 是指通過一個線程同時監(jiān)控多個文件描述符的就緒狀態(tài)。這樣，程序可以高效地處理多個 I/O 事件，而不需要為每個連接創(chuàng)建單獨的線程，從而節(jié)省系統(tǒng)資源。

多路復用主要有三種技術(shù)：select，poll，epoll。其中，epoll 是最新且性能最優(yōu)的實現(xiàn)，能夠高效地處理大規(guī)模并發(fā)連接。

二、五種IO模型

[1]blockingIO - 阻塞IO
[2]nonblockingIO - 非阻塞IO
[3]signaldrivenIO - 信號驅(qū)動IO
[4]asynchronousIO - 異步IO
[5]IOmultiplexing - IO多路復用

1. 阻塞式I/O模型

在阻塞式 I/O 模型中，在I/O操作的兩個階段均會阻塞線程:

數(shù)據(jù)等待階段：當進程或線程發(fā)起IO請求（如：調(diào)用 recvfrom 系統(tǒng)調(diào)用）時，它會一直阻塞，直到內(nèi)核確認數(shù)據(jù)已準備好（例：網(wǎng)卡接收數(shù)據(jù)、網(wǎng)絡(luò)數(shù)據(jù)到達內(nèi)核緩沖區(qū)）。
數(shù)據(jù)復制階段：內(nèi)核將數(shù)據(jù)從內(nèi)核空間復制到用戶空間時，線程/進程仍處于阻塞狀態(tài)。此過程線程/進程在等待I/O完成期間無法執(zhí)行其他任務(wù)（被掛起），CPU資源可能閑置。

主要特點：

阻塞掛起：進程/線程在等待數(shù)據(jù)時會被掛起，不占用 CPU 資源。
及時響應：每個操作都能得到及時處理，適合對實時性要求較高的場景。
實現(xiàn)簡單：開發(fā)難度低，邏輯直觀，代碼按順序執(zhí)行，無需處理多線程或異步回調(diào)的復雜性。
適用場景：阻塞式 I/O 模型適合并發(fā)量較小、對實時性要求較高的應用。但在高并發(fā)場景中，其系統(tǒng)開銷和性能限制使其不再適用。
系統(tǒng)開銷大：由于每個請求都會阻塞進程/線程，因此需要為每個請求分配獨立的進程或線程來處理。在高并發(fā)場景下，這種模型會消耗大量系統(tǒng)資源（如內(nèi)存和上下文切換開銷），導致性能瓶頸。

2. 非阻塞式I/O模型

在非阻塞式 I/O 模型中，當進程發(fā)起 I/O 系統(tǒng)調(diào)用（如 recvfrom）時：

如果內(nèi)核緩沖區(qū)沒有數(shù)據(jù)，內(nèi)核會立即返回一個錯誤（如 EWOULDBLOCK 或 EAGAIN），而不會阻塞進程。
如果內(nèi)核緩沖區(qū)有數(shù)據(jù)，內(nèi)核會將數(shù)據(jù)復制到用戶空間并返回成功。

主要特點：

非阻塞：進程不會被掛起，無論是否有數(shù)據(jù)都會立即返回。
輪詢機制：進程需要不斷發(fā)起系統(tǒng)調(diào)用（輪詢）來檢查數(shù)據(jù)是否就緒，這會消耗大量 CPU 資源。
實現(xiàn)難度較低：相比阻塞式 I/O，開發(fā)復雜度稍高，但仍屬于較簡單的模型。
實時性差：輪詢機制無法保證及時響應數(shù)據(jù)到達事件，可能導致延遲。
適用場景：適合并發(fā)量較小、且對實時性要求不高的網(wǎng)絡(luò)應用開發(fā)。由于其 CPU 開銷較大，通常不適用于高并發(fā)或高性能場景。

3. 信號驅(qū)動IO

在信號驅(qū)動 I/O 模型中，進程發(fā)起一個 I/O 操作時，會向內(nèi)核注冊一個信號處理函數(shù)（如 SIGIO），然后立即返回，不會被阻塞。當內(nèi)核數(shù)據(jù)就緒時，會向進程發(fā)送一個信號，進程在信號處理函數(shù)中調(diào)用 I/O 操作（如 recvfrom）讀取數(shù)據(jù)。

主要特點：

非阻塞：進程在等待數(shù)據(jù)時不會被阻塞，可以繼續(xù)執(zhí)行其他任務(wù)。
回調(diào)機制：通過信號通知的方式實現(xiàn)異步事件處理，數(shù)據(jù)就緒時內(nèi)核主動通知進程。
實現(xiàn)難度大：信號處理函數(shù)的編寫和調(diào)試較為復雜，開發(fā)難度較高。
信號處理復雜性：信號處理函數(shù)需要處理異步事件，可能引入競態(tài)條件和不可預測的行為。

適用場景有限：適合對實時性要求較高、但并發(fā)量較小的網(wǎng)絡(luò)應用開發(fā)。由于其實現(xiàn)復雜性和潛在問題，通常不適用于高并發(fā)或高性能場景。

4. 異步IO

在異步 I/O 模型中，當進程發(fā)起一個 I/O 操作時，會立即返回，不會被阻塞，也不會立即返回結(jié)果。內(nèi)核會負責完成整個 I/O 操作（包括數(shù)據(jù)準備和復制到用戶空間），并在操作完成后通知進程。如果 I/O 操作成功，進程可以直接獲取到數(shù)據(jù)。

主要特點：

完全非阻塞：進程在發(fā)起 I/O 操作后不會被阻塞，可以繼續(xù)執(zhí)行其他任務(wù)。
Proactor 模式：內(nèi)核負責完成 I/O 操作并通知進程，進程只需處理最終結(jié)果。
高性能：適合高并發(fā)、高性能場景，能夠充分利用系統(tǒng)資源。
操作系統(tǒng)支持：異步 I/O 需要操作系統(tǒng)的底層支持。在 Linux 中，異步 I/O 從 2.5 版本內(nèi)核開始引入，并在 2.6 版本中成為標準特性。
實現(xiàn)難度大：異步 I/O 的開發(fā)復雜度較高，需要處理回調(diào)、事件通知等機制。

適用場景：異步 I/O 模型非常適合高性能、高并發(fā)的網(wǎng)絡(luò)應用開發(fā)，如大規(guī)模 Web 服務(wù)器、數(shù)據(jù)庫系統(tǒng)等。

5. IO復用模型

大多數(shù)文件系統(tǒng)的默認IO操作都是緩存IO。在Linux的緩存IO機制中，操作系統(tǒng)會將IO的數(shù)據(jù)緩存在文件系統(tǒng)的頁緩存（page cache）。也就是說，數(shù)據(jù)會先被拷貝到操作系統(tǒng)內(nèi)核的緩沖區(qū)中，然后才會從操作系統(tǒng)內(nèi)核的緩存區(qū)拷貝到應用程序的地址空間中。這種做法的缺點就是，需要在應用程序地址空間和內(nèi)核進行多次拷貝，這些拷貝動作所帶來的CPU以及內(nèi)存開銷是非常大的。至于為什么不能直接讓磁盤控制器把數(shù)據(jù)送到應用程序的地址空間中呢？最簡單的一個原因就是應用程序不能直接操作底層硬件。總的來說，IO分兩階段： 1)數(shù)據(jù)準備階段 2)內(nèi)核空間復制回用戶進程緩沖區(qū)階段。如下圖：

三、I/O 多路復用之select、poll、epoll詳解

目前支持I/O多路復用的系統(tǒng)調(diào)用有select，pselect，poll，epoll。與多進程和多線程技術(shù)相比，I/O多路復用技術(shù)的最大優(yōu)勢是系統(tǒng)開銷小，系統(tǒng)不必創(chuàng)建進程/線程，也不必維護這些進程/線程，從而大大減小了系統(tǒng)的開銷。 I/O多路復用就是通過一種機制，一個進程可以監(jiān)視多個描述符，一旦某個描述符就緒（一般是讀就緒或者寫就緒），能夠通知程序進行相應的讀寫操作。但select，poll，epoll本質(zhì)上都是同步I/O，因為他們都需要在讀寫事件就緒后自己負責進行讀寫，也就是說這個讀寫過程是阻塞的，而異步I/O則無需自己負責進行讀寫，異步I/O的實現(xiàn)會負責把數(shù)據(jù)從內(nèi)核拷貝到用戶空間。

1. select

int select (int n, fd_set *readfds, fd_set *writefds, fd_set *exceptfds, struct timeval *timeout);

readfds：內(nèi)核檢測該集合中的IO是否可讀。如果想讓內(nèi)核幫忙檢測某個IO是否可讀，需要手動把文件描述符加入該集合。
writefds：內(nèi)核檢測該集合中的IO是否可寫。同readfds，需要手動把文件描述符加入該集合。
exceptfds：內(nèi)核檢測該集合中的IO是否異常。同readfds，需要手動把文件描述符加入該集合。
nfds：以上三個集合中最大的文件描述符數(shù)值 + 1，例如集合是{0,1,5,10}，那么 maxfd 就是 11
timeout：用戶線程調(diào)用select的超時時長。
設(shè)置成NULL，表示如果沒有 I/O 事件發(fā)生，則 select 一直等待下去。
設(shè)置為非0的值，這個表示等待固定的一段時間后從 select 阻塞調(diào)用中返回。
設(shè)置成 0，表示根本不等待，檢測完畢立即返回。

函數(shù)返回值：

大于0：成功，返回集合中已就緒的IO總個數(shù)
等于-1：調(diào)用失敗
等于0：沒有就緒的IO

從上述的select函數(shù)聲明可以看出，fd_set本質(zhì)是一個數(shù)組，為了方便我們操作該數(shù)組，操作系統(tǒng)提供了以下函數(shù)：

// 將文件描述符fd從set集合中刪除 
void FD_CLR(int fd, fd_set *set); 

// 判斷文件描述符fd是否在set集合中 
int  FD_ISSET(int fd, fd_set *set); 

// 將文件描述符fd添加到set集合中 
void FD_SET(int fd, fd_set *set); 

// 將set集合中, 所有文件描述符對應的標志位設(shè)置為0
void FD_ZERO(fd_set *set);

select 函數(shù)監(jiān)視的文件描述符分3類，分別是writefds、readfds、和exceptfds，當用戶process調(diào)用select的時候，select會將需要監(jiān)控的readfds集合拷貝到內(nèi)核空間（假設(shè)監(jiān)控的僅僅是socket可讀），然后遍歷自己監(jiān)控的skb(SocketBuffer)，挨個調(diào)用skb的poll邏輯以便檢查該socket是否有可讀事件，遍歷完所有的skb后，如果沒有任何一個socket可讀，那么select會調(diào)用schedule_timeout進入schedule循環(huán)，使得process進入睡眠。如果在timeout時間內(nèi)某個socket上有數(shù)據(jù)可讀了，或者等待timeout了，則調(diào)用select的process會被喚醒，接下來select就是遍歷監(jiān)控的集合，挨個收集可讀事件并返回給用戶了，相應的偽碼如下：

int select(
    int nfds,
    fd_set *readfds,
    fd_set *writefds,
    fd_set *exceptfds,
    struct timeval *timeout);
// nfds:監(jiān)控的文件描述符集里最大文件描述符加1
// readfds：監(jiān)控有讀數(shù)據(jù)到達文件描述符集合，傳入傳出參數(shù)
// writefds：監(jiān)控寫數(shù)據(jù)到達文件描述符集合，傳入傳出參數(shù)
// exceptfds：監(jiān)控異常發(fā)生達文件描述符集合, 傳入傳出參數(shù)
// timeout：定時阻塞監(jiān)控時間，3種情況
//  1.NULL，永遠等下去
//  2.設(shè)置timeval，等待固定時間
//  3.設(shè)置timeval里時間均為0，檢查描述字后立即返回，輪詢

/* 
* select服務(wù)端偽碼
* 首先一個線程不斷接受客戶端連接，并把socket文件描述符放到一個list里。
*/
while(1) {
  connfd = accept(listenfd);
  fcntl(connfd, F_SETFL, O_NONBLOCK);
  fdlist.add(connfd);
}
/*
* select函數(shù)還是返回剛剛提交的list，應用程序依然list所有的fd，只不過操作系統(tǒng)會將準備就緒的文件描述符做上標識，
* 用戶層將不會再有無意義的系統(tǒng)調(diào)用開銷。
*/
struct timeval timeout;
int max = 0;  // 用于記錄最大的fd，在輪詢中時刻更新即可
// 初始化比特位
FD_ZERO(&read_fd);
while (1) {
    // 阻塞獲取 每次需要把fd從用戶態(tài)拷貝到內(nèi)核態(tài)
    nfds = select(max + 1, &read_fd, &write_fd, NULL, &timeout);
    // 每次需要遍歷所有fd，判斷有無讀寫事件發(fā)生
    for (int i = 0; i <= max && nfds; ++i) {
        // 只讀已就緒的文件描述符，不用過多遍歷
        if (i == listenfd) {
            // 這里處理accept事件
            FD_SET(i, &read_fd);//將客戶端socket加入到集合中
        }
        if (FD_ISSET(i, &read_fd)) {
            // 這里處理read事件
        }
    }
}

下面的動圖能更直觀的讓我們了解select：

通過上面的select邏輯過程分析，相信大家都意識到，select存在三個問題：

(1) 每次調(diào)用select，都需要把被監(jiān)控的fds集合從用戶態(tài)空間拷貝到內(nèi)核態(tài)空間，高并發(fā)場景下這樣的拷貝會使得消耗的資源是很大的。

(2) 能監(jiān)聽端口的數(shù)量有限，單個進程所能打開的最大連接數(shù)由FD_SETSIZE宏定義，監(jiān)聽上限就等于fds_bits位數(shù)組中所有元素的二進制位總數(shù)，其大小是32個整數(shù)的大小(在32位的機器上，大小就是3232，同理64位機器上為3264)，當然我們可以對宏FD_SETSIZE進行修改，然后重新編譯內(nèi)核，但是性能可能會受到影響，一般該數(shù)和系統(tǒng)內(nèi)存關(guān)系很大，具體數(shù)目可以cat /proc/sys/fs/file-max察看。32位機默認1024個，64位默認2048。

(3) 被監(jiān)控的fds集合中，只要有一個有數(shù)據(jù)可讀，整個socket集合就會被遍歷一次調(diào)用sk的poll函數(shù)收集可讀事件：由于當初的需求是樸素，僅僅關(guān)心是否有數(shù)據(jù)可讀這樣一個事件，當事件通知來的時候，由于數(shù)據(jù)的到來是異步的，我們不知道事件來的時候，有多少個被監(jiān)控的socket有數(shù)據(jù)可讀了，于是，只能挨個遍歷每個socket來收集可讀事件了。

2. poll

poll 的實現(xiàn)與 select 非常相似，都是通過監(jiān)視多個文件描述符（fd）來實現(xiàn) I/O 多路復用。兩者的主要區(qū)別在于描述 fd 集合的方式：select 使用 fd_set 結(jié)構(gòu)，而 poll 使用 pollfd 結(jié)構(gòu)。select 的 fd_set 結(jié)構(gòu)限制了 fd 集合的大小（通常為 1024），而 poll 使用 pollfd 結(jié)構(gòu)，理論上可以支持更多的 fd，解決了 select 的問題 (2)。

與 select 類似，poll 也存在性能瓶頸。當監(jiān)視的 fd 數(shù)量較多時，poll 需要將整個 pollfd 數(shù)組在用戶態(tài)和內(nèi)核態(tài)之間復制，無論這些 fd 是否就緒。這種復制的開銷會隨著 fd 數(shù)量的增加而線性增長，導致性能下降。

poll 適合需要監(jiān)視較多 fd 的場景，但在高并發(fā)或 fd 數(shù)量非常大的情況下，性能仍然不如 epoll。

解決 fd 數(shù)量限制問題：

struct pollfd {
   int fd;           /*文件描述符*/
   short events;     /*監(jiān)控的事件*/
   short revents;    /*監(jiān)控事件中滿足條件返回的事件*/
};
int poll(struct pollfd *fds, unsigned long nfds, int timeout);

函數(shù)參數(shù)：

fds：struct pollfd類型的數(shù)組, 存儲了待檢測的文件描述符，struct pollfd有三個成員：
fd：委托內(nèi)核檢測的文件描述符
events：委托內(nèi)核檢測的fd事件（輸入、輸出、錯誤），每一個事件有多個取值
revents：這是一個傳出參數(shù)，數(shù)據(jù)由內(nèi)核寫入，存儲內(nèi)核檢測之后的結(jié)果
nfds：描述的是數(shù)組 fds 的大小
timeout: 指定poll函數(shù)的阻塞時長
-1：一直阻塞，直到檢測的集合中有就緒的IO事件，然后解除阻塞函數(shù)返回
0：不阻塞，不管檢測集合中有沒有已就緒的IO事件，函數(shù)馬上返回
大于0：表示 poll 調(diào)用方等待指定的毫秒數(shù)后返回

函數(shù)返回值：

-1：失敗
大于0：表示檢測的集合中已就緒的文件描述符的總個數(shù)

下面是poll的函數(shù)原型，poll改變了fds集合的描述方式，使用了pollfd結(jié)構(gòu)而不是select的fd_set結(jié)構(gòu)，使得poll支持的fds集合限制遠大于select的1024。poll雖然解決了fds集合大小1024的限制問題，從實現(xiàn)來看。很明顯它并沒優(yōu)化大量描述符數(shù)組被整體復制于用戶態(tài)和內(nèi)核態(tài)的地址空間之間，以及個別描述符就緒觸發(fā)整體描述符集合的遍歷的低效問題。poll隨著監(jiān)控的socket集合的增加性能線性下降，使得poll也并不適合用于大并發(fā)場景。

poll服務(wù)端實現(xiàn)偽碼：
struct pollfd fds[POLL_LEN];
unsigned int nfds=0;
fds[0].fd=server_sockfd;
fds[0].events=POLLIN|POLLPRI;
nfds++;
while {
    res=poll(fds,nfds,-1);
    if(fds[0].revents&(POLLIN|POLLPRI)) {
        //執(zhí)行accept并加入fds中，nfds++
        if(--res<=0) continue
    }
    //循環(huán)之后的fds
    if(fds[i].revents&(POLLIN|POLLERR )) {
        //讀操作或處理異常等
        if(--res<=0) continue
    }
}

3. epoll

在 Linux 網(wǎng)絡(luò)編程中，select 曾長期被用作事件觸發(fā)的機制。然而，隨著高并發(fā)場景的需求增加，select 的性能瓶頸逐漸顯現(xiàn)。為了解決這些問題，Linux 內(nèi)核引入了 epoll 機制。相比于 select，epoll 的最大優(yōu)勢在于其性能不會隨著監(jiān)聽的文件描述符（fd）數(shù)量的增加而顯著下降。如前面我們所說，在內(nèi)核中的select實現(xiàn)中，它是采用輪詢來處理的，輪詢的fd數(shù)目越多，自然耗時越多。并且，在linux/posix_types.h頭文件有這樣的聲明：

#define __FD_SETSIZE 1024 (select 最多只能同時監(jiān)聽 1024 個 fd（由 __FD_SETSIZE 定義）。雖然可以通過修改內(nèi)核頭文件并重新編譯內(nèi)核來擴大這一限制，但這并不能從根本上解決問題。) 而epoll 使用基于事件回調(diào)的機制，而不是輪詢。它只會關(guān)注活躍的 fd，因此性能不會隨著 fd 數(shù)量的增加而顯著下降。

epoll 的使用： epoll的接口非常簡單，一共就三個函數(shù)：

epoll_create創(chuàng)建句柄：使用 epoll_create 創(chuàng)建一個 epoll 句柄。參數(shù) size 用于告訴內(nèi)核監(jiān)聽 fd 的數(shù)量（在較新的內(nèi)核中，size 參數(shù)已被忽略，但仍需大于 0），這個參數(shù)不同于select()中的第一個參數(shù)，給出最大監(jiān)聽的fd+1的值。需要注意的是，當創(chuàng)建好epoll句柄后，它就是會占用一個fd值，在linux下如果查看/proc/進程id/fd/，是能夠看到這個fd的，所以在使用完epoll后，必須調(diào)用close()關(guān)閉，否則可能導致fd被耗盡。
epoll_ctl管理連接：使用 epoll_ctl 向 epoll 對象中添加、修改或刪除要管理的 fd。
epoll_wait等待事件：使用 epoll_wait 等待其管理的 fd 上的 I/O 事件。

(1) epoll_create 函數(shù)

int epoll_create(int size);

功能：該函數(shù)生成一個 epoll 專用的文件描述符。
參數(shù)size: 用來告訴內(nèi)核這個監(jiān)聽的數(shù)目一共有多大，參數(shù) size 并不是限制了 epoll 所能監(jiān)聽的描述符最大個數(shù)，只是對內(nèi)核初始分配內(nèi)部數(shù)據(jù)結(jié)構(gòu)的一個建議。自從 linux 2.6.8 之后，size 參數(shù)是被忽略的，也就是說可以填只有大于 0 的任意值。
返回值：如果成功，返回poll 專用的文件描述符，否者失敗，返回-1。

epoll_create的源碼實現(xiàn)：

SYSCALL_DEFINE1(epoll_create1, int, flags)
{
    struct eventpoll *ep = NULL;

    //創(chuàng)建一個 eventpoll 對象
    error = ep_alloc(&ep);
}

//struct eventpoll 的定義
// file：fs/eventpoll.c
struct eventpoll {

    //sys_epoll_wait用到的等待隊列
    wait_queue_head_t wq;

    //接收就緒的描述符都會放到這里
    struct list_head rdllist;

    //每個epoll對象中都有一顆紅黑樹
    struct rb_root rbr;

    ......
}
static int ep_alloc(struct eventpoll **pep)
{
    struct eventpoll *ep;

    //申請 epollevent 內(nèi)存
    ep = kzalloc(sizeof(*ep), GFP_KERNEL);

    //初始化等待隊列頭
    init_waitqueue_head(&ep->wq);

    //初始化就緒列表
    INIT_LIST_HEAD(&ep->rdllist);

    //初始化紅黑樹指針
    ep->rbr = RB_ROOT;

    ......
}

其中eventpoll 這個結(jié)構(gòu)體中的幾個成員的含義如下：

wq：等待隊列鏈表。軟中斷數(shù)據(jù)就緒的時候會通過 wq 來找到阻塞在 epoll 對象上的用戶進程。
rbr：紅黑樹。為了支持對海量連接的高效查找、插入和刪除，eventpoll 內(nèi)部使用的就是紅黑樹。通過紅黑樹來管理用戶主進程accept添加進來的所有 socket 連接。
rdllist：就緒的描述符鏈表。當有連接就緒的時候，內(nèi)核會把就緒的連接放到 rdllist 鏈表里。這樣應用進程只需要判斷鏈表就能找出就緒進程，而不用去遍歷紅黑樹的所有節(jié)點了。

(2) epoll_ctl 函數(shù)

int epoll_ctl(int epfd, int op, int fd, struct epoll_event *event);

功能：epoll 的事件注冊函數(shù)，它不同于 select() 是在監(jiān)聽事件時告訴內(nèi)核要監(jiān)聽什么類型的事件，而是在這里先注冊要監(jiān)聽的事件類型。
參數(shù)epfd: epoll 專用的文件描述符，epoll_create()的返回值
參數(shù)op: 表示動作，用三個宏來表示：

1. EPOLL_CTL_ADD：注冊新的 fd 到 epfd 中；
2. EPOLL_CTL_MOD：修改已經(jīng)注冊的fd的監(jiān)聽事件；
3. EPOLL_CTL_DEL：從 epfd 中刪除一個 fd；

- 參數(shù)fd: 需要監(jiān)聽的文件描述符
- 參數(shù)event: 告訴內(nèi)核要監(jiān)聽什么事件，struct epoll_event 結(jié)構(gòu)如:
- events 可以是以下幾個宏的集合：
- EPOLLIN ：表示對應的文件描述符可以讀（包括對端 SOCKET 正常關(guān)閉）；
- EPOLLOUT：表示對應的文件描述符可以寫；
- EPOLLPRI：表示對應的文件描述符有緊急的數(shù)據(jù)可讀（這里應該表示有帶外數(shù)據(jù)到來）；
- EPOLLERR：表示對應的文件描述符發(fā)生錯誤；
- EPOLLHUP：表示對應的文件描述符被掛斷；
- EPOLLET ：將 EPOLL 設(shè)為邊緣觸發(fā)(Edge Trigger)模式，這是相對于水平觸發(fā)(Level Trigger)來說的。
- EPOLLONESHOT：只監(jiān)聽一次事件，當監(jiān)聽完這次事件之后，如果還需要繼續(xù)監(jiān)聽這個 socket 的話，需要再次把這個 socket 加入到 EPOLL 隊列里
- 返回值：0表示成功，-1表示失敗。

(3) epoll_wait函數(shù)

int epoll_wait(int epfd, struct epoll_event * events, int maxevents, int timeout);

功能：等待事件的產(chǎn)生，收集在 epoll 監(jiān)控的事件中已經(jīng)發(fā)送的事件，類似于 select() 調(diào)用。
參數(shù)epfd: epoll 專用的文件描述符，epoll_create()的返回值
參數(shù)events: 分配好的 epoll_event 結(jié)構(gòu)體數(shù)組，epoll 將會把發(fā)生的事件賦值到events 數(shù)組中（events 不可以是空指針，內(nèi)核只負責把數(shù)據(jù)復制到這個 events 數(shù)組中，不會去幫助我們在用戶態(tài)中分配內(nèi)存）。
參數(shù)maxevents: maxevents 告之內(nèi)核這個 events 有多少個。
參數(shù)timeout: 超時時間，單位為毫秒，為 -1 時，函數(shù)為阻塞。

返回值：

如果成功，表示返回需要處理的事件數(shù)目
如果返回0，表示已超時
如果返回-1，表示失敗

#include <sys/socket.h>
#include <netinet/in.h>
#include <arpa/inet.h>
#include <stdio.h>
#include <unistd.h>
#include <errno.h>
#include <fcntl.h>
#include <stdlib.h>
#include <cassert>
#include <sys/epoll.h>
#include <sys/types.h>
#include <sys/stat.h>
#include <string.h>
#include<iostream>
const int MAX_EVENT_NUMBER = 10000; //最大事件數(shù)
// 設(shè)置句柄非阻塞
int setnonblocking(int fd)
{
    int old_option = fcntl(fd, F_GETFL);
    int new_option = old_option | O_NONBLOCK;
    fcntl(fd, F_SETFL, new_option);
    return old_option;
}

int main(){

    // 創(chuàng)建套接字
    int nRet=0;
    int m_listenfd = socket(PF_INET, SOCK_STREAM, 0);
    if(m_listenfd<0)
    {
        printf("fail to socket!");
        return -1;
    }
    // 
    struct sockaddr_in address;
    bzero(&address, sizeof(address));
    address.sin_family = AF_INET;
    address.sin_addr.s_addr = htonl(INADDR_ANY);
    address.sin_port = htons(6666);

    int flag = 1;
    // 設(shè)置ip可重用
    setsockopt(m_listenfd, SOL_SOCKET, SO_REUSEADDR, &flag, sizeof(flag));
    // 綁定端口號
    int ret = bind(m_listenfd, (struct sockaddr *)&address, sizeof(address));
    if(ret<0)
    {
        printf("fail to bind!,errno :%d",errno);
        return ret;
    }

    // 監(jiān)聽連接fd
    ret = listen(m_listenfd, 200);
    if(ret<0)
    {
        printf("fail to listen!,errno :%d",errno);
        return ret;
    }

    // 初始化紅黑樹和事件鏈表結(jié)構(gòu)rdlist結(jié)構(gòu)
    epoll_event events[MAX_EVENT_NUMBER];
    // 創(chuàng)建epoll實例
    int m_epollfd = epoll_create(5);
    if(m_epollfd==-1)
    {
        printf("fail to epoll create!");
        return m_epollfd;
    }


    // 創(chuàng)建節(jié)點結(jié)構(gòu)體將監(jiān)聽連接句柄
    epoll_event event;
    event.data.fd = m_listenfd;
    //設(shè)置該句柄為邊緣觸發(fā)（數(shù)據(jù)沒處理完后續(xù)不會再觸發(fā)事件，水平觸發(fā)是不管數(shù)據(jù)有沒有觸發(fā)都返回事件），
    event.events = EPOLLIN | EPOLLET | EPOLLRDHUP;
    // 添加監(jiān)聽連接句柄作為初始節(jié)點進入紅黑樹結(jié)構(gòu)中，該節(jié)點后續(xù)處理連接的句柄
    epoll_ctl(m_epollfd, EPOLL_CTL_ADD, m_listenfd, &event);

    //進入服務(wù)器循環(huán)
    while(1)
    {
        int number = epoll_wait(m_epollfd, events, MAX_EVENT_NUMBER, -1);
        if (number < 0 && errno != EINTR)
        {
            printf( "epoll failure");
            break;
        }
        for (int i = 0; i < number; i++)
        {
            int sockfd = events[i].data.fd;
            // 屬于處理新到的客戶連接
            if (sockfd == m_listenfd)
            {
                struct sockaddr_in client_address;
                socklen_t client_addrlength = sizeof(client_address);
                int connfd = accept(m_listenfd, (struct sockaddr *)&client_address, &client_addrlength);
                if (connfd < 0)
                {
                    printf("errno is:%d accept error", errno);
                    return false;
                }
                epoll_event event;
                event.data.fd = connfd;
                //設(shè)置該句柄為邊緣觸發(fā)（數(shù)據(jù)沒處理完后續(xù)不會再觸發(fā)事件，水平觸發(fā)是不管數(shù)據(jù)有沒有觸發(fā)都返回事件），
                event.events = EPOLLIN | EPOLLRDHUP;
                // 添加監(jiān)聽連接句柄作為初始節(jié)點進入紅黑樹結(jié)構(gòu)中，該節(jié)點后續(xù)處理連接的句柄
                epoll_ctl(m_epollfd, EPOLL_CTL_ADD, connfd, &event);
                setnonblocking(connfd);
            }
            else if (events[i].events & (EPOLLRDHUP | EPOLLHUP | EPOLLERR))
            {
                //服務(wù)器端關(guān)閉連接，
                epoll_ctl(m_epollfd, EPOLL_CTL_DEL, sockfd, 0);
                close(sockfd);
            }
            //處理客戶連接上接收到的數(shù)據(jù)
            else if (events[i].events & EPOLLIN)
            {
                char buf[1024]={0};
                read(sockfd,buf,1024);
                printf("from client :%s");

                // 將事件設(shè)置為寫事件返回數(shù)據(jù)給客戶端
                events[i].data.fd = sockfd;
                events[i].events = EPOLLOUT | EPOLLET | EPOLLONESHOT | EPOLLRDHUP;
                epoll_ctl(m_epollfd, EPOLL_CTL_MOD, sockfd, &events[i]);
            }
            else if (events[i].events & EPOLLOUT)
            {
                std::string response = "server response \n";
                write(sockfd,response.c_str(),response.length());

                // 將事件設(shè)置為讀事件，繼續(xù)監(jiān)聽客戶端
                events[i].data.fd = sockfd;
                events[i].events = EPOLLIN | EPOLLRDHUP;
                epoll_ctl(m_epollfd, EPOLL_CTL_MOD, sockfd, &events[i]);
            }
            //else if 可以加管道，unix套接字等等數(shù)據(jù)
        }
    }


}

如下圖，可以幫助我們理解的更加絲滑(/手動狗頭)：

4. epoll的邊緣觸發(fā)與水平觸發(fā)

(1) 水平觸發(fā)（LT）

關(guān)注點是數(shù)據(jù)是否有無，只要讀緩沖區(qū)不為空，寫緩沖區(qū)不滿，那么epoll_wait就會一直返回就緒，水平觸發(fā)是epoll的默認工作方式。適合對事件處理邏輯要求不高的場景。

(2) 邊緣觸發(fā)（ET）

關(guān)注點是數(shù)據(jù)的變化。只有當緩沖區(qū)狀態(tài)發(fā)生變化時（例如從空變?yōu)榉强眨驈姆强兆優(yōu)榭眨琫poll_wait 才會返回就緒狀態(tài)。這里的數(shù)據(jù)變化并不單純指緩沖區(qū)從有數(shù)據(jù)變?yōu)闆]有數(shù)據(jù)，或者從沒有數(shù)據(jù)變?yōu)橛袛?shù)據(jù)，還包括了數(shù)據(jù)變多或者變少。即當buffer長度有變化時，就會觸發(fā)。假設(shè)epoll被設(shè)置為了邊緣觸發(fā)，當客戶端寫入了100個字符，由于緩沖區(qū)從0變?yōu)榱?00，于是服務(wù)端epoll_wait觸發(fā)一次就緒，服務(wù)端讀取了2個字節(jié)后不再讀取。這個時候再去調(diào)用epoll_wait會發(fā)現(xiàn)不會就緒，只有當客戶端再次寫入數(shù)據(jù)后，才會觸發(fā)就緒。這就導致如果使用ET模式，那就必須保證要「一次性把數(shù)據(jù)讀取&寫入完」，否則會導致數(shù)據(jù)長期無法讀取/寫入。適合高性能場景，可以減少事件通知的次數(shù)，提高效率。

4. epoll 為什么比select，poll更高效？

從上圖可以看出，epoll使用紅黑樹管理文件描述符，紅黑樹插入和刪除的都是時間復雜度 O(logN)，不會隨著文件描述符數(shù)量增加而改變。 select、poll采用數(shù)組或者鏈表的形式管理文件描述符，那么在遍歷文件描述符時，時間復雜度會隨著文件描述的增加而增加，我們從以下幾點分析epoll的優(yōu)勢：

(1) 事件驅(qū)動機制（基于回調(diào)，而非輪詢）

select 和 poll 的輪詢機制： select 和 poll 采用輪詢的方式檢查所有被監(jiān)視的文件描述符（fd），無論這些 fd 是否就緒。每次調(diào)用時，都需要將整個 fd 集合從用戶態(tài)復制到內(nèi)核態(tài)，并在內(nèi)核中遍歷所有 fd 來檢查其狀態(tài)。隨著 fd 數(shù)量的增加，輪詢的開銷會線性增長，導致性能顯著下降。
epoll 的事件驅(qū)動機制：- epoll 使用基于事件回調(diào)的機制。內(nèi)核會維護一個就緒隊列，只關(guān)注那些狀態(tài)發(fā)生變化的 fd（即活躍的 fd）。一旦檢測到epoll管理的socket描述符就緒時，內(nèi)核會采用類似 callback 的回調(diào)機制，將其加入就緒隊列，epoll_wait 只需從隊列中獲取就緒的 fd，而不需要遍歷所有 fd。這種機制使得 epoll 的性能不會隨著 fd 數(shù)量的增加而顯著下降。

(2) 避免頻繁的用戶態(tài)與內(nèi)核態(tài)數(shù)據(jù)拷貝

select 和 poll 的數(shù)據(jù)拷貝問題：每次調(diào)用 select 或 poll 時，都需要將整個 fd 集合從用戶態(tài)復制到內(nèi)核態(tài)，調(diào)用結(jié)束后再將結(jié)果從內(nèi)核態(tài)復制回用戶態(tài)。這種頻繁的數(shù)據(jù)拷貝在高并發(fā)場景下會帶來較大的性能開銷。
epoll 的優(yōu)化： epoll 使用了內(nèi)存映射（ mmap ）技術(shù)，這樣便徹底省掉了這些socket描述符在系統(tǒng)調(diào)用時拷貝的開銷（因為從用戶空間到內(nèi)核空間需要拷貝操作）。mmap將用戶空間的一塊地址和內(nèi)核空間的一塊地址同時映射到相同的一塊物理內(nèi)存地址（不管是用戶空間還是內(nèi)核空間都是虛擬地址，最終要通過地址映射映射到物理地址），使得這塊物理內(nèi)存對內(nèi)核和對用戶均可見，減少用戶態(tài)和內(nèi)核態(tài)之間的數(shù)據(jù)交換，不需要依賴拷貝，這樣子內(nèi)核可以直接看到epoll監(jiān)聽的socket描述符，效率極高。

(3) 支持更大的并發(fā)連接數(shù)

select 的 fd 數(shù)量限制： select 使用 fd_set 結(jié)構(gòu)，其大小通常被限制為 1024（由 __FD_SETSIZE 定義），這意味著它最多只能同時監(jiān)視 1024 個 fd。雖然可以通過修改內(nèi)核頭文件并重新編譯內(nèi)核來擴大這一限制，但這并不能從根本上解決問題。
poll 的改進與局限： poll 使用 pollfd 結(jié)構(gòu)，理論上可以支持更多的 fd，但它仍然需要遍歷所有 fd，性能會隨著 fd 數(shù)量的增加而下降。
epoll 的無限制支持： epoll 沒有 fd 數(shù)量的硬性限制，適合高并發(fā)場景，能夠輕松支持數(shù)萬甚至數(shù)十萬的并發(fā)連接。

四、總結(jié)

select，poll，epoll都是IO多路復用機制，即可以監(jiān)視多個描述符，一旦某個描述符就緒（讀或?qū)懢途w），能夠通知程序進行相應讀寫操作。但select，poll，epoll本質(zhì)上都是同步I/O，因為他們都需要在讀寫事件就緒后自己負責進行讀寫，也就是說這個讀寫過程是阻塞的，而異步I/O則無需自己負責進行讀寫，異步I/O的實現(xiàn)會負責把數(shù)據(jù)從內(nèi)核拷貝到用戶空間。

select，poll實現(xiàn)需要自己不斷輪詢所有fd集合，直到設(shè)備就緒，期間可能要睡眠和喚醒多次交替。而epoll其實也需要調(diào)用epoll_wait不斷輪詢就緒鏈表，期間也可能多次睡眠和喚醒交替，但是它是設(shè)備就緒時，調(diào)用回調(diào)函數(shù)，把就緒fd放入就緒鏈表中，并喚醒在epoll_wait中進入睡眠的進程。雖然都要睡眠和交替，但是select和poll在“醒著”的時候要遍歷整個fd集合，而epoll在“醒著”的時候只要判斷一下就緒鏈表是否為空就行了，這節(jié)省了大量的CPU時間。這就是回調(diào)機制帶來的性能提升。
select，poll每次調(diào)用都要把fd集合從用戶態(tài)往內(nèi)核態(tài)拷貝一次，并且要把current往設(shè)備等待隊列中掛一次，而epoll只要一次拷貝，而且把current往等待隊列上掛也只掛一次（在epoll_wait的開始，注意這里的等待隊列并不是設(shè)備等待隊列，只是一個epoll內(nèi)部定義的等待隊列）。這也能節(jié)省不少的開銷。

責任編輯：趙寧寧來源：騰訊技術(shù)工程

Linux IO模系統(tǒng)