字節(jié)二面：為何還執(zhí)著傳統(tǒng)數(shù)據(jù)復制，零拷貝它不香嗎？

作者：深度Linux 2025-04-14 01:11:00

在多媒體流傳輸領域，零拷貝技術是實現(xiàn)流暢播放體驗的關鍵。以在線視頻播放為例，視頻數(shù)據(jù)需要從服務器快速傳輸?shù)娇蛻舳耍⑶乙蟮脱舆t。

在當今這個數(shù)據(jù)爆炸的時代，無論是互聯(lián)網(wǎng)巨頭的海量數(shù)據(jù)處理，還是新興創(chuàng)業(yè)公司對高效性能的追求，數(shù)據(jù)傳輸效率都成了決定系統(tǒng)成敗的關鍵因素。技術面試作為篩選人才的重要關卡，也越發(fā)關注候選人對前沿技術的掌握程度。字節(jié)跳動，作為行業(yè)內的技術先鋒，在面試中更是不斷拋出極具挑戰(zhàn)性的問題，以選拔出真正的技術高手。

“字節(jié)二面：還要使用傳統(tǒng)數(shù)據(jù)復制，為什么不用零拷貝？” 當這個問題擺在面試者面前時，看似簡單的詢問背后，實則隱藏著對候選人技術深度和廣度的全方位考察。它不僅要求你對零拷貝技術的原理了如指掌，更需要你能清晰洞察傳統(tǒng)數(shù)據(jù)復制在現(xiàn)代技術體系中的位置，以及在不同場景下二者的優(yōu)劣抉擇。

對于每一位渴望在技術領域嶄露頭角的開發(fā)者而言，理解這個問題，就如同掌握了一把通往高效數(shù)據(jù)處理世界的鑰匙。接下來，就讓我們一同深入剖析傳統(tǒng)數(shù)據(jù)復制與零拷貝技術的本質區(qū)別，探尋在字節(jié)跳動這樣的技術驅動型企業(yè)中，如何通過技術選型實現(xiàn)系統(tǒng)性能的飛躍。

一、傳統(tǒng) I/O 的困境

在深入了解零拷貝之前，讓我們先來看一下傳統(tǒng)的 I/O 數(shù)據(jù)傳輸方式。想象一下，你正在從服務器上下載一個文件，這個看似簡單的操作背后，其實涉及到了一系列復雜的數(shù)據(jù)傳輸過程。

當你發(fā)起下載請求時，操作系統(tǒng)會先從磁盤中讀取文件數(shù)據(jù)。這個過程中，數(shù)據(jù)首先會被讀取到內核緩沖區(qū)，然后再被拷貝到用戶空間的應用程序緩沖區(qū)。接著，應用程序將數(shù)據(jù)發(fā)送到網(wǎng)絡，數(shù)據(jù)又會從用戶空間緩沖區(qū)拷貝到內核空間的 socket 緩沖區(qū)，最后通過網(wǎng)卡發(fā)送出去。

具體來說，傳統(tǒng) I/O 的數(shù)據(jù)傳輸過程如下：

用戶態(tài)到內核態(tài)切換：應用程序調用 read 系統(tǒng)調用，請求讀取文件數(shù)據(jù)。此時，CPU 從用戶態(tài)切換到內核態(tài)，開始執(zhí)行內核中的代碼。
磁盤數(shù)據(jù)讀取到內核緩沖區(qū)：內核通過 DMA（直接內存訪問）技術，將磁盤數(shù)據(jù)直接拷貝到內核緩沖區(qū)。DMA 技術可以讓硬件設備（如磁盤控制器）直接訪問內存，而不需要 CPU 的干預，從而減輕 CPU 的負擔。
內核緩沖區(qū)數(shù)據(jù)拷貝到用戶緩沖區(qū)：數(shù)據(jù)從內核緩沖區(qū)拷貝到用戶空間的應用程序緩沖區(qū)。這一步需要 CPU 的參與，因為用戶空間和內核空間是相互隔離的，數(shù)據(jù)不能直接在兩者之間傳遞。
內核態(tài)到用戶態(tài)切換：read 系統(tǒng)調用返回，CPU 從內核態(tài)切換回用戶態(tài)，應用程序可以處理用戶緩沖區(qū)中的數(shù)據(jù)。
用戶態(tài)到內核態(tài)切換：應用程序調用 write 系統(tǒng)調用，請求將數(shù)據(jù)發(fā)送到網(wǎng)絡。CPU 再次從用戶態(tài)切換到內核態(tài)。
用戶緩沖區(qū)數(shù)據(jù)拷貝到 socket 緩沖區(qū)：數(shù)據(jù)從用戶緩沖區(qū)拷貝到內核空間的 socket 緩沖區(qū)，準備通過網(wǎng)絡發(fā)送出去。這一步同樣需要 CPU 的參與。
socket 緩沖區(qū)數(shù)據(jù)發(fā)送到網(wǎng)卡：內核通過 DMA 技術，將 socket 緩沖區(qū)中的數(shù)據(jù)拷貝到網(wǎng)卡緩沖區(qū)，然后通過網(wǎng)絡發(fā)送出去。
內核態(tài)到用戶態(tài)切換：write 系統(tǒng)調用返回，CPU 從內核態(tài)切換回用戶態(tài)，數(shù)據(jù)傳輸完成。

從上述過程可以看出，傳統(tǒng) I/O 在一次簡單的文件傳輸中，就涉及了 4 次用戶態(tài)與內核態(tài)的上下文切換，以及 4 次數(shù)據(jù)拷貝（其中 2 次是 DMA 拷貝，2 次是 CPU 拷貝）。上下文切換和數(shù)據(jù)拷貝都會消耗 CPU 資源和時間，在高并發(fā)的場景下，這些開銷會嚴重影響系統(tǒng)的性能。

例如，在一個高并發(fā)的文件服務器中，如果每一次文件傳輸都要經(jīng)歷如此繁瑣的過程，那么服務器的吞吐量將會受到極大的限制，響應速度也會變慢，用戶體驗也會大打折扣。因此，為了提高系統(tǒng)的性能，我們需要尋找一種更高效的數(shù)據(jù)傳輸方式，這就是零拷貝技術應運而生的背景。

二、零拷貝技術閃亮登場

零拷貝（zero-copy）基本思想是：數(shù)據(jù)報從網(wǎng)絡設備到用戶程序空間傳遞的過程中，減少數(shù)據(jù)拷貝次數(shù)，減少系統(tǒng)調用，實現(xiàn)CPU的零參與，徹底消除 CPU在這方面的負載。實現(xiàn)零拷貝用到的最主要技術是DMA數(shù)據(jù)傳輸技術和內存區(qū)域映射技術。如圖1所示，傳統(tǒng)的網(wǎng)絡數(shù)據(jù)報處理，需要經(jīng)過網(wǎng)絡設備到操作系統(tǒng)內存空間，系統(tǒng)內存空間到用戶應用程序空間這兩次拷貝，同時還需要經(jīng)歷用戶向系統(tǒng)發(fā)出的系統(tǒng)調用。

而零拷貝技術則首先利用DMA技術將網(wǎng)絡數(shù)據(jù)報直接傳遞到系統(tǒng)內核預先分配的地址空間中，避免CPU的參與；同時，將系統(tǒng)內核中存儲數(shù)據(jù)報的內存區(qū)域映射到檢測程序的應用程序空間（還有一種方式是在用戶空間建立一緩存，并將其映射到內核空間，類似于linux系統(tǒng)下的kiobuf技術），檢測程序直接對這塊內存進行訪問，從而減少了系統(tǒng)內核向用戶空間的內存拷貝，同時減少了系統(tǒng)調用的開銷，實現(xiàn)了真正的“零拷貝”。

圖片

2.1什么是零拷貝？

簡單一點來說，零拷貝就是一種避免 CPU 將數(shù)據(jù)從一塊存儲拷貝到另外一塊存儲的技術。針對操作系統(tǒng)中的設備驅動程序、文件系統(tǒng)以及網(wǎng)絡協(xié)議堆棧而出現(xiàn)的各種零拷貝技術極大地提升了特定應用程序的性能，并且使得這些應用程序可以更加有效地利用系統(tǒng)資源。這種性能的提升就是通過在數(shù)據(jù)拷貝進行的同時，允許 CPU 執(zhí)行其他的任務來實現(xiàn)的。

零拷貝技術可以減少數(shù)據(jù)拷貝和共享總線操作的次數(shù)，消除傳輸數(shù)據(jù)在存儲器之間不必要的中間拷貝次數(shù)，從而有效地提高數(shù)據(jù)傳輸效率。而且，零拷貝技術減少了用戶應用程序地址空間和操作系統(tǒng)內核地址空間之間因為上下文切換而帶來的開銷。進行大量的數(shù)據(jù)拷貝操作其實是一件簡單的任務，從操作系統(tǒng)的角度來說，如果 CPU 一直被占用著去執(zhí)行這項簡單的任務，那么這將會是很浪費資源的；如果有其他比較簡單的系統(tǒng)部件可以代勞這件事情，從而使得 CPU 解脫出來可以做別的事情，那么系統(tǒng)資源的利用則會更加有效。

零拷貝技術，就是為了解決傳統(tǒng) I/O 的性能瓶頸而誕生的。簡單來說，零拷貝技術的核心就是減少數(shù)據(jù)在內存之間的拷貝次數(shù)，從而提高數(shù)據(jù)傳輸?shù)男省＿@里的 “零拷貝” 并不是指完全沒有數(shù)據(jù)拷貝，而是盡可能地減少不必要的拷貝操作。

在零拷貝技術中，數(shù)據(jù)可以直接在內核空間中進行傳輸，而不需要經(jīng)過用戶空間的緩沖區(qū)。這樣就避免了傳統(tǒng) I/O 中數(shù)據(jù)在用戶空間和內核空間之間的多次拷貝，減少了 CPU 的上下文切換和數(shù)據(jù)拷貝的開銷，提高了系統(tǒng)的性能和吞吐量。

以 Linux 系統(tǒng)中的sendfile系統(tǒng)調用為例，這是一種常見的零拷貝實現(xiàn)方式。在使用sendfile時，數(shù)據(jù)可以直接從內核緩沖區(qū)傳輸?shù)?socket 緩沖區(qū)，而不需要經(jīng)過用戶空間。具體過程如下：

用戶態(tài)到內核態(tài)切換：應用程序調用sendfile系統(tǒng)調用，請求將文件數(shù)據(jù)發(fā)送到網(wǎng)絡。CPU 從用戶態(tài)切換到內核態(tài)。
磁盤數(shù)據(jù)讀取到內核緩沖區(qū)：內核通過 DMA 技術，將磁盤數(shù)據(jù)直接拷貝到內核緩沖區(qū)。
內核緩沖區(qū)數(shù)據(jù)直接傳輸?shù)?socket 緩沖區(qū)：內核直接將內核緩沖區(qū)中的數(shù)據(jù)傳輸?shù)?socket 緩沖區(qū)，而不需要經(jīng)過用戶空間。這一步利用了內核的特殊機制，直接在內核空間中完成數(shù)據(jù)的傳輸，避免了數(shù)據(jù)在用戶空間和內核空間之間的拷貝。
socket 緩沖區(qū)數(shù)據(jù)發(fā)送到網(wǎng)卡：內核通過 DMA 技術，將 socket 緩沖區(qū)中的數(shù)據(jù)拷貝到網(wǎng)卡緩沖區(qū)，然后通過網(wǎng)絡發(fā)送出去。
內核態(tài)到用戶態(tài)切換：sendfile系統(tǒng)調用返回，CPU 從內核態(tài)切換回用戶態(tài)，數(shù)據(jù)傳輸完成。

對比傳統(tǒng) I/O 和零拷貝技術的數(shù)據(jù)傳輸路徑，可以明顯看出零拷貝技術的優(yōu)勢。在傳統(tǒng) I/O 中，數(shù)據(jù)需要在用戶空間和內核空間之間多次拷貝，而在零拷貝技術中，數(shù)據(jù)可以直接在內核空間中傳輸，減少了數(shù)據(jù)拷貝的次數(shù)和上下文切換的開銷。這就好比在物流運輸中，傳統(tǒng) I/O 就像是貨物需要多次裝卸、轉運，而零拷貝技術則像是貨物可以直接從起點運輸?shù)浇K點，中間不需要多次中轉，大大提高了運輸?shù)男省?/p>

避免數(shù)據(jù)拷貝：

避免操作系統(tǒng)內核緩沖區(qū)之間進行數(shù)據(jù)拷貝操作。
避免操作系統(tǒng)內核和用戶應用程序地址空間這兩者之間進行數(shù)據(jù)拷貝操作。
用戶應用程序可以避開操作系統(tǒng)直接訪問硬件存儲。
數(shù)據(jù)傳輸盡量讓 DMA 來做。

將多種操作結合在一起

避免不必要的系統(tǒng)調用和上下文切換。
需要拷貝的數(shù)據(jù)可以先被緩存起來。
對數(shù)據(jù)進行處理盡量讓硬件來做。

對于高速網(wǎng)絡來說，零拷貝技術是非常重要的。這是因為高速網(wǎng)絡的網(wǎng)絡鏈接能力與 CPU 的處理能力接近，甚至會超過 CPU 的處理能力。

如果是這樣的話，那么 CPU 就有可能需要花費幾乎所有的時間去拷貝要傳輸?shù)臄?shù)據(jù)，而沒有能力再去做別的事情，這就產生了性能瓶頸，限制了通訊速率，從而降低了網(wǎng)絡連接的能力。一般來說，一個 CPU 時鐘周期可以處理一位的數(shù)據(jù)。舉例來說，一個 1 GHz 的處理器可以對 1Gbit/s 的網(wǎng)絡鏈接進行傳統(tǒng)的數(shù)據(jù)拷貝操作，但是如果是 10 Gbit/s 的網(wǎng)絡，那么對于相同的處理器來說，零拷貝技術就變得非常重要了。

對于超過 1 Gbit/s 的網(wǎng)絡鏈接來說，零拷貝技術在超級計算機集群以及大型的商業(yè)數(shù)據(jù)中心中都有所應用。然而，隨著信息技術的發(fā)展，1 Gbit/s，10 Gbit/s 以及 100 Gbit/s 的網(wǎng)絡會越來越普及，那么零拷貝技術也會變得越來越普及，這是因為網(wǎng)絡鏈接的處理能力比 CPU 的處理能力的增長要快得多。傳統(tǒng)的數(shù)據(jù)拷貝受限于傳統(tǒng)的操作系統(tǒng)或者通信協(xié)議，這就限制了數(shù)據(jù)傳輸性能。零拷貝技術通過減少數(shù)據(jù)拷貝次數(shù)，簡化協(xié)議處理的層次，在應用程序和網(wǎng)絡之間提供更快的數(shù)據(jù)傳輸方法，從而可以有效地降低通信延遲，提高網(wǎng)絡吞吐率。零拷貝技術是實現(xiàn)主機或者路由器等設備高速網(wǎng)絡接口的主要技術之一。

現(xiàn)代的 CPU 和存儲體系結構提供了很多相關的功能來減少或避免 I/O 操作過程中產生的不必要的 CPU 數(shù)據(jù)拷貝操作，但是，CPU 和存儲體系結構的這種優(yōu)勢經(jīng)常被過高估計。存儲體系結構的復雜性以及網(wǎng)絡協(xié)議中必需的數(shù)據(jù)傳輸可能會產生問題，有時甚至會導致零拷貝這種技術的優(yōu)點完全喪失。在下一章中，我們會介紹幾種 Linux 操作系統(tǒng)中出現(xiàn)的零拷貝技術，簡單描述一下它們的實現(xiàn)方法，并對它們的弱點進行分析。

2.2零拷貝技術分類

零拷貝技術的發(fā)展很多樣化，現(xiàn)有的零拷貝技術種類也非常多，而當前并沒有一個適合于所有場景的零拷貝技術的出現(xiàn)。對于 Linux 來說，現(xiàn)存的零拷貝技術也比較多，這些零拷貝技術大部分存在于不同的 Linux 內核版本，有些舊的技術在不同的 Linux 內核版本間得到了很大的發(fā)展或者已經(jīng)漸漸被新的技術所代替。本文針對這些零拷貝技術所適用的不同場景對它們進行了劃分。概括起來，Linux 中的零拷貝技術主要有下面這幾種：

直接 I/O：對于這種數(shù)據(jù)傳輸方式來說，應用程序可以直接訪問硬件存儲，操作系統(tǒng)內核只是輔助數(shù)據(jù)傳輸：這類零拷貝技術針對的是操作系統(tǒng)內核并不需要對數(shù)據(jù)進行直接處理的情況，數(shù)據(jù)可以在應用程序地址空間的緩沖區(qū)和磁盤之間直接進行傳輸，完全不需要 Linux 操作系統(tǒng)內核提供的頁緩存的支持。

在數(shù)據(jù)傳輸?shù)倪^程中，避免數(shù)據(jù)在操作系統(tǒng)內核地址空間的緩沖區(qū)和用戶應用程序地址空間的緩沖區(qū)之間進行拷貝。有的時候，應用程序在數(shù)據(jù)進行傳輸?shù)倪^程中不需要對數(shù)據(jù)進行訪問，那么，將數(shù)據(jù)從 Linux 的頁緩存拷貝到用戶進程的緩沖區(qū)中就可以完全避免，傳輸?shù)臄?shù)據(jù)在頁緩存中就可以得到處理。在某些特殊的情況下，這種零拷貝技術可以獲得較好的性能。Linux 中提供類似的系統(tǒng)調用主要有 mmap()，sendfile() 以及 splice()。

對數(shù)據(jù)在 Linux 的頁緩存和用戶進程的緩沖區(qū)之間的傳輸過程進行優(yōu)化。該零拷貝技術側重于靈活地處理數(shù)據(jù)在用戶進程的緩沖區(qū)和操作系統(tǒng)的頁緩存之間的拷貝操作。這種方法延續(xù)了傳統(tǒng)的通信方式，但是更加靈活。在　 Linux 中，該方法主要利用了寫時復制技術。

前兩類方法的目的主要是為了避免應用程序地址空間和操作系統(tǒng)內核地址空間這兩者之間的緩沖區(qū)拷貝操作。這兩類零拷貝技術通常適用在某些特殊的情況下，比如要傳送的數(shù)據(jù)不需要經(jīng)過操作系統(tǒng)內核的處理或者不需要經(jīng)過應用程序的處理。第三類方法則繼承了傳統(tǒng)的應用程序地址空間和操作系統(tǒng)內核地址空間之間數(shù)據(jù)傳輸?shù)母拍睿M而針對數(shù)據(jù)傳輸本身進行優(yōu)化。

我們知道，硬件和軟件之間的數(shù)據(jù)傳輸可以通過使用 DMA 來進行，DMA進行數(shù)據(jù)傳輸?shù)倪^程中幾乎不需要CPU參與，這樣就可以把 CPU 解放出來去做更多其他的事情，但是當數(shù)據(jù)需要在用戶地址空間的緩沖區(qū)和Linux操作系統(tǒng)內核的頁緩存之間進行傳輸?shù)臅r候，并沒有類似DMA這種工具可以使用，CPU 需要全程參與到這種數(shù)據(jù)拷貝操作中，所以這第三類方法的目的是可以有效地改善數(shù)據(jù)在用戶地址空間和操作系統(tǒng)內核地址空間之間傳遞的效率。

三、零拷貝的定義

Zero-copy, 就是在操作數(shù)據(jù)時, 不需要將數(shù)據(jù) buffer 從一個內存區(qū)域拷貝到另一個內存區(qū)域. 因為少了一次內存的拷貝, 因此 CPU 的效率就得到的提升；在OS層面上的 Zero-copy 通常指避免在用戶態(tài)(User-space) 與內核態(tài)(Kernel-space) 之間來回拷貝數(shù)據(jù)。

Netty 中的 Zero-copy 與 OS 的 Zero-copy 不太一樣, Netty的 Zero-coyp 完全是在用戶態(tài)(Java 層面)的, 它的 Zero-copy 的更多的是偏向于優(yōu)化數(shù)據(jù)操作。

3.1Netty的“零拷貝”

主要體現(xiàn)在如下三個方面：

Netty的接收和發(fā)送ByteBuffer采用DIRECT BUFFERS，使用堆外直接內存進行Socket讀寫，不需要進行字節(jié)緩沖區(qū)的二次拷貝。如果使用傳統(tǒng)的堆內存（HEAP BUFFERS）進行Socket讀寫，JVM會將堆內存Buffer拷貝一份到直接內存中，然后才寫入Socket中。相比于堆外直接內存，消息在發(fā)送過程中多了一次緩沖區(qū)的內存拷貝。
Netty提供了組合Buffer對象，可以聚合多個ByteBuffer對象，用戶可以像操作一個Buffer那樣方便得對組合Buffer進行操作，避免了傳統(tǒng)通過內存拷貝的方式將幾個小Buffer合并成一個大的Buffer。
Netty的文件傳輸采用了transferTo方法，它可以直接將文件緩沖區(qū)的數(shù)據(jù)發(fā)送到目標Channel，避免了傳統(tǒng)通過循環(huán)write方式導致的內存拷貝問題。

3.2傳統(tǒng)IO方式

在 java 開發(fā)中，從某臺機器將一份數(shù)據(jù)通過網(wǎng)絡傳輸?shù)搅硗庖慌_機器，大致的代碼如下：

Socket socket = new Socket(HOST, PORT);
InputStream inputStream = new FileInputStream(FILE_PATH);
OutputStream outputStream = new DataOutputStream(socket.getOutputStream());

byte[] buffer = new byte[4096];
while (inputStream.read(buffer) >= 0) {
    outputStream.write(buffer);
}

outputStream.close();
socket.close();
inputStream.close();

看起來代碼很簡單，但如果我們深入到操作系統(tǒng)層面，就會發(fā)現(xiàn)實際的微觀操作更復雜。具體操作如下圖：

圖片

1.用戶進程向OS發(fā)出read()系統(tǒng)調用，觸發(fā)上下文切換，從用戶態(tài)轉換到內核態(tài)。

2.CPU發(fā)起IO請求，通過直接內存訪問（DMA）從磁盤讀取文件內容，復制到內核緩沖區(qū)PageCache中

3.將內核緩沖區(qū)數(shù)據(jù)，拷貝到用戶空間緩沖區(qū)，觸發(fā)上下文切換，從內核態(tài)轉換到用戶態(tài)。

4.用戶進程向OS發(fā)起write系統(tǒng)調用，觸發(fā)上下文切換，從用戶態(tài)切換到內核態(tài)。

5.將數(shù)據(jù)從用戶緩沖區(qū)拷貝到內核中與目的地Socket關聯(lián)的緩沖區(qū)。

6.數(shù)據(jù)最終經(jīng)由Socket通過DMA傳送到硬件（網(wǎng)卡）緩沖區(qū)，write()系統(tǒng)調用返回，并從內核態(tài)切換回用戶態(tài)。

圖片

四、零拷貝（Zero-copy）

4.1數(shù)據(jù)拷貝基礎過程

在Linux系統(tǒng)內部緩存和內存容量都是有限的，更多的數(shù)據(jù)都是存儲在磁盤中。對于Web服務器來說，經(jīng)常需要從磁盤中讀取數(shù)據(jù)到內存，然后再通過網(wǎng)卡傳輸給用戶：

圖片

上述數(shù)據(jù)流轉只是大框，接下來看看幾種模式。

(1)僅CPU方式

當應用程序需要讀取磁盤數(shù)據(jù)時，調用read()從用戶態(tài)陷入內核態(tài)，read()這個系統(tǒng)調用最終由CPU來完成；
CPU向磁盤發(fā)起I/O請求，磁盤收到之后開始準備數(shù)據(jù)；
磁盤將數(shù)據(jù)放到磁盤緩沖區(qū)之后，向CPU發(fā)起I/O中斷，報告CPU數(shù)據(jù)已經(jīng)Ready了；
CPU收到磁盤控制器的I/O中斷之后，開始拷貝數(shù)據(jù)，完成之后read()返回，再從內核態(tài)切換到用戶態(tài)；

圖片

（2）CPU&DMA方式

CPU的時間寶貴，讓它做雜活就是浪費資源。

直接內存訪問（Direct Memory Access），是一種硬件設備繞開CPU獨立直接訪問內存的機制。所以DMA在一定程度上解放了CPU，把之前CPU的雜活讓硬件直接自己做了，提高了CPU效率。

目前支持DMA的硬件包括：網(wǎng)卡、聲卡、顯卡、磁盤控制器等。

有了DMA的參與之后的流程發(fā)生了一些變化：

圖片

主要的變化是，CPU不再和磁盤直接交互，而是DMA和磁盤交互并且將數(shù)據(jù)從磁盤緩沖區(qū)拷貝到內核緩沖區(qū)，之后的過程類似。

“【敲黑板】無論從僅CPU方式和DMA&CPU方式，都存在多次冗余數(shù)據(jù)拷貝和內核態(tài)&用戶態(tài)的切換。”

我們繼續(xù)思考Web服務器讀取本地磁盤文件數(shù)據(jù)再通過網(wǎng)絡傳輸給用戶的詳細過程。

4.2普通模式數(shù)據(jù)交互

一次完成的數(shù)據(jù)交互包括幾個部分：系統(tǒng)調用syscall、CPU、DMA、網(wǎng)卡、磁盤等。

圖片

系統(tǒng)調用syscall是應用程序和內核交互的橋梁，每次進行調用/返回就會產生兩次切換：

調用syscall 從用戶態(tài)切換到內核態(tài)
syscall返回從內核態(tài)切換到用戶態(tài)

圖片

來看下完整的數(shù)據(jù)拷貝過程簡圖：

圖片

讀數(shù)據(jù)過程：

應用程序要讀取磁盤數(shù)據(jù)，調用read()函數(shù)從而實現(xiàn)用戶態(tài)切換內核態(tài)，這是第1次狀態(tài)切換；
DMA控制器將數(shù)據(jù)從磁盤拷貝到內核緩沖區(qū)，這是第1次DMA拷貝；
CPU將數(shù)據(jù)從內核緩沖區(qū)復制到用戶緩沖區(qū)，這是第1次CPU拷貝；
CPU完成拷貝之后，read()函數(shù)返回實現(xiàn)用戶態(tài)切換用戶態(tài)，這是第2次狀態(tài)切換；

寫數(shù)據(jù)過程：

應用程序要向網(wǎng)卡寫數(shù)據(jù)，調用write()函數(shù)實現(xiàn)用戶態(tài)切換內核態(tài)，這是第1次切換；
CPU將用戶緩沖區(qū)數(shù)據(jù)拷貝到內核緩沖區(qū)，這是第1次CPU拷貝；
DMA控制器將數(shù)據(jù)從內核緩沖區(qū)復制到socket緩沖區(qū)，這是第1次DMA拷貝；
完成拷貝之后，write()函數(shù)返回實現(xiàn)內核態(tài)切換用戶態(tài)，這是第2次切換；

綜上所述：

讀過程涉及2次空間切換、1次DMA拷貝、1次CPU拷貝；
寫過程涉及2次空間切換、1次DMA拷貝、1次CPU拷貝；

可見傳統(tǒng)模式下，涉及多次空間切換和數(shù)據(jù)冗余拷貝，效率并不高，接下來就該零拷貝技術出場了。

4.3零拷貝技術

(1)出現(xiàn)原因

我們可以看到，如果應用程序不對數(shù)據(jù)做修改，從內核緩沖區(qū)到用戶緩沖區(qū)，再從用戶緩沖區(qū)到內核緩沖區(qū)。兩次數(shù)據(jù)拷貝都需要CPU的參與，并且涉及用戶態(tài)與內核態(tài)的多次切換，加重了CPU負擔。

我們需要降低冗余數(shù)據(jù)拷貝、解放CPU，這也就是零拷貝Zero-Copy技術。

（2）解決思路

目前來看，零拷貝技術的幾個實現(xiàn)手段包括：mmap+write、sendfile、sendfile+DMA收集、splice等。

圖片

(3)mmap方式

mmap是Linux提供的一種內存映射文件的機制，它實現(xiàn)了將內核中讀緩沖區(qū)地址與用戶空間緩沖區(qū)地址進行映射，從而實現(xiàn)內核緩沖區(qū)與用戶緩沖區(qū)的共享。這樣就減少了一次用戶態(tài)和內核態(tài)的CPU拷貝，但是在內核空間內仍然有一次CPU拷貝。

圖片

mmap對大文件傳輸有一定優(yōu)勢，但是小文件可能出現(xiàn)碎片，并且在多個進程同時操作文件時可能產生引發(fā)coredump的signal。

(4)sendfile方式

mmap+write方式有一定改進，但是由系統(tǒng)調用引起的狀態(tài)切換并沒有減少。

sendfile系統(tǒng)調用是在 Linux 內核2.1版本中被引入，它建立了兩個文件之間的傳輸通道。

sendfile方式只使用一個函數(shù)就可以完成之前的read+write 和 mmap+write的功能，這樣就少了2次狀態(tài)切換，由于數(shù)據(jù)不經(jīng)過用戶緩沖區(qū)，因此該數(shù)據(jù)無法被修改。

圖片

splice 系統(tǒng)調用可以在內核緩沖區(qū)和socket緩沖區(qū)之間建立管道來傳輸數(shù)據(jù)，避免了兩者之間的 CPU 拷貝操作。

圖片

splice也有一些局限，它的兩個文件描述符參數(shù)中有一個必須是管道設備。

以下使用 FileChannel.transferTo 方法，實現(xiàn) zero-copy：

SocketAddress socketAddress = new InetSocketAddress(HOST, PORT);
SocketChannel socketChannel = SocketChannel.open();
socketChannel.connect(socketAddress);

File file = new File(FILE_PATH);
FileChannel fileChannel = new FileInputStream(file).getChannel();
fileChannel.transferTo(0, file.length(), socketChannel);

fileChannel.close();
socketChannel.close();

相比傳統(tǒng)方式，零拷貝的執(zhí)行流程如下圖：

圖片

可以看到，相比傳統(tǒng)方式，零拷貝不走數(shù)據(jù)緩沖區(qū)減少了一些不必要的操作。

4.4零拷貝的應用

零拷貝在很多框架中得到了廣泛使用，常見的比如 Netty、Kafka 等等。

在 kafka 中使用了很多設計思想，比如分區(qū)并行、順序寫入、頁緩存、高效序列化、零拷貝等等。

上邊博客分析了 Kafka 的大概架構，知道了 kafka 中的文件都是以.log 文件存儲，每個日志文件對應兩個索引文件.index 與.timeindex。

kafka 在傳輸數(shù)據(jù)時利用索引，使用 fileChannel.transferTo (position, count, socketChannel) 指定數(shù)據(jù)位置與大小實現(xiàn)零拷貝。

kafka 底層傳輸源碼：（TransportLayer）

/**
     * Transfers bytes from `fileChannel` to this `TransportLayer`.
     *
     * This method will delegate to {@link FileChannel#transferTo(long, long, java.nio.channels.WritableByteChannel)},
     * but it will unwrap the destination channel, if possible, in order to benefit from zero copy. This is required
     * because the fast path of `transferTo` is only executed if the destination buffer inherits from an internal JDK
     * class.
     *
     * @param fileChannel The source channel
     * @param position The position within the file at which the transfer is to begin; must be non-negative
     * @param count The maximum number of bytes to be transferred; must be non-negative
     * @return The number of bytes, possibly zero, that were actually transferred
     * @see FileChannel#transferTo(long, long, java.nio.channels.WritableByteChannel)
     */
    long transferFrom(FileChannel fileChannel, long position, long count) throws IOException;

實現(xiàn)類（PlaintextTransportLayer）：

@OverRide 
 public long transferFrom(FileChannel fileChannel, long position, long count) throws IOException {
      return fileChannel.transferTo(position, count, socketChannel);
 }

該方法的功能是將 FileChannel 中的數(shù)據(jù)傳輸?shù)?TransportLayer，也就是 SocketChannel。在實現(xiàn)類 PlaintextTransportLayer 的對應方法中，就是直接調用了 FileChannel.transferTo () 方法。

五、零拷貝在Java世界的奇妙冒險

5.1NIO 的零拷貝絕技

在 Java 的世界里，NIO（New I/O）為我們提供了實現(xiàn)零拷貝的強大工具。其中，F(xiàn)ileChannel類的transferTo和transferFrom方法就是實現(xiàn)零拷貝的關鍵。

transferTo方法可以將當前通道中的數(shù)據(jù)直接傳輸?shù)侥繕送ǖ溃鴗ransferFrom方法則是從源通道讀取數(shù)據(jù)并傳輸?shù)疆斍巴ǖ馈＿@兩個方法的實現(xiàn)依賴于底層操作系統(tǒng)的支持，在支持零拷貝的操作系統(tǒng)上，它們可以直接利用操作系統(tǒng)的零拷貝機制，避免數(shù)據(jù)在用戶空間和內核空間之間的拷貝，從而大大提高數(shù)據(jù)傳輸?shù)男省?/p>

下面通過一個簡單的代碼示例來展示如何使用transferTo方法實現(xiàn)文件到網(wǎng)絡通道的零拷貝傳輸：

import java.io.FileInputStream;
import java.io.FileOutputStream;
import java.io.IOException;
import java.nio.channels.FileChannel;

public class ZeroCopyExample {
    public static void main(String[] args) {
        try (FileInputStream fis = new FileInputStream("source.txt");
             FileOutputStream fos = new FileOutputStream("destination.txt");
             FileChannel sourceChannel = fis.getChannel();
             FileChannel destChannel = fos.getChannel()) {
            long position = 0;
            long count = sourceChannel.size();
            // 使用transferTo方法實現(xiàn)零拷貝
            sourceChannel.transferTo(position, count, destChannel);
            System.out.println("File copied successfully using zero copy!");
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

在這個示例中，我們首先創(chuàng)建了兩個FileChannel，一個用于讀取源文件，另一個用于寫入目標文件。然后，通過transferTo方法將源文件通道中的數(shù)據(jù)直接傳輸?shù)侥繕宋募ǖ溃麄€過程中數(shù)據(jù)沒有經(jīng)過用戶空間的緩沖區(qū)，實現(xiàn)了零拷貝。

5.2Netty框架的零拷貝奧秘

Netty 是一個高性能的 Java 網(wǎng)絡框架，它在設計中充分利用了零拷貝技術，以提升數(shù)據(jù)傳輸?shù)男省Ｔ?Netty 中，零拷貝主要體現(xiàn)在以下幾個方面：

首先，Netty 接收和發(fā)送ByteBuffer采用的都是堆外直接內存。使用堆外直接內存進行 Socket 的讀 / 寫，無須進行字節(jié)緩沖區(qū)的二次拷貝。如果使用傳統(tǒng)的堆內存進行 Socket 的讀 / 寫，則 JVM 會將堆內存 Buffer 數(shù)據(jù)拷貝到堆外直接內存中，然后才寫入 Socket 中。與堆外直接內存相比，使用傳統(tǒng)的堆內存，在消息的發(fā)送過程中多了一次緩沖區(qū)的內存拷貝。

其次，Netty 的ByteBuf提供了強大的零拷貝功能。ByteBuf是 Netty 的數(shù)據(jù)容器，它通過切片（slice）和組合（CompositeByteBuf）等操作實現(xiàn)了零拷貝。例如，slice方法可以將一個ByteBuf分解為多個共享同一個存儲區(qū)域的ByteBuf，避免了內存的拷貝。假設有一個ByteBuf包含了消息的頭部和消息體，我們可以通過slice方法分別獲取頭部和消息體的ByteBuf，而不需要進行數(shù)據(jù)的拷貝：

ByteBuf buffer = Unpooled.wrappedBuffer(new byte[]{1, 2, 3, 4, 5, 6, 7, 8, 9, 10});
ByteBuf header = buffer.slice(0, 5);
ByteBuf body = buffer.slice(5, 5);

在這個例子中，header和body共享了buffer的底層存儲區(qū)域，對buffer的修改會反映在header和body上，反之亦然。

另外，CompositeByteBuf可以將多個ByteBuf合并為一個邏輯上的ByteBuf，避免了各個ByteBuf之間的拷貝。比如，在處理協(xié)議數(shù)據(jù)時，協(xié)議數(shù)據(jù)可能由頭部和消息體組成，而頭部和消息體分別存放在兩個ByteBuf中，我們可以使用CompositeByteBuf將它們合并為一個邏輯上的整體：

ByteBuf header = Unpooled.wrappedBuffer(new byte[]{1, 2, 3, 4, 5});
ByteBuf body = Unpooled.wrappedBuffer(new byte[]{6, 7, 8, 9, 10});
CompositeByteBuf compositeByteBuf = Unpooled.compositeBuffer();
compositeByteBuf.addComponents(true, header, body);

這樣，compositeByteBuf就將header和body組合在了一起，在后續(xù)的處理中可以像操作一個ByteBuf一樣操作它，而不需要進行數(shù)據(jù)的拷貝。

最后，Netty 使用FileRegion實現(xiàn)文件傳輸?shù)牧憧截悺ileRegion底層封裝了FileChannel的transferTo方法，可以將文件緩沖區(qū)的數(shù)據(jù)直接傳輸?shù)侥繕送ǖ溃苊鈨群司彌_區(qū)和用戶態(tài)緩沖區(qū)之間的數(shù)據(jù)拷貝，這屬于操作系統(tǒng)級別的零拷貝。例如，在一個文件服務器中，當客戶端請求下載文件時，服務器可以使用FileRegion將文件數(shù)據(jù)直接傳輸給客戶端，而不需要將文件數(shù)據(jù)先讀取到用戶空間再發(fā)送出去，從而提高了文件傳輸?shù)男省?/p>

六、零拷貝的應用舞臺

6.1網(wǎng)絡服務器：高效傳輸?shù)幕?/h3>
在網(wǎng)絡服務器領域，零拷貝技術是提升性能的關鍵。以 Nginx 為例，它作為一款高性能的 Web 服務器，廣泛應用零拷貝技術來提高靜態(tài)文件的傳輸效率。當客戶端請求一個靜態(tài)文件時，傳統(tǒng)的服務器可能需要先將文件數(shù)據(jù)從磁盤讀取到內核緩沖區(qū)，再拷貝到用戶空間的應用程序緩沖區(qū)，最后再發(fā)送到網(wǎng)絡。而 Nginx 利用sendfile系統(tǒng)調用實現(xiàn)零拷貝，數(shù)據(jù)可以直接從磁盤內核緩沖區(qū)傳輸?shù)骄W(wǎng)絡 socket 緩沖區(qū)，避免了用戶空間的拷貝操作，大大提高了文件傳輸?shù)乃俣龋瑴p少了 CPU 的開銷。
在處理大量并發(fā)請求時，零拷貝技術的優(yōu)勢更加明顯。假設一個高并發(fā)的文件下載服務器，每秒要處理數(shù)千個文件下載請求，如果每個請求都采用傳統(tǒng)的 I/O 方式，那么 CPU 將忙于數(shù)據(jù)拷貝和上下文切換，很快就會達到性能瓶頸。而采用零拷貝技術，CPU 可以將更多的資源用于處理其他任務，服務器的吞吐量會大幅提升，能夠輕松應對高并發(fā)的場景，為用戶提供更快的響應速度。

6.2文件系統(tǒng)：快速操作的秘訣

在文件系統(tǒng)中，零拷貝技術也發(fā)揮著重要作用。當我們進行文件復制操作時，傳統(tǒng)方式是將源文件的數(shù)據(jù)從磁盤讀取到內核緩沖區(qū)，再拷貝到用戶空間緩沖區(qū)，然后寫入目標文件，這個過程涉及多次數(shù)據(jù)拷貝和上下文切換。而利用零拷貝技術，如通過mmap將文件映射到內存，數(shù)據(jù)可以直接在內核空間中進行傳輸和處理，減少了 I/O 開銷。

例如，在一個大數(shù)據(jù)存儲系統(tǒng)中，經(jīng)常需要進行大規(guī)模的數(shù)據(jù)文件遷移操作。如果使用傳統(tǒng)的文件復制方式，在遷移大量文件時，不僅會消耗大量的時間，還會占用大量的系統(tǒng)資源，導致系統(tǒng)性能下降。而采用零拷貝技術，通過mmap和sendfile等機制，可以大大減少數(shù)據(jù)拷貝的次數(shù)，提高文件遷移的速度，同時降低系統(tǒng)的負載，讓系統(tǒng)能夠更高效地運行。

6.3多媒體流傳輸：流暢體驗的保障

在多媒體流傳輸領域，零拷貝技術是實現(xiàn)流暢播放體驗的關鍵。以在線視頻播放為例，視頻數(shù)據(jù)需要從服務器快速傳輸?shù)娇蛻舳耍⑶乙蟮脱舆t。傳統(tǒng)的數(shù)據(jù)傳輸方式在多次數(shù)據(jù)拷貝過程中會增加延遲，導致視頻播放卡頓。而利用零拷貝技術，視頻數(shù)據(jù)可以直接從磁盤通過內核空間傳輸?shù)骄W(wǎng)絡，減少了數(shù)據(jù)處理的時間，降低了延遲。

在音頻直播場景中，零拷貝技術同樣重要。音頻數(shù)據(jù)需要實時傳輸?shù)铰牨姷脑O備上，對延遲要求極高。通過零拷貝技術，音頻數(shù)據(jù)能夠快速地從服務器發(fā)送到網(wǎng)絡，保證了音頻直播的實時性和流暢性，讓聽眾能夠獲得更好的收聽體驗。

責任編輯：武曉燕來源：深度Linux

數(shù)據(jù)復制零拷貝