我们知道Linux系统分为用户态和内核态,在用户态每发起一次IO请求,就需要进行2次上下文切换(分别是用户态->内核态,内核态→用户态),和一次CPU拷贝(将数据从内核缓存拷贝到用户缓存)。
设想一个最简单的应用场景,即从一个文件读取数据并写入另一个文件,整个过程需要进行四次上下文切换,并且需要2次CPU拷贝和2次DMA拷贝。
无论是上下文切换还是CPU拷贝都是十分消耗CPU资源的行为,而零拷贝就是使用各种技术减少甚至消除这些CPU参与的上下文切换和拷贝动作。
零拷贝的实现共有三大类方法:
接下来我们将简单介绍这几种方法的几个具体实现案例。
mmap的整个流程如下:
如果只是想简单的进行数据传输,那么上述流程显然还可以简化,sendfile就是mmap和write函数的结合。
sendfile中可以直接指定想要读取的文件和想要写入的文件,只进行一次系统调用,从而将上下文切换减少至2次。
内核中的实际流程和mmap一致。
在2.4版本之后,Linux又做了一些优化,可以让DMA拷贝到非连续的内存并且可以从非连续内存拷贝数据,因此最后一次CPU拷贝就也可以去掉了,流程如下
优点:系统调用减少至1次,CPU拷贝次数减少至0次。
splice技术是通过一个管道在内核空间传递想要拷贝数据的物理内存地址,从而实现实际数据的0拷贝。
用户在使用时需要先创建一个pipe管道,获取其输入和输出对应的文件描述符,再调用两次splice,分别将数据的物理内存地址写入和pipe和从pipe中读出。
优点:CPU拷贝次数减少至0次
缺点:需要3次系统调用
由于后续sendfile底层使用了splice,因此splice没有额外提供更简便的接口。
只用在数据传输特别频繁时,可以通过该接口重复利用pipe,可以节省内存。
可以将数据从用户态零拷贝的传输到网卡,在传输大包时很有用
if (setsockopt(socket_fd, SOL_SOCKET, SO_ZEROCOPY, &one, sizeof(one)))error(1, errno, "setsockopt zerocopy");ret = send(socket_fd, buffer, sizeof(buffer), MSG_ZEROCOPY);
上文介绍的各种方法都是由内核在内核态中进行操作,尽量较少不必要的拷贝。
那么假如用户可以直接访问硬件,通过DMA讲数据直接拷贝至用户态,岂不是更为理想。
这种方式的优点十分明显,数据全程不经过内核态,较少拷贝,同时用户可以在用户态中任意操作读取到的数据。
但也有一些缺点: