深入理解 mmap 0 拷貝技術
- 開場白 ======
-
環境:
處理器架構:arm64
內核源碼:linux-5.11
ubuntu 版本:20.04.1
代碼閱讀工具:vim+ctags+cscope
我們知道,linux 系統中用戶空間和內核空間是隔離的,用戶空間程序不能隨意的訪問內核空間數據,只能通過中斷或者異常的方式進入內核態,一般情況下,我們使用 copy_to_user 和 copy_from_user 等內核 api 來實現用戶空間和內核空間的數據拷貝,但是像顯存這樣的設備如果也採用這樣的方式就顯的效率非常底下,因爲用戶經常需要在屏幕上進行繪製,要消除這種複製的操作就需要應用程序直接能夠訪問顯存,但是顯存被映射到內核空間,應用程序是沒有訪問權限的,如果顯存也能同時映射到用戶空間那就不需要拷貝操作了,於是字符設備中提供了 mmap 接口,可以將內核空間映射的那塊物理內存再次映射到用戶空間,這樣用戶空間就可以直接訪問不需要任何拷貝操作,這就是我們今天要說的 0 拷貝技術。
下面是正常情況下用戶空間和內核空間數據訪問圖示:
- 體驗一下 =======
首先我們通過一個例子來感受一下:
驅動代碼:
注:驅動代碼中使用 misc 框架來實現字符設備,misc 框架會處理如創建字符設備,創建設備等通用的字符設備處理,我們只需要關心我們的實際的邏輯即可(內核中大量使用 misc 設備框架來使用字符設備操作集如 ioctl 接口,像實現系統虛擬化 kvm 模塊,實現安卓進程間通信的 binder 模塊等)。
0copy_demo.c
#include <linux/module.h>
#include <linux/kernel.h>
#include <linux/init.h>
#include <linux/mm.h>
#include <linux/miscdevice.h>
#define MISC_DEV_MINOR 5
static char *kbuff;
static ssize_t misc_dev_read(struct file *filep, char __user *buf, size_t count, loff_t *offset)
{
int ret;
size_t len = (count > PAGE_SIZE ? PAGE_SIZE : count);
pr_info("###### %s:%d kbuff:%s ######\n", __func__, __LINE__, kbuff);
ret = copy_to_user(buf, kbuff, len); //這裏使用copy_to_user 來進程內核空間到用戶空間拷貝
return len - ret;
}
static ssize_t misc_dev_write(struct file *filep, const char __user *buf, size_t count, loff_t *offset)
{
pr_info("###### %s:%d ######\n", __func__, __LINE__);
return 0;
}
static int misc_dev_mmap(struct file *filep, struct vm_area_struct *vma)
{
int ret;
unsigned long start;
start = vma->vm_start;
ret = remap_pfn_range(vma, start, virt_to_phys(kbuff) >> PAGE_SHIFT,
PAGE_SIZE, vma->vm_page_prot); //使用remap_pfn_range來映射物理頁面到進程的虛擬內存中 virt_to_phys(kbuff) >> PAGE_SHIFT作用是將內核的虛擬地址轉化爲實際的物理地址頁幀號 創建頁表的權限爲通過mmap傳遞的 vma->vm_page_prot 映射大小爲1頁
return ret;
}
static long misc_dev_ioctl(struct file *filep, unsigned int cmd, unsigned long args)
{
pr_info("###### %s:%d ######\n", __func__, __LINE__);
return 0;
}
static int misc_dev_open(struct inode *inodep, struct file *filep)
{
pr_info("###### %s:%d ######\n", __func__, __LINE__);
return 0;
}
static int misc_dev_release(struct inode *inodep, struct file *filep)
{
pr_info("###### %s:%d ######\n", __func__, __LINE__);
return 0;
}
static struct file_operations misc_dev_fops = {
.open = misc_dev_open,
.release = misc_dev_release,
.read = misc_dev_read,
.write = misc_dev_write,
.unlocked_ioctl = misc_dev_ioctl,
.mmap = misc_dev_mmap,
};
static struct miscdevice misc_dev = {
MISC_DEV_MINOR,
"misc_dev",
&misc_dev_fops,
};
static int __init misc_demo_init(void)
{
misc_register(&misc_dev); //註冊misc設備 (讓misc來幫我們處理創建字符設備的通用代碼,這樣我們就不需要在去做這些和我們的實際邏輯無關的代碼處理了)
kbuff = (char *)__get_free_page(GFP_KERNEL); //申請一個物理頁面(返回對應的內核虛擬地址,內核初始化的時候會做線性映射,將整個ddr內存映射到線性映射區,所以我們不需要做頁表映射)
if (NULL == kbuff)
return -ENOMEM;
pr_info("###### %s:%d ######\n", __func__, __LINE__);
return 0;
}
static void __exit misc_demo_exit(void)
{
free_page((unsigned long)kbuff);
misc_deregister(&misc_dev);
pr_info("###### %s:%d ######\n", __func__, __LINE__);
}
module_init(misc_demo_init);
module_exit(misc_demo_exit);
MODULE_LICENSE("GPL");
應用代碼:test.c
#include <stdio.h>
#include <string.h>
#include <unistd.h>
#include <sys/types.h>
#include <sys/stat.h>
#include <fcntl.h>
#include <sys/mman.h>
int main(int argc, char **argv)
{
int fd;
char *ptr;
char buff[32];
fd = open("/dev/misc_dev", O_RDWR); //打開字符設備
if (fd < 0) {
perror("fail to open");
return -1;
}
ptr = mmap(NULL, 4096, PROT_READ | PROT_WRITE, MAP_SHARED, fd, 0); //映射字符設備到進程的地址空間 權限爲可讀可寫 映射爲共享 大小爲一個頁面
if (ptr == MAP_FAILED) {
perror("fail to mmap");
return -1;
}
memcpy(ptr, "hello world!!!", 15); //寫mmap映射的內存 直接操作,不需要進行特權級別的陷入!
if(read(fd, buff, 15) == -1) { //讀接口 來讀取映射的內存,這裏會進行內核空間到用戶空間的數據拷貝 (需要調用系統調用 在內核空間進行拷貝,然後才能訪問)
perror("fail to read");
return -1;
}
puts(buff);
pause();
return 0;
}
Makefile 文件:
export ARCH=arm64
export CROSS_COMPILE=aarch64-linux-gnu-
KERNEL_DIR ?= ~/kernel/linux-5.11
obj-m := 0copy_demo.o
modules:
$(MAKE) -C $(KERNEL_DIR) M=$(PWD) modules
app:
aarch64-linux-gnu-gcc test.c -o test
cp test $(KERNEL_DIR)/kmodules
clean:
$(MAKE) -C $(KERNEL_DIR) M=$(PWD) clean
install:
cp *.ko $(KERNEL_DIR)/kmodules
編譯驅動代碼和應用代碼,然後拷貝到 qemu 中運行:
編譯驅動模塊代碼:
$ make modules
編譯並拷貝應用:
$ make app
拷貝驅動模塊到qemu:
$ make install
加載驅動代碼:
# insmod 0copy_demo.ko
[23328.532194] ###### misc_demo_init:91 ######
查看生成的設備節點:
# ls -l /dev/misc_dev
crw-rw---- 1 0 0 10, 5 Apr 7 19:26 /dev/misc_dev
後臺運行應用程序:
# ./test&
# [23415.280501] ###### misc_dev_open:56 ######
[23415.281052] ###### misc_dev_read:20 kbuff:hello world!!! ######
hello world!!!
查看test的pid:
# pidof test
1768
查看內存映射:
# cat /proc/1768/maps
aaaabc5a0000-aaaabc5a1000 r-xp 00000000 00:19 8666193 /mnt/test
aaaabc5b0000-aaaabc5b1000 r--p 00000000 00:19 8666193 /mnt/test
aaaabc5b1000-aaaabc5b2000 rw-p 00001000 00:19 8666193 /mnt/test
aaaacf033000-aaaacf054000 rw-p 00000000 00:00 0 [heap]
ffff8a911000-ffff8aa52000 r-xp 00000000 fe:00 152 /lib/libc-2.27.so
ffff8aa52000-ffff8aa61000 ---p 00141000 fe:00 152 /lib/libc-2.27.so
ffff8aa61000-ffff8aa65000 r--p 00140000 fe:00 152 /lib/libc-2.27.so
ffff8aa65000-ffff8aa67000 rw-p 00144000 fe:00 152 /lib/libc-2.27.so
ffff8aa67000-ffff8aa6b000 rw-p 00000000 00:00 0
ffff8aa6b000-ffff8aa88000 r-xp 00000000 fe:00 129 /lib/ld-2.27.so
ffff8aa91000-ffff8aa92000 rw-s 00000000 00:05 152 /dev/misc_dev //映射設備文件到用戶空間
ffff8aa92000-ffff8aa94000 rw-p 00000000 00:00 0
ffff8aa94000-ffff8aa96000 r--p 00000000 00:00 0 [vvar]
ffff8aa96000-ffff8aa97000 r-xp 00000000 00:00 0 [vdso]
ffff8aa97000-ffff8aa98000 r--p 0001c000 fe:00 129 /lib/ld-2.27.so
ffff8aa98000-ffff8aa9a000 rw-p 0001d000 fe:00 129 /lib/ld-2.27.so
ffffecb5a000-ffffecb7b000 rw-p 00000000 00:00 0 [stack]
執行了以上步驟可以發現最終內核中出現了我在應用程序中寫入的 “hello world!!!“ 字符串,應用程序也能成功讀取到(當然本文講解的 0 拷貝實現的驅動接口是 mmap,而我們讀取使用的是 read 接口,裏面我們用 copy_to_user 來實現的,當然我們可以直接操作 mmap 映射的內存不需要任何拷貝操作)。
查看應用程序的內存映射發現,/dev/misc_dev 設備被映射到了 ffff8aa91000-ffff8aa92000 這段用戶空間地址範圍,而且權限爲 rw-s(可讀可寫共享)。
寫到這裏可能大家還是有點不明白那我來解釋下:
1. 用戶空間不能直接訪問內核空間數據(不能直接讀寫),一旦訪問發生缺頁異常,產生段錯誤,必須通過 read 這樣的接口來訪問,而 read 這樣的接口會通過系統調用的方式寫入到內核態,然後通過 copy_to_user 這樣的內核 api 來拷貝內核空間數據到用戶空間之後才能正常訪問。
2. 通過 mmap 這種方式之後,用戶進程可以直接訪問這塊內存,memcpy 訪問的也只不過是用戶空間地址,由於訪問的時候已經分配好了物理頁面和建立好了物理頁到虛擬頁的映射,所有不會發生缺頁異常,也不會發生用戶態到內核態的陷入動作。
3. 用戶態進程正常訪問內核態數據需要首先通過系統調用等方式陷入內核,進行數據拷貝,然後再次回到用戶態,用戶態和內核態直接的進出需要進行上下文切換,需要 2 次上下文切換,需要一定的開銷,而 mmap 映射好之後以後訪問都不需要進行上下文切換。
4.mmap 映射這種方法由於物理頁面通過頁面共享更加節省內存,而用戶態和內核態內存拷貝需要兩份物理頁面。
- 實現原理 =======
我們發現通過 mmap 映射之後,我們在應用程序中可以直接讀寫這段內存,不需要任何用戶空間和內核空間的拷貝動作,大大提高了內存訪問效率,那麼就是是如何實現的呢?下面我們來揭開它神祕的面紗:
實現 0 拷貝功不可沒的是 mmap 接口中的 remap_pfn_range 內核 api,它將內核空間映射的物理內存重新映射到了用戶空間,下面我們來看這個函數的實現:remap_pfn_range 函數參數如下:
int remap_pfn_range(struct vm_area_struct *vma, unsigned long addr,
¦ unsigned long pfn, unsigned long size, pgprot_t prot)
vma 爲需要映射的進程的 vma(進程調用 mmap 的時候內核會找到一個合適的 vma), addr 爲 vma 中的一個起始映射地址(這是用戶空間的一個虛擬地址),pfn 爲頁幀號(在驅動的 mmap 接口中會將內核空間的地址轉化爲物理地址的頁幀號),size 爲需要映射的大小,prot 爲映射的權限(一般取 mmap 時傳遞的權限如 rw)
remap_pfn_range 實現主要如下代碼段:
remap_pfn_range
...
pgd = pgd_offset(mm, addr);
flush_cache_range(vma, addr, end);
do {
next = pgd_addr_end(addr, end);
err = remap_p4d_range(mm, pgd, addr, next,
pfn + (addr >> PAGE_SHIFT), prot);
if (err)
break;
} while (pgd++, addr = next, addr != end);
解釋下:remap_pfn_range 函數會查找進程的頁表,然後填寫頁表,會將映射的物理頁幀號和訪問權限填寫到進程的對應頁表中,這會遍歷進程的各級頁表找到最終的頁表項然後進行填寫,具體過程自行查看代碼。
我們需要注意的是:
1. 一般情況下,用戶程序調用 mmap 只是申請虛擬內存(即是獲得一塊沒有使用用戶空間內存,使用 vma 描述),實際的物理頁表都是通過進程訪問的時候缺頁異常的方式來申請的,但是本場景中是物理頁面已經申請好了,進程訪問時不會再發生缺頁異常,不會申請物理頁面。
2. 同樣,物理頁面到用戶空間虛擬頁面的映射也在調用 mmap 的時候,驅動調用 mmap 接口的 remap_pfn_range 映射好了,也不需要在訪問的時候發生缺頁異常來建立映射。所以,只要用戶進程通過 mmap 映射之後就可以正常訪問,訪問過程中不會發生缺頁異常,映射虛擬頁對應的物理頁面已經在驅動中申請好映射好。
下面給出 mmap 映射原理的圖示:
- 應用場景 =======
最後,我們來看下使用 framebuffer 的 lcd 對 0 拷貝的使用情況:
fbmem_init //drivers/video/fbdev/core/fbmem.c
->register_chrdev(FB_MAJOR, "fb", &fb_fops) //註冊framebuffer字符設備
-> struct file_operations fb_fops = {
->.mmap = fb_mmap
-> fb_mmap //framebuffer的實現
->vm_iomap_memory
->io_remap_pfn_range
->remap_pfn_range
-> fb_class = class_create(THIS_MODULE, "graphics") //創建設備類
lcd 驅動代碼中會設置好最終註冊 framebuffer:
xxxfb_probe
->register_framebuffer
->do_register_framebuffer
-> fb_info->dev = device_create(fb_class, fb_info->device,
¦ MKDEV(FB_MAJOR, i), NULL, "fb%d", i); //創建設備 會出現/dev/fdx 設備節點
可以看到當系統支持 framebuffer 設備時,在 fbmem_init 中會創建 framebuffer 設備類關聯字符設備操作集 fb_fops,lcd 的驅動代碼中會調用 register_framebuffer 創建 framebuffer 設備(就會創建出了 / dev/fdx 設備節點),應用程序就可以通過 mmap 來映射 framebuffer 設備到用戶空間,然後進行屏幕繪製操作,不需要任何數據拷貝。
- 總結 =====
可以看的出,通過 mmap 實現 0 拷貝非常簡單,只需要在驅動的 mmap 接口中調用 remap_pfn_range 來將內核空間映射的那塊物理頁再次映射到用戶空間即可,這就實現了用戶空間和內核空間的數據共享,這和用戶進程之間的共享內存機制非常相似,都需要操作進程的頁表將這段物理內存映射到進程虛擬地址空間。
本文由 Readfog 進行 AMP 轉碼,版權歸原作者所有。
來源:https://mp.weixin.qq.com/s/acNN5USnyXlH9Z2GrK6mCQ