01

唯有文件得人心

当一个女生让你替她抓100只萤火虫,她一定不是为了折磨你,而是因为她爱上了你。当你们之间经历了无数的恩恩怨怨和彼此伤害,她再次让你替她抓100只萤火虫,那一定是因为她还爱着你。

为什么?因为这就是套路,是在下偶尔瞟一眼古装肥皂剧总结出来的套路。

Linux里面最大的套路,就是“一切都是文件”。爱一个人,就为她捉萤火虫;做一件事,就让它成为一个“文件”。

为什么自古深情留不住,唯有“文件”得人心呢?因为文件在用户态最直观的形式是随着一次open,获得一个fd,有了这个fd,长城内外,你基本可以为所欲为:

  • 在本进程内,fd的最直观操作是open、close、mmap、ioctl、poll这些。mmap让你具备把fd透射到内存的能力,所以你可以通过指针访问文件的内容。再者,这个mmap,如果底层透射的是framebuffer、V4L2、DRM等,则让我们具备了从用户态操作底层显存、多媒体数据等的能力;比如,无论是V4L2还是DRM,都支持把底层的dma_buf导出为fd。poll则提供给用户阻塞等待某事件发生的能力。至于ioctl,就更加不用说了,你可以透过ioctl灵活地为fd添加控制命令。

  • 在跨进程的情况下,Linux支持fd的跨进程socket传输,从而可以实现共享内存、dma_buf跨进程共享等。比如一个进程可以通过send_fd可以把fd发送出去:

而另外一个进程可以通过recv_fd把fd收过来:

这种fd在长城内外可以互访,fd最终可以指向dma_buf同时可以被mmap,而dma_buf又最终可以被显卡、显示控制器、video decoder/encoder等设备访问的能力,让fd打通了设备、CPU和跨进程的障碍,从此可以横着走。

我们在《宋宝华:世上最好的共享内存(Linux共享内存最透彻的一篇)》一文中已经详细阐述过这个过程,这里我们就不再赘述了。本文的重点在于匿名inode。

02

inode源头file活水

我们把文件想象成一个object,那么inode描述的是本源,和最终的object一一对应;dentry是inode的一个路径马甲,比如我们可以通过"ln"命令为同一个inode创建很多的硬链接马甲;而file则是活水,进程对object的一次“open”,获得一个file,导致用户态得到一个"fd"的句柄来操作这个object。

经典的inode、dentry、file谁都不缺席的模型是这样的:

上图中,我们有一个inode,这个inode有2个dentry,进程A、B open的是第一个dentry;而进程C、D open的是第二个dentry。变了的是file和fd,不变的是inode,中间的dentry马甲没那么重要。

但是在inode、dentry、file这个经典铁三角中,从来都是可以有一个缺席者的,那就是dentry,因为,有时候用户态想获得长城内外行走的便利,但是却不想这个inode在文件系统里面留下一个路径的痕迹。简单来说,我希望有个fd,但是这个fd,你在从"/"往下面搜索的任何一条路径下,你都找不到它,它根本在根文件系统以下不存在路径,它是无名氏,它没有马甲,它是个传说。

比如,近期名震江湖的剑客usefaultfd允许我们在用户空间处理page fault,我们是通过userfaultfd这个系统调用先获得一个fd,之后就可以对它进行各种ioctl了:

我们透过userfaultfd系统获得了一个fd,它在/xxx/yyy/zzz这样的文件系统下没有路径。这种情况下的fd,对应着的是一个没有名字的匿名inode,你显然没有办法像fd = open ("xxx", ..)那样来得到匿名inode的fd,因为"xxx"是一个路径,而匿名inode没有xxx,所以你是直接透过syscall userfaultfd这样的系统调用,来获得anon_inode在你的进程里面对应的fd的:

人过留名,雁过留声;杀人者,打虎武松也。但是anon inode不吃这一套,它是一个绝顶的轻功高手,它给与的,是透过fd长城内外行走的能力,但是,在文件系统里面却从未来过。这是用户真实的需求,如果这种需求一定要透过一个dentry的open才能实现,这未免有点画蛇添足了。

03

匿名inode的内核实例

我们接下来可以随便打开个anon inode的实例来看看它是怎么工作的了。首先userfaultd是一个系统调用:

这个代码里面比较核心的是就是,它通过:

anon_inode_getfd_secure()

生成一个匿名inode,并获得一个句柄fd。重点别忘记了,这种“文件”也是可以有file_operations的,比如上面anon_inode_getfd_secure()参数中的userfaultfd_fops:

这样,我们就可以在file_operations的ioctl,poll,read等callback里面实现自己特别的“文件”逻辑,这是我们自由发挥的舞台。

说起anon_inode_getfd_secure(),它再往底层走一级是__anon_inode_getfd():

进而再走一级是__anon_inode_getfile():

所以本质上,是先造一个anon_inode,然后再在这个anon_inode上面造一个pseudo的file,最后通过fd_install(fd, file),把fd和file缠在一起。再次强调,用户有了这个fd就可以为所欲为;而内核本身,则是通过file_operations的不同实现来为所欲为的。

anon_inode之上添加一个系统调用,造一种特殊的fd,让用户去poll,去ioctl,把想象空间拉大了。这种实现方法,如此拉风灵活,以至于它本身也成为了一种套路。比如内核里面fs目录下的:

eventfd,eventpoll,fscontext,io_uring,fanotify,inotify,signalfd,timerfd.......

正所谓, 待到秋来九月八,我花开后百花杀。冲天香阵透长安,满城尽带黄金甲。文件,哪怕最终是匿名的,都以冲天的香阵,弥漫整个Linux的世界。

04

用户使用匿名inode

到了要说再见的时刻了,用户可见的就是fd,通过fd来使用匿名inode。下面我们来制造一个page fault的例子,让用户态来处理它,这个例子直接简化自userfaultfd的man page。我们在主线程中,通过mmap申请一页内存,然后通过userfaultfd的ioctl告诉内核这页的开始地址和长度,以及通过UFFDIO_REGISTER告诉内核这页的page fault想用户空间处理:

然后我们在pthread_create()创建的fault_handler_thread线程中,poll userfaultfd等待事件,之后把一页全是0x66的内容拷贝到page fault发生的那一页:

我们运行这个程序得到的输出如下:

我们主线程在执行addr[0]=0x5A5A5A5A的时候,触发了page fault。在fault线程里面,page fault发生后,poll阻塞返回,之后用户通过read()读到了一个uffd_msg的结构体,里面的成员包含了page fault的地址。之后,我们通过UFFDIO_COPY这个ioctl,把内容为0x66的页面拷贝给page fault的页面。

所以,最终主线程在执行printf打印的时候,addr[0]里面读到了5A5A5A5A,剩下的addr[1]里面读到了66666666。看到page fault由用户态灵活这么灵活自如地处理,我的小伙伴们都吓尿了。

可以看出来:

  • poll()在等什么,完全被定制化了;

  • read()能读什么,完全被定制化了;

  • ioctl()能控制什么,完全被定制化了。

我们通过“文件”这个不变的“静”,制造了poll、read、ioctl的灵动自如。兵法有云,以不变应万变,以万变应不变。

更多精彩,尽在"Linux阅码场",扫描下方二维码关注

别忘了分享、点赞或者在看哦~

宋宝华:论一切都是文件之匿名inode相关推荐

  1. 论一切都是文件之匿名 inode

    作者 | 宋宝华       责编 | 欧阳姝黎 唯有文件得人心 当一个女生让你替她抓 100 只萤火虫,她一定不是为了折磨你,而是因为她爱上了你.当你们之间经历了无数的恩恩怨怨和彼此伤害,她再次让你 ...

  2. linux 没有windows.h头文件_宋宝华: Linux内核编程广泛使用的前向声明(Forward Declaration)...

    本文系转载,著作权归作者所有.商业转载请联系作者获得授权,非商业转载请注明出处. 作者:宋宝华 来源: 微信公众号linux阅码场(id: linuxdev) 前向声明 编程定律 先强调一点:在一切可 ...

  3. 宋宝华:评Linux 5.13内核

    目录 Misc cgroup Landlock安全模块 系统调用的堆栈随机化 printk无锁ringbuffer的进一步优化 BPF可调用内核函数 公共的IO PAGE Fault支持 Linux ...

  4. linux pdf 宋宝华,51CTO博客-专业IT技术博客创作平台-技术成就梦想

    原创 宋宝华 Linux阅码场 2018-04-10 前言 网上关于BIO和块设备读写流程的文章何止千万,但是能够让你彻底读懂读明白的文章实在难找,可以说是越读越糊涂! 我曾经跨过山和大海 也穿过人山 ...

  5. platform设备驱动全透析(转自宋宝华老师)

    platform设备驱动全透析(转自宋宝华老师) 2013-04-12 09:58 384人阅读 评论(0) 收藏 举报 分类: linux kernel(22) 1.1 platform总线.设备与 ...

  6. 宋宝华: 关于DMA ZONE和dma alloc coherent若干误解的彻底澄清

    原创 宋宝华 Linux阅码场 2018-01-22 作者简介 宋宝华,他有10几年的Linux开发经验.他长期在大型企业担任一线工程师和系统架构师,编写大量的Linux代码,并负责在gerrit上r ...

  7. 让尘土回归尘土,宋宝华_第47集:如何扫除尘土飞扬的手指并保持编码状态

    让尘土回归尘土,宋宝华 我必须承认,在"找工作"的旅途中,我处于非常独特的位置. 不幸的是,鉴于我仍然在"体验"它,所以我不会分享它,并且像任何讲故事的人一样, ...

  8. 宋宝华_2010年11-12月Linux驱动和内核讲座PPT下载

        12月29日,宋宝华老师在线讲座(按键和LCD驱动) cloudquan 2010-12-20 2/146 heyan0208 3 天前 00:37     宋宝华_2010年12月11日_& ...

  9. 宋宝华:LEP(Linux易用剖析器) 是什么,为什么以及怎么办(2)

    LEP(LINUX EASY PROFILING) 是Linuxer之LEP项目组(Barry Song,Mac Xu,陈松等以及陈莉君教授/西邮Linux 3+1实验室)正在致力于打造的一个开源项目 ...

最新文章

  1. 自定义html页面鼠标右键,javascript鼠标右键菜单自定义效果
  2. linux solusos 软件包管理工具 eopkg 简介
  3. python导入excel数据-如何把python中的数据导入excel
  4. BZOJ 4553: [Tjoi2016Heoi2016]序列
  5. d盘莫名其妙被占空间 win10_Win10不好用?你不可不知的Win10技巧
  6. Oracle中的正则表达式(REPLACE 和REGEXP_REPLACE)---转载自http://database.51cto.com/art/201009/228270.htm...
  7. 《白帽子将Web安全》摘抄
  8. Typora中使用Gitee图床
  9. java中文分词算法_Java实现逆向最大匹配中文分词算法
  10. Div+CSS布局居中
  11. leetcode题解167-两数之和 II - 输入有序数组
  12. Django Ajax发送请求使用方法
  13. nginx return知多少
  14. 深入了解VPP关键技术有哪些?
  15. sqoop job入门 与sqoop增量导入
  16. TiDB RC1 Release
  17. 计算机视觉:图像分割算法综述总结
  18. 主要空间数据挖掘方法
  19. 希腊数字matlab,latex 希腊数字
  20. linux cpu使用率太高,小技巧:教您一个窍门!解决Linux下CPU使用率过高的问题

热门文章

  1. 美团网2015秋季校园招聘面试题(下)
  2. 震惊,这款控件的速度比姆巴佩还快
  3. Python数学建模—线性规划
  4. 出色不如走运全文第二部分
  5. Swift - 给图片添加滤镜效果(棕褐色老照片滤镜,黑白滤镜)
  6. Java面向对象实验 8 ——图形用户界面设计
  7. IT精英人物——李彦宏
  8. 安装VMware Workstation 16.1
  9. 时间管理办法,如何对项目进行规划提高效率?
  10. Ubuntu 16.04 显卡型号查询命令