存储基础 — 文件描述符 fd 究竟是什么?
坚持思考,就会很酷
前情概要
通过上篇 Go 存储基础 — 文件 IO 的姿势, 我们看到有两种文件读写的方式,一种是系统调用的方式,操作的对象是一个整数 fd,另一种是 Go 标准库自己封装的标准库 IO ,操作对象是 Go 封装的 file
结构体,但其内部还是针对整数 fd 的操作。所以一切的本源是通过 fd 来操作的,那么,这个 fd 究竟是什么?就这个点我们深入剖析。
fd 是什么?
fd
是 File descriptor
的缩写,中文名叫做:文件描述符。文件描述符是一个非负整数,本质上是一个索引值(这句话非常重要)。
什么时候拿到的 fd
?
当打开一个文件时,内核向进程返回一个文件描述符( open
系统调用得到 ),后续 read
、write
这个文件时,则只需要用这个文件描述符来标识该文件,将其作为参数传入 read
、write
。
fd 的值范围是什么?
在 POSIX 语义中,0,1,2 这三个 fd 值已经被赋予特殊含义,分别是标准输入( STDIN_FILENO ),标准输出( STDOUT_FILENO ),标准错误( STDERR_FILENO )。
文件描述符是有一个范围的:0 ~ OPEN_MAX-1 ,最早期的 UNIX 系统中范围很小,现在的主流系统单就这个值来说,变化范围是几乎不受限制的,只受到系统硬件配置和系统管理员配置的约束。
你可以通过 ulimit
命令查看当前系统的配置:
➜ ulimit -n
4864
如上,我系统上进程默认最多打开 4864 文件。
窥探 Linux 内核
fd
究竟是什么?必须去 Linux 内核看一眼。
用户使用系统调用 open
或者 creat
来打开或创建一个文件,用户态得到的结果值就是 fd
,后续的 IO
操作全都是用 fd
来标识这个文件,可想而知内核做的操作并不简单,我们接下来就是要揭开这层面纱。
task_struct
首先,我们知道进程的抽象是基于 struct task_struct
结构体,这是 Linux 里面最复杂的结构体之一 ,成员字段非常多,我们今天不需要详解这个结构体,我稍微简化一下,只提取我们今天需要理解的字段如下:
struct task_struct {// .../* Open file information: */struct files_struct *files;// ...
}
files;
这个字段就是今天的主角之一,files
是一个指针,指向一个为 struct files_struct
的结构体。这个结构体就是用来管理该进程打开的所有文件的管理结构。
重点理解一个概念:
struct task_struct
是进程的抽象封装,标识一个进程,在 Linux 里面的进程各种抽象视角,都是这个结构体给到你的。当创建一个进程,其实也就是 new
一个 struct task_struct
出来;
files_struct
好,上面通过进程结构体引出了 struct files_struct
这个结构体。这个结构体管理某进程打开的所有文件的管理结构,这个结构体本身是比较简单的:
/** Open file table structure*/
struct files_struct {// 读相关字段atomic_t count;bool resize_in_progress;wait_queue_head_t resize_wait;// 打开的文件管理结构struct fdtable __rcu *fdt;struct fdtable fdtab;// 写相关字段unsigned int next_fd;unsigned long close_on_exec_init[1];unsigned long open_fds_init[1];unsigned long full_fds_bits_init[1];struct file * fd_array[NR_OPEN_DEFAULT];
};
files_struct
这个结构体我们说是用来管理所有打开的文件的。怎么管理?本质上就是数组管理的方式,所有打开的文件结构都在一个数组里。这可能会让你疑惑,数组在那里?有两个地方:
struct file * fd_array[NR_OPEN_DEFAULT]
是一个静态数组,随着files_struct
结构体分配出来的,在 64 位系统上,静态数组大小为 64;struct fdtable
也是个数组管理结构,只不过这个是一个动态数组,数组边界是用字段描述的;
思考:为什么会有这种静态 + 动态的方式?
性能和资源的权衡 !大部分进程只会打开少量的文件,所以静态数组就够了,这样就不用另外分配内存。如果超过了静态数组的阈值,那么就动态扩展。
可以回忆下,这个是不是跟 inode
的直接索引,一级索引的优化思路类似。
fdtable
简单介绍下 fdtable
结构体,这个结构体就是封装用来管理 fd
的结构体,fd
的秘密就在这个里面。简化结构体如下:
struct fdtable {unsigned int max_fds;struct file __rcu **fd; /* current fd array */
};
注意到 fdtable.fd
这个字段是一个二级指针,什么意思?
就是指向 fdtable.fd
是一个指针字段,指向的内存地址还是存储指针的(元素指针类型为 struct file *
)。换句话说,fdtable.fd
指向一个数组,数组元素为指针(指针类型为 struct file *
)。
其中 max_fds
指明数组边界。
files_struct
小结
file_struct
本质上是用来管理所有打开的文件的,内部的核心是由一个静态数组和动态数组管理结构实现。
还记得上面我们说文件描述符 fd
本质上就是索引吗?这里就把概念接上了,fd
就是这个数组的索引,也就是数组的槽位编号而已。 通过非负数 fd
就能拿到对应的 struct file
结构体的地址。
我们把概念串起来(注意,这里为了突出 fd
的本质,把 fdtable
管理简化掉):
fd
真的就是files
这个字段指向的指针数组的索引而已(仅此而已)。通过fd
能够找到对应文件的struct file
结构体;
file
现在我们知道了 fd
本质是数组索引,数组元素是 struct file
结构体的指针。那么这里就引出了一个 struct file
的结构体。这个结构体又是用来干什么的呢?
这个结构体是用来表征进程打开的文件的。简化结构如下:
struct file {// ...struct path f_path;struct inode *f_inode;const struct file_operations *f_op;atomic_long_t f_count;unsigned int f_flags;fmode_t f_mode;struct mutex f_pos_lock;loff_t f_pos;struct fown_struct f_owner;// ...
}
这个结构体非常重要,它标识一个进程打开的文件,下面解释 IO 相关的几个最重要的字段:
f_path
:标识文件名f_inode
:非常重要的一个字段,inode
这个是 vfs 的inode
类型,是基于具体文件系统之上的抽象封装;f_pos
:这个字段非常重要,偏移,对,就是当前文件偏移。还记得上一篇 IO 基础里也提过偏移对吧,指的就是这个,f_pos
在open
的时候会设置成默认值,seek
的时候可以更改,从而影响到write/read
的位置;
思考问题
思考问题一:files_struct
结构体只会属于一个进程,那么struct file
这个结构体呢,是只会属于某一个进程?还是可能被多个进程共享?
划重点:struct file
是属于系统级别的结构,换句话说是可以共享与多个不同的进程。
思考问题二:什么时候会出现多个进程的 fd
指向同一个 file
结构体?
比如 fork
的时候,父进程打开了文件,后面 fork
出一个子进程。这种情况就会出现共享 file
的场景。如图:
思考问题三:在同一个进程中,多个 fd
可能指向同一个 file 结构吗?
可以。dup
函数就是做这个的。
#include <unistd.h>
int dup(int oldfd);
int dup2(int oldfd, int newfd);
inode
我们看到 struct file
结构体里面有一个 inode 的指针,也就自然引出了 inode 的概念。这个指向的 inode 并没有直接指向具体文件系统的 inode ,而是操作系统抽象出来的一层虚拟文件系统,叫做 VFS ( Virtual File System ),然后在 VFS 之下才是真正的文件系统,比如 ext4 之类的。
完整架构图如下:
思考:为什么会有这一层封装呢?
其实很容里理解,就是解耦。如果让 struct file
直接和 struct ext4_inode
这样的文件系统对接,那么会导致 struct file
的处理逻辑非常复杂,因为每对接一个具体的文件系统,就要考虑一种实现。所以操作系统必须把底下文件系统屏蔽掉,对外提供统一的 inode
概念,对下定义好接口进行回调注册。这样让 inode
的概念得以统一,Unix 一切皆文件的基础就来源于此。
再来看一样 VFS 的 inode
的结构:
struct inode {// 文件相关的基本信息(权限,模式,uid,gid等)umode_t i_mode;unsigned short i_opflags;kuid_t i_uid;kgid_t i_gid;unsigned int i_flags;// 回调函数const struct inode_operations *i_op;struct super_block *i_sb;struct address_space *i_mapping;// 文件大小,atime,ctime,mtime等loff_t i_size;struct timespec64 i_atime;struct timespec64 i_mtime;struct timespec64 i_ctime;// 回调函数const struct file_operations *i_fop;struct address_space i_data;// 指向后端具体文件系统的特殊数据void *i_private; /* fs or device private pointer */
};
其中包括了一些基本的文件信息,包括 uid,gid,大小,模式,类型,时间等等。
一个 vfs 和 后端具体文件系统的纽带:i_private
字段。**用来传递一些具体文件系统使用的数据结构。
至于 i_op
回调函数在构造 inode
的时候,就注册成了后端的文件系统函数,比如 ext4 等等。
思考问题:通用的 VFS 层,定义了所有文件系统通用的 inode,叫做 vfs inode,而后端文件系统也有自身特殊的 inode 格式,该格式是在 vfs inode 之上进行扩展的,怎么通过 vfs inode 怎么得到具体文件系统的 inode 呢?
下面以 ext4 文件系统举例(因为所有的文件系统套路一样),ext4 的 inode 类型是 struct ext4_inode_info
。
划重点:方法其实很简单,这个是属于 c 语言一种常见的(也是特有)编程手法:强转类型。vfs inode 出生就和 ext4_inode_info
结构体分配在一起的,直接通过 vfs inode 结构体的地址强转类型就能得到 ext4_inode_info
结构体。
struct ext4_inode_info {// ext4 inode 特色字段// ...// 重要!!!struct inode vfs_inode;
};
举个例子,现已知 inode 地址和 vfs_inode 字段的内偏移如下:
inode 的地址为 0xa89be0;
ext4_inode_info
里有个内嵌字段 vfs_inode,类型为struct inode
,该字段在结构体内偏移为 64 字节;
则可以得到:
ext4_inode_info
的地址为
(struct ext4_inode_info *)(0xa89be0 - 64)
强转方法使用了一个叫做 container_of
的宏,如下:
// 强转函数
static inline struct ext4_inode_info *EXT4_I(struct inode *inode)
{return container_of(inode, struct ext4_inode_info, vfs_inode);
}// 强转实际封装
#define container_of(ptr, type, member) \(type *)((char *)(ptr) - (char *) &((type *)0)->member)
#endif
所以,你懂了吗?
分配 inode 的时候,其实分配的是 ext4_inode_info
结构体,包含了 vfs inode,然后对外给出去 vfs_inode 字段的地址即可。VFS 层拿 inode 的地址使用,底下文件系统强转类型后,取外层的 inode 地址使用。
举个 ext4 文件系统的例子:
static struct inode *ext4_alloc_inode(struct super_block *sb)
{struct ext4_inode_info *ei;// 内存分配,分配 ext4_inode_info 的地址ei = kmem_cache_alloc(ext4_inode_cachep, GFP_NOFS);// ext4_inode_info 结构体初始化// 返回 vfs_inode 字段的地址return &ei->vfs_inode;
}
vfs 拿到的就是这个 inode 地址。
划重点:inode 的内存由后端文件系统分配,vfs inode 结构体内嵌在不同的文件系统的 inode 之中。不同的层次用不同的地址,ext4 文件系统用 ext4_inode_info
的结构体的地址,vfs 层用 ext4_inode_info.vfs_inode
字段的地址。
这种用法在 C 语言编程中很常见,算是 C 的特色了(仔细想想,这种用法和面向对象的多态的实现异曲同工)。
思考问题:怎么理解 vfs inode
和 ext2_inode_info
,ext4_inode_info
等结构体的区别?
所有文件系统共性的东西抽象到 vfs inode
,不同文件系统差异的东西放在各自的 inode
结构体中。
小结梳理
当用户打开一个文件,用户只得到了一个 fd
句柄,但内核做了很多事情,梳理下来,我们得到几个关键的数据结构,这几个数据结构是有层次递进关系的,我们简单梳理下:
进程结构
task_struct
:表征进程实体,每一个进程都和一个task_struct
结构体对应,其中task_struct.files
指向一个管理打开文件的结构体fiels_struct
;文件表项管理结构
files_struct
:用于管理进程打开的 open 文件列表,内部以数组的方式实现(静态数组和动态数组结合)。返回给用户的fd
就是这个数组的编号索引而已,索引元素为file
结构;
files_struct
只从属于某进程;
文件 file
结构:表征一个打开的文件,内部包含关键的字段有:当前文件偏移,inode 结构地址;
该结构虽然由进程触发创建,但是
file
结构可以在进程间共享;
vfs inode
结构体:文件 file
结构指向 的是 vfs 的 inode
,这个是操作系统抽象出来的一层,用于屏蔽后端各种各样的文件系统的 inode
差异;
inode 这个具体进程无关,是文件系统级别的资源;
ext4 inode
结构体(指代具体文件系统 inode ):后端文件系统的 inode
结构,不同文件系统自定义的结构体,ext2 有 ext2_inode_info
,ext4 有ext4_inode_info
,minix 有 minix_inode_info
,这些结构里都是内嵌了一个 vfs inode
结构体,原理相同;
完整的架构图:
思考实验
现在我们已经彻底了解 fd 这个所谓的非负整数代表的深层含义了,我们可以准备一些 IO 的思考举一反三。
文件读写( IO )的时候会发生什么?
在完成 write 操作后,在文件
file
中的当前文件偏移量会增加所写入的字节数,如果这导致当前文件偏移量超处了当前文件长度,则会把 inode 的当前长度设置为当前文件偏移量(也就是文件变长)O_APPEND
标志打开一个文件,则相应的标识会被设置到文件file
状态的标识中,每次对这种具有追加写标识的文件执行write
操作的时候,file
的当前文件偏移量首先会被设置成inode
结构体中的文件长度,这就使得每次写入的数据都追加到文件的当前尾端处(该操作对用户态提供原子语义);若一个文件
seek
定位到文件当前的尾端,则file
中的当前文件偏移量设置成inode
的当前文件长度;seek
函数值修改file
中的当前文件偏移量,不进行任何I/O
操作;每个进程对有它自己的
file
,其中包含了当前文件偏移,当多个进程写同一个文件的时候,由于一个文件 IO 最终只会是落到全局的一个inode
上,这种并发场景则可能产生用户不可预期的结果;
总结
回到初心,理解 fd 的概念有什么用?
一切 IO 的行为到系统层面都是以 fd
的形式进行。无论是 C/C++,Go,Python,JAVA 都是一样,任何语言都是一样,这才是最本源的东西,理解了 fd
关联的一系列结构,你才能对 IO 游刃有余。
简要的总结:
从姿势上来讲,用户
open
文件得到一个非负数句柄fd
,之后针对该文件的 IO 操作都是基于这个fd
;文件描述符
fd
本质上来讲就是数组索引,fd
等于 5 ,那对应数组的第 5 个元素而已,该数组是进程打开的所有文件的数组,数组元素类型为struct file
;结构体
task_struct
对应一个抽象的进程,files_struct
是这个进程管理该进程打开的文件数组管理器。fd
则对应了这个数组的编号,每一个打开的文件用file
结构体表示,内含当前偏移等信息;file
结构体可以为进程间共享,属于系统级资源,同一个文件可能对应多个file
结构体,file
内部有个inode
指针,指向文件系统的inode
;inode
是文件系统级别的概念,只由文件系统管理维护,不因进程改变(file
是进程出发创建的,进程open
同一个文件会导致多个file
,指向同一个inode
);
回顾一眼架构图:
~完~
后记
内核把最复杂的活干了,只暴露给您最简单的一个非负整数 fd
。所以,绝大部分场景会用fd
就行,倒不用想太多。当然如果能再深入看一眼知其所以然是最好不过。本文分享是基础准备篇,希望能给你带来不一样的 IO 视角。
往期推荐
往期推荐
存储入门进阶推荐:存储技术通关看这几本书
Go 存储基础 — 文件 IO 的姿势
深度剖析 Linux cp 的秘密
感谢奇伢大佬的分享,如果你也对存储领域有兴趣推荐关注:奇伢云存储
存储基础 — 文件描述符 fd 究竟是什么?相关推荐
- <Linux基础--文件描述符fd、重定向、文件流指针FILE*概念理解>
文章目录 1.文件描述符fd 2.重定向 3.文件流指针:FILE* 4.动态库和静态库 1.文件描述符fd 文件描述符:实际上就是内核中一个进程打开的文件描述信息数组(file* fd_array[ ...
- linux存储--文件描述符fd与FILE结构体(二)
文件描述符fd 对于linux而言,所有对设备(对于linux而言,一切皆文件)和文件的操作都使用文件描述符来进行的. 文件描述符是一个非负的整数,它是一个索引值,指向内核中每个进程打开文件的记录表. ...
- linux文件描述符泄漏,文件描述符(fd)泄漏排查一篇就够了
生产多次遇到文件描述符(fd)泄露相关的问题, 文件描述符泄漏一般引起 的现象是文件句柄数(封面图)/tcp alloc(上图)增长.文章分为两部分介绍文件描述符相关内容,第一部分介绍文件描述基础知识 ...
- linux文件描述符与标识符,文件描述符fd
这里以问答的方式来讨论这个问题: 1. 文件描述符 fd 和文件指针 FILE *的关系? 文件描述符是什么?我们知道每一个进程都有一个自己的PCB(进程控制块),进程控制块的结构是: struct ...
- [转]文件IO详解(二)---文件描述符(fd)和inode号的关系
原文:https://www.cnblogs.com/frank-yxs/p/5925563.html 文件IO详解(二)---文件描述符(fd)和inode号的关系 ---------------- ...
- linux 文件指针,Linux中文件描述符fd与文件指针FILE*互相转换实例解析
本文研究的主要是Linux中文件描述符fd与文件指针FILE*互相转换的相关内容,具体介绍如下. 1.文件描述符fd的定义:文件描述符在形式上是一个非负整数.实际上,它是一个索引值,指向内核为每一个进 ...
- android MemeoryFile和Parcel操作文件描述符fd
ParcelFileDescriptor pfd; FileDescriptor fd; Parcel p; static byte[] testString = new byte[] {1,2,3, ...
- 文件描述符fd和文件指针File* fp的区别和转换
在linux系统中把设备和普通文件也都看做是文件,要对文件进行操作就必须先打开文件,打开文件后会得到一个文件描述符,它是一个很小的正整数,是一个索引值. 内核会为每一个运行中的进程在进程控制块pcb ...
- Linux操作系统~系统文件IO,什么是文件描述符fd?什么是vfs虚拟文件系统
目录 1.open() (1).第二个参数flags-通过比特位传多组标记 2.文件描述符fd(open函数的返回值) (1).fd的本质 (2).vfs-虚拟文件系统(一切皆文件) (3).调用re ...
最新文章
- 赠票 | 2019,GMIS归来!杨强、吴恩达等全球重磅嘉宾共话数据智能(上海)
- linux 防火墙iptables简明教程
- 《研磨设计模式》chap20 享元模式 Flyweight (1)前奏介绍
- 2019年1月14日【第一天正式学习】
- 撸个微信小程序的省市区选择器
- 【Python】Python库之Web信息提取
- 被拘捕 353 天后,三星“太子”李在镕被判缓刑当庭获释!
- 大华摄像头解码 ffmpeg_解码矩阵配套液晶拼接屏系统解决安防行业设备过于复杂的问题...
- paip.c++ 正则表达式的应用跟普通正则表达式的区别以及特别注意点总
- CANoe下载地址以及CAN Demo 16的下载与激活,并附录所有CANoe软件版本
- 好用的Mac数据恢复软件在这里
- python取出字典重复值_在Python中的字典中查找具有重复值的键
- oppo手机android文件夹,使用OPPO手机,这3个功能一定要关闭,不然你的手机会越来越卡...
- H3C认证网络工程师
- php项目经验总结,php项目心得以及总结
- 我的理想600字作文计算机方面,我的理想作文600字当一名老师(共8篇)
- 4399IT运维实习生面试经历
- Java中的四种Reference
- 33 大数据项目之电商数仓(电商数据仓库系统)
- WARNING: Ignoring invalid distribution -ip 解决方案
热门文章
- 关于API和SDK的理解
- ubuntu16.04升级 vim 8.0
- SQL Server Pivot 隐藏group
- 个人作业-Week1
- 【源码阅读】dbutil包中BasicRowProcessor内部类CaseInsensiti...
- 500 OOPS: vsftpd: refusing to run with writable root inside chroot()
- WPF中播放Flash动画
- (转载)查看Oracle字符集及怎样修改字符集
- vue调试工具 -- vue-devtools 安装方法
- 实践:《从头到脚撸一个多人视频聊天 — 前端 WebRTC 实战(一)》