https://blog.csdn.net/ekenlinbing/article/details/7613334
摘要:本章主要介绍了LINUX3.0内存寻址方面的内容,重点对follow_page函数进行注释,以帮助读者大致了解ARM A9的页表组织。 读者需要理解一些基本概念:虚拟地址、物理地址、MPU、MMU、ARM中的二级页表、cache、TLB。

法律声明:《LINUX3.0内核源代码分析》系列文章由谢宝友(scxby@163.com)发表于http://xiebaoyou.blog.chinaunix.net,文章中的LINUX3.0源代码遵循GPL协议。除此以外,文档中的其他内容由作者保留所有版权。谢绝转载。

本连载文章并不是为了形成一本适合出版的书籍,而是为了向有一定内核基本的读者提供一些linux3.0源码分析。因此,请读者结合《深入理解LINUX内核》第三版阅读本连载。

本系列文章分析ARM A9的linux3.0代码实现。因此,需要读者有一定的ARM体系硬件知识。推荐阅读《ARM嵌入式系统开发-软件设计与优化》。另外,读者最好对内核有所了解,推荐阅读《深入理解LINUX内核》第三版。

读者需要理解一些基本概念:虚拟地址、物理地址、MPU、MMU、ARM中的二级页表、cache、TLB。

1.1 基本函数
Linux3.0将分页抽象为四级:

名称 数据结构 备注
页全局目录 Pgd_t
页上级目录 Pud_t A9未用
页中间目录 Pmd_t A9未用
页表 Pte_t
/*** 对A9来说,只支持4K大小的页,因此PAGE_SHIFT定义为12.它表示一个虚拟地址的页内偏移量的位数。* 根据它计算出来的页大小PAGE_SIZE为4K,PAGE_MASK为0xffff000。*/#define PAGE_SHIFT           12#define PAGE_SIZE              (_AC(1,UL) << PAGE_SHIFT)#define PAGE_MASK           (~(PAGE_SIZE-1))/*** 对A9来说,没有PMD和PUD,因此,PMD_SHIFT和PUD_SHIFT的值与PGDIR_SHIFT是一样的,都是21.* 21表示一个页全局目录项代表了2^20即1M的地址空间。*/#define PMD_SHIFT            21#define PGDIR_SHIFT                  21/*** 分别代表一个页表、页中间目录、页全局目录表中表项的个数。*/#define PTRS_PER_PTE               512#define PTRS_PER_PMD             1#define PTRS_PER_PGD              2048/*** 将pte\pmd\pud\pgd\pgprot转换为整型值*/#define pte_val(x)      (x)#define pmd_val(x)      (x)#define pgd_val(x)      ((x)[0])#define pgprot_val(x)   (x)/*** 将整型值转换为pte\pmd\pud\pgd\pgprot*/#define __pte(x)        (x)#define __pmd(x)        (x)#define __pgprot(x)     (x)

1.1.1 判断页表项标志的函数

/*** 页表项是否为0*/#define pte_none(pte)                 (!pte_val(pte))/*** 页表项是否可用。当页在内存中但是不可读写时置此标志。典型的用途是写时复制。*/#define pte_present(pte)  (pte_val(pte) & L_PTE_PRESENT)/*** 页表项是否有可写标志*/#define pte_write(pte)                (!(pte_val(pte) & L_PTE_RDONLY))/*** 页表项是否为脏*/#define pte_dirty(pte)                 (pte_val(pte) & L_PTE_DIRTY)/*** 页表项是否表示最近没有被访问过*/#define pte_young(pte)               (pte_val(pte) & L_PTE_YOUNG)/*** 页表项是否有可执行标志*/#define pte_exec(pte)                 (!(pte_val(pte) & L_PTE_XN))#define pte_special(pte)    (0)/*** 清除页表项的值。*/#define pte_clear(mm,addr,ptep)     set_pte_ext(ptep, __pte(0), 0)/*** 向一个页表项中写入指定的值。*/#define set_pte_ext(ptep,pte,ext) cpu_set_pte_ext(ptep,pte,ext)/*** 判断两个页表项是否指向相同的页并且有相同的访问权限*/static inline int pte_same(pte_t pte_a, pte_t pte_b){return pte_val(pte_a) == pte_val(pte_b);}/*** 检查页中间目录项是否指向不可用的页表。*/#define pmd_bad(pmd)               (pmd_val(pmd) & 2)/*** 页表项是否可用。当页在内存中但是不可读写时置此标志。典型的用途是写时复制。*/#define pte_present(pte)  (pte_val(pte) & L_PTE_PRESENT)

1.1.2 页表项操作函数

/*** 虚拟地址在页全局目录中索引*/#define pgd_index(addr)             ((addr) >> PGDIR_SHIFT)/*** 计算一个进程用户态地址对应的页全局目录项地址。* 计算内核态地址的页全局目录项地址应当使用pgd_offset_k*/#define pgd_offset(mm, addr)  ((mm)->pgd + pgd_index(addr))/* to find an entry in a kernel page-table-directory *//*** 计算一个内核态地址的页全局目录项地址。*/#define pgd_offset_k(addr)        pgd_offset(&init_mm, addr)/*** 获得页全局目录项所指向的页面。对A9来说,就是pmd_page*/#define pgd_page(pgd)                                  (pud_page((pud_t){ pgd }))/*** 获得页全局目录项的虚拟地址。*/#define pgd_page_vaddr(pgd)                     (pud_page_vaddr((pud_t){ pgd }))/*** 在页全局目录表中,查找一个虚拟地址对应的页上级目录位置。* 对二级页表来说,页上级目录就是页全局目录,因此直接返回页全局目录。*/#define pud_offset(pgd, start)           (pgd)/*** 获得页上级目录页面。*/#define pud_page(pud)                         pgd_page(pud)/*** 获得页上级目录页面的虚拟地址。*/#define pud_page_vaddr(pud)            pgd_page_vaddr(pud)/*** 获得一个虚拟地址的页中间目录中的地址。对二级页表来说,没有pmd,直接返回页全局目录地址即可。*/#define pmd_offset(dir, addr)    ((pmd_t *)(dir))/*** 获得页中间目录指向的页表页面。*/#define pmd_page(pmd)             pfn_to_page(__phys_to_pfn(pmd_val(pmd)))/*** 获得一个线性地址对应的页表项在页表中的索引*/#define pte_index(addr)              (((addr) >> PAGE_SHIFT) & (PTRS_PER_PTE - 1))/*** 在主内核页表中定位内核地址对应的页表项的虚拟地址。*/#define pte_offset_kernel(pmd,addr)        (pmd_page_vaddr(*(pmd)) + pte_index(addr))/*** 在进程页表中定位线性地址对应的页表项的地址。如果页表保存在高端内存中,那么还为页表建立一个临时内核映射。*/#define pte_offset_map(pmd,addr)  (__pte_map(pmd) + pte_index(addr))/*** 如果页表在高端内存中,不解除由pte_offset_map建立的临时内核映射。*/#define pte_unmap(pte)                      __pte_unmap(pte)/*** 获取页表项中的页帧号。*/#define pte_pfn(pte)           (pte_val(pte) >> PAGE_SHIFT)/*** 根据页帧号和页面属性,合成页表项。*/#define pfn_pte(pfn,prot)  __pte(__pfn_to_phys(pfn) | pgprot_val(prot))/*** 从页表项中提取页帧号,并定位该页帧号对应的页框。*/#define pte_page(pte)                 pfn_to_page(pte_pfn(pte))/*** 根据页框和页面属性,合成页表项。*/#define mk_pte(page,prot)        pfn_pte(page_to_pfn(page), prot)/*** 当页表项映射到文件,并且没有装载进内存时,从页表项中提取文件页号。*/#define pte_to_pgoff(x)              (pte_val(x) >> 3)/*** 将页面映射的页号存放到页表项中*/#define pgoff_to_pte(x)              __pte(((x) << 3) | L_PTE_FILE)

1.1.3 页表分配相关的函数

/*** 为页全局目录分配内存*/pgd_t *pgd_alloc(struct mm_struct *mm)/*** 释放页全局目录项*/void pgd_free(struct mm_struct *mm, pgd_t *pgd_base)/*** 分配页上级目录,在二级页表中,此函数什么也不做。*/#define pud_alloc(mm, pgd, address)        (pgd)/*** 释放页上级目录,在二级页表中,这个函数什么也不做*/#define pud_free(mm, x)                               do { } while (0)Pmd_alloc、pmd_free、pte_alloc_map、pte_free等宏或函数与此类似。

1.2 刷新cache和TLB
Cache是CPU与内存之间的缓存,而TLB是CPU与MMU之间缓存。

当外部硬件通过DMA修改了内存中的数据时,需要使cache中的数据失效,强制CPU从内存中装载数据。当CPU向缓存中写入数据后,为了通过DMA将数据传送到外部硬件,则需要将缓存中的数据强制写入内存。

当页表项映射的页面发生变化后,也需要将页面缓存的内容写入内存。

同理,当修改了页表项后,为了避免TLB中缓存的项进行错误的MMU转换,也需要使TLB中缓存的项失效。

1.3 follow_page函数
follow_page函数是从进程的页表中搜索特定地址对应的页面对象。这个函数对于理解LINUX内核页表管理有帮助。

struct page *follow_page(struct vm_area_struct *vma, unsigned long address,unsigned int flags){pgd_t *pgd;pud_t *pud;pmd_t *pmd;pte_t *ptep, pte;spinlock_t *ptl;struct page *page;struct mm_struct *mm = vma->vm_mm;/*** 对ARM A9来说,没有配置巨页功能,follow_huge_addr实际上是空处理。*/page = follow_huge_addr(mm, address, flags & FOLL_WRITE);if (!IS_ERR(page)) {BUG_ON(flags & FOLL_GET);goto out;}page = NULL;/*** 在一级目录项中,查找地址对应的一级目录索引项。*/pgd = pgd_offset(mm, address);/*** 该地址对应的一级目录项无效。对ARM来说,pgd_none总返回0,真正的判断是在pmd_none。*/if (pgd_none(*pgd) || unlikely(pgd_bad(*pgd)))goto no_page_table;/*** 查找地址对应的页上级目录项。这对4级目录的分组体系来说才有效。ARM不存在页上级目录和页中间目录。* pud总是返回pgd。*/pud = pud_offset(pgd, address);/*** pud_none总是返回0,因此下面的判断是无用。真正有用的判断在后面的pmd_none*/if (pud_none(*pud))goto no_page_table;if (pud_huge(*pud) && vma->vm_flags & VM_HUGETLB) {BUG_ON(flags & FOLL_GET);page = follow_huge_pud(mm, address, pud, flags & FOLL_WRITE);goto out;}if (unlikely(pud_bad(*pud)))goto no_page_table;/*** 取页中间目录,对ARM来说,pmd直接返回pud,即pgd。*/pmd = pmd_offset(pud, address);/*** 判断pmd是否为0,即ARM一级目录是否有效。对pgd,pud的判断都是无用的,真正的判断在这里。*/if (pmd_none(*pmd))goto no_page_table;/*** 判断pmd是否是一个巨页,以及用户虚拟地址空间段是否是一个巨页段,略过。*/if (pmd_huge(*pmd) && vma->vm_flags & VM_HUGETLB) {BUG_ON(flags & FOLL_GET);/*** 查找巨页地址映射的物理页面。*/page = follow_huge_pmd(mm, address, pmd, flags & FOLL_WRITE);goto out;}/*** 透明巨页处理,对某些体系结构,如mips来说,这个功能是有效的。但是虽然ARM硬件支持巨页(1M页)* 目前的内核还不支持ARM巨页,略过。*/if (pmd_trans_huge(*pmd)) {if (flags & FOLL_SPLIT) {split_huge_page_pmd(mm, pmd);goto split_fallthrough;}spin_lock(&mm->page_table_lock);if (likely(pmd_trans_huge(*pmd))) {if (unlikely(pmd_trans_splitting(*pmd))) {spin_unlock(&mm->page_table_lock);wait_split_huge_page(vma->anon_vma, pmd);} else {page = follow_trans_huge_pmd(mm, address,pmd, flags);spin_unlock(&mm->page_table_lock);goto out;}} elsespin_unlock(&mm->page_table_lock);/* fall through */}split_fallthrough:/*** 判断pmd是否有效。*/if (unlikely(pmd_bad(*pmd)))goto no_page_table;/*** 在二级页表中找到地址对应的pte。并将pte指针返回。* 注意,这里获取了进程的内存页表锁。以防止内核其他路径修改进程页表,使得ptep指向的pte产生变化。* ptl是内存页表锁。* 如果内核支持将pte表放到高端内存,那么还需要调用kmap_atomic将页表到内核地址空间中。*/ptep = pte_offset_map_lock(mm, pmd, address, &ptl);pte = *ptep;/*** 这里判断页表项是否有效。* 有时,页面在内存中,但是不允许访问。比如写时复制。* 当页完全不在内存中时,页表项也没有效。*/if (!pte_present(pte))goto no_page;/*** 希望搜索一个可写的页面,但是页表项没有写权限。*/if ((flags & FOLL_WRITE) && !pte_write(pte))goto unlock;/*** 根据pte中保存的页帧号,找到该页帧号对应的page结构。*/page = vm_normal_page(vma, address, pte);if (unlikely(!page)) {/* 根据页帧号无法找到page结构,可能是一些特殊情况。如驱动自行管理的pte出了问题。 */if ((flags & FOLL_DUMP) || /* 不允许返回0页 */!is_zero_pfn(pte_pfn(pte))) /* 不是0页 */goto bad_page;page = pte_page(pte);/* 向上层返回0页 */}/*** 调用者要求获取页面引用,则增加页面引用计数。*/if (flags & FOLL_GET)get_page(page);if (flags & FOLL_TOUCH) {/* 调用者希望设置访问标志,可能是随后会写页面 */if ((flags & FOLL_WRITE) &&/* 获取写引用 */!pte_dirty(pte) && !PageDirty(page))/* 页面和pte的脏标志都还没有设置,则强制设置脏标志 */set_page_dirty(page);/** pte_mkyoung() would be more correct here, but atomic care* is needed to avoid losing the dirty bit: it is easier to use* mark_page_accessed().*//*** 标记页面访问标志。*/mark_page_accessed(page);}/*** 调用者想将页面锁在内存中。*/if ((flags & FOLL_MLOCK) && (vma->vm_flags & VM_LOCKED)) {/** The preliminary mapping check is mainly to avoid the* pointless overhead of lock_page on the ZERO_PAGE* which might bounce very badly if there is contention.** If the page is already locked, we don't need to* handle it now - vmscan will handle it later if and* when it attempts to reclaim the page.*/if (page->mapping && trylock_page(page)) {/* 锁住页面,不交换到外部存储器中 */lru_add_drain();  /* push cached pages to LRU *//** Because we lock page here and migration is* blocked by the pte's page reference, we need* only check for file-cache page truncation.*/if (page->mapping)mlock_vma_page(page);unlock_page(page);}}unlock:/*** 释放进程页面锁,同时,如果支持将页表放到高端内存,就解除对页表的映射。*/pte_unmap_unlock(ptep, ptl);out:return page;bad_page:pte_unmap_unlock(ptep, ptl);return ERR_PTR(-EFAULT);no_page:pte_unmap_unlock(ptep, ptl);if (!pte_none(pte))return page;no_page_table:/** When core dumping an enormous anonymous area that nobody* has touched so far, we don't want to allocate unnecessary pages or* page tables.  Return error instead of NULL to skip handle_mm_fault,* then get_dump_page() will return NULL to leave a hole in the dump.* But we can only make this optimization where a hole would surely* be zero-filled if handle_mm_fault() actually did handle it.*/if ((flags & FOLL_DUMP) &&(!vma->vm_ops || !vma->vm_ops->fault))return ERR_PTR(-EFAULT);return page;

《LINUX3.0内核源代码分析》第一章:内存寻址相关推荐

  1. 《LINUX3.0内核源代码分析》第二章:中断和异常 【转】

    转自:http://blog.chinaunix.net/uid-25845340-id-2982887.html 摘要:第二章主要讲述linux如何处理ARM cortex A9多核处理器的中断.异 ...

  2. linux 内存管理 代码,《LINUX3.0内核源代码分析》第四章:内存管理(3)

    1.1.1.1快速分配流程 /** *遍历管理区列表,分配一个页面. *gfp_mask:分配标志. *nodemask:在哪些节点中进行分配,一般未指定. *order:分配的页面数量为2^orde ...

  3. 卷一 内核源代码分析 第二章 异常 2.2.4 OMAP4的中断体系 图书试读版-请勿转载

    作者 crosskernel@gmail.com 2.2.4 OMAP4的中断体系 尽管已经宣布推出手机市场,但是作为移动处理器领域曾经的领袖, Ti在相当长的时间里总是抢先发布性能最强的新一代ARM ...

  4. Linux内核源代码分析-目录

    第一部分 Linux 内核源代码 arch/i386/kernel/entry.S 2 arch/i386/kernel/init_task.c 8 arch/i386/kernel/irq.c 8 ...

  5. linux VFS概述以及内核源代码分析

    linux VFS概述以及内核源代码分析 一.   概述 Linux能够支持各种不同的文件系统是通过VFS实现的,由于不同的物理文件系统具有不同的组织结构和不同的处理方式,为了能够处理各种不同的物理文 ...

  6. linux内核源代码分析----内核基础设施之klist

    概述 klist是list的线程安全版本,他提供了整个链表的自旋锁,查找链表节点,对链表节点的插入和删除操作都要获得这个自旋锁.klist的节点数据结构是klist_node,klist_node引入 ...

  7. linux内核测试指南 第一章

    linux内核测试指南 第一章 内核,补丁,内核树 和 编译 1.1 内核 Linux内核的当前版本通常可以从linux内核档案网站(http://www.kernel.org/)以一个大的压缩文件的 ...

  8. Linux内核源代码分析——可执行文件header处理(二进制文件读写范例,写DUL工具入门指引)...

    在把Linux内核源代码生成Image之前,需要把执行文件头结构信息剔除出来.这个过程对理解Linux内核具有很大的帮助.同时,由于是对可执行文件进行直接读写操作,想写DUL工具的童鞋可以在这里学习到 ...

  9. 算法设计与分析第一章递推算法

    算法设计与分析 第一章 递推算法 1.概述 在**已知条件**和**所求问题**之间总存在着某种相互联系的关系,如果可以找到前后过程之间的数量关系(即递推式),那么,从**问题出发逐步推到已知条件** ...

最新文章

  1. Simulink触发子系统使用方法
  2. 新手必知20点VC技巧【转】
  3. Design Compiler指南——设计综合过程
  4. 会话跟踪技术之Cookie
  5. 使用 Direct Initial Load 初始化 GoldenGate 同步数据
  6. 去除html重复的元素 js,js数组中去除重复值的几种方法
  7. 一个分页效果ruby版可作为面试题吧
  8. 11-7 无底洞问题
  9. 大型网站的架构设计问题----大型高并发高负载网站的系统架构[转]
  10. dnf服务器文件夹,有效提升DNF游戏稳定性 缓存文件清理教学
  11. 中国农业大学计算机考研参考书目,中国农业大学(专业学位)计算机技术考研参考书目...
  12. web onblur string
  13. mysql 字段被截断_msyql存储数据时字段被截断
  14. Android 局部刷新
  15. 内存小实用的手机浏览器,这2款无广告,功能不输UC
  16. 正确理解差异的“专业意义”与“统计学意义”
  17. html 转图片 wekit实现,HTML5和Webkit实现树叶飘落动画
  18. 都才40出头,近一个月已有至少5名优秀青年学者英年早逝!健康不容忽视
  19. 搭建Maven私服(nexus)-windows版
  20. 5分钟制作H5发光字表白并分享给她

热门文章

  1. shell的各种运行模式?
  2. 使程序在后台执行,并将日志输出至文件
  3. redis sentinel集群配置及haproxy配置
  4. shell example01
  5. 我们如此努力,也不过是个普通人
  6. 文件服务器共享目录设置(二)
  7. java实现序列化接口6_只有实现 Java.io. 接口的类的对象才能被序列化和反序列化。用关键字 修饰的对象变量将不会序列化。_程序设计基础(C#)答案_学小易找答案...
  8. 蜘蛛搜索引擎_各大搜索引擎的蜘蛛特点
  9. 和tp数据库_CAN / CAN FD传输层(TP)详解
  10. mvc模型中MySQL类_Mvc5 EF6 CodeFirst Mysql (二) 修改数据模型