《LINUX3.0内核源代码分析》第一章：内存寻址

https://blog.csdn.net/ekenlinbing/article/details/7613334
摘要：本章主要介绍了LINUX3.0内存寻址方面的内容，重点对follow_page函数进行注释，以帮助读者大致了解ARM A9的页表组织。读者需要理解一些基本概念：虚拟地址、物理地址、MPU、MMU、ARM中的二级页表、cache、TLB。

法律声明：《LINUX3.0内核源代码分析》系列文章由谢宝友（scxby@163.com）发表于http://xiebaoyou.blog.chinaunix.net，文章中的LINUX3.0源代码遵循GPL协议。除此以外，文档中的其他内容由作者保留所有版权。谢绝转载。

本连载文章并不是为了形成一本适合出版的书籍，而是为了向有一定内核基本的读者提供一些linux3.0源码分析。因此，请读者结合《深入理解LINUX内核》第三版阅读本连载。

本系列文章分析ARM A9的linux3.0代码实现。因此，需要读者有一定的ARM体系硬件知识。推荐阅读《ARM嵌入式系统开发-软件设计与优化》。另外，读者最好对内核有所了解，推荐阅读《深入理解LINUX内核》第三版。

读者需要理解一些基本概念：虚拟地址、物理地址、MPU、MMU、ARM中的二级页表、cache、TLB。

1.1 基本函数
Linux3.0将分页抽象为四级：

名称	数据结构	备注
页全局目录	Pgd_t
页上级目录	Pud_t	A9未用
页中间目录	Pmd_t	A9未用
页表	Pte_t

/*** 对A9来说，只支持4K大小的页，因此PAGE_SHIFT定义为12.它表示一个虚拟地址的页内偏移量的位数。* 根据它计算出来的页大小PAGE_SIZE为4K，PAGE_MASK为0xffff000。*/#define PAGE_SHIFT           12#define PAGE_SIZE              (_AC(1,UL) << PAGE_SHIFT)#define PAGE_MASK           (~(PAGE_SIZE-1))/*** 对A9来说，没有PMD和PUD，因此，PMD_SHIFT和PUD_SHIFT的值与PGDIR_SHIFT是一样的，都是21.* 21表示一个页全局目录项代表了2^20即1M的地址空间。*/#define PMD_SHIFT            21#define PGDIR_SHIFT                  21/*** 分别代表一个页表、页中间目录、页全局目录表中表项的个数。*/#define PTRS_PER_PTE               512#define PTRS_PER_PMD             1#define PTRS_PER_PGD              2048/*** 将pte\pmd\pud\pgd\pgprot转换为整型值*/#define pte_val(x)      (x)#define pmd_val(x)      (x)#define pgd_val(x)      ((x)[0])#define pgprot_val(x)   (x)/*** 将整型值转换为pte\pmd\pud\pgd\pgprot*/#define __pte(x)        (x)#define __pmd(x)        (x)#define __pgprot(x)     (x)

1.1.1 判断页表项标志的函数

/*** 页表项是否为0*/#define pte_none(pte)                 (!pte_val(pte))/*** 页表项是否可用。当页在内存中但是不可读写时置此标志。典型的用途是写时复制。*/#define pte_present(pte)  (pte_val(pte) & L_PTE_PRESENT)/*** 页表项是否有可写标志*/#define pte_write(pte)                (!(pte_val(pte) & L_PTE_RDONLY))/*** 页表项是否为脏*/#define pte_dirty(pte)                 (pte_val(pte) & L_PTE_DIRTY)/*** 页表项是否表示最近没有被访问过*/#define pte_young(pte)               (pte_val(pte) & L_PTE_YOUNG)/*** 页表项是否有可执行标志*/#define pte_exec(pte)                 (!(pte_val(pte) & L_PTE_XN))#define pte_special(pte)    (0)/*** 清除页表项的值。*/#define pte_clear(mm,addr,ptep)     set_pte_ext(ptep, __pte(0), 0)/*** 向一个页表项中写入指定的值。*/#define set_pte_ext(ptep,pte,ext) cpu_set_pte_ext(ptep,pte,ext)/*** 判断两个页表项是否指向相同的页并且有相同的访问权限*/static inline int pte_same(pte_t pte_a, pte_t pte_b){return pte_val(pte_a) == pte_val(pte_b);}/*** 检查页中间目录项是否指向不可用的页表。*/#define pmd_bad(pmd)               (pmd_val(pmd) & 2)/*** 页表项是否可用。当页在内存中但是不可读写时置此标志。典型的用途是写时复制。*/#define pte_present(pte)  (pte_val(pte) & L_PTE_PRESENT)

1.1.2 页表项操作函数

/*** 虚拟地址在页全局目录中索引*/#define pgd_index(addr)             ((addr) >> PGDIR_SHIFT)/*** 计算一个进程用户态地址对应的页全局目录项地址。* 计算内核态地址的页全局目录项地址应当使用pgd_offset_k*/#define pgd_offset(mm, addr)  ((mm)->pgd + pgd_index(addr))/* to find an entry in a kernel page-table-directory *//*** 计算一个内核态地址的页全局目录项地址。*/#define pgd_offset_k(addr)        pgd_offset(&init_mm, addr)/*** 获得页全局目录项所指向的页面。对A9来说，就是pmd_page*/#define pgd_page(pgd)                                  (pud_page((pud_t){ pgd }))/*** 获得页全局目录项的虚拟地址。*/#define pgd_page_vaddr(pgd)                     (pud_page_vaddr((pud_t){ pgd }))/*** 在页全局目录表中，查找一个虚拟地址对应的页上级目录位置。* 对二级页表来说，页上级目录就是页全局目录，因此直接返回页全局目录。*/#define pud_offset(pgd, start)           (pgd)/*** 获得页上级目录页面。*/#define pud_page(pud)                         pgd_page(pud)/*** 获得页上级目录页面的虚拟地址。*/#define pud_page_vaddr(pud)            pgd_page_vaddr(pud)/*** 获得一个虚拟地址的页中间目录中的地址。对二级页表来说，没有pmd，直接返回页全局目录地址即可。*/#define pmd_offset(dir, addr)    ((pmd_t *)(dir))/*** 获得页中间目录指向的页表页面。*/#define pmd_page(pmd)             pfn_to_page(__phys_to_pfn(pmd_val(pmd)))/*** 获得一个线性地址对应的页表项在页表中的索引*/#define pte_index(addr)              (((addr) >> PAGE_SHIFT) & (PTRS_PER_PTE - 1))/*** 在主内核页表中定位内核地址对应的页表项的虚拟地址。*/#define pte_offset_kernel(pmd,addr)        (pmd_page_vaddr(*(pmd)) + pte_index(addr))/*** 在进程页表中定位线性地址对应的页表项的地址。如果页表保存在高端内存中，那么还为页表建立一个临时内核映射。*/#define pte_offset_map(pmd,addr)  (__pte_map(pmd) + pte_index(addr))/*** 如果页表在高端内存中，不解除由pte_offset_map建立的临时内核映射。*/#define pte_unmap(pte)                      __pte_unmap(pte)/*** 获取页表项中的页帧号。*/#define pte_pfn(pte)           (pte_val(pte) >> PAGE_SHIFT)/*** 根据页帧号和页面属性，合成页表项。*/#define pfn_pte(pfn,prot)  __pte(__pfn_to_phys(pfn) | pgprot_val(prot))/*** 从页表项中提取页帧号，并定位该页帧号对应的页框。*/#define pte_page(pte)                 pfn_to_page(pte_pfn(pte))/*** 根据页框和页面属性，合成页表项。*/#define mk_pte(page,prot)        pfn_pte(page_to_pfn(page), prot)/*** 当页表项映射到文件，并且没有装载进内存时，从页表项中提取文件页号。*/#define pte_to_pgoff(x)              (pte_val(x) >> 3)/*** 将页面映射的页号存放到页表项中*/#define pgoff_to_pte(x)              __pte(((x) << 3) | L_PTE_FILE)

1.1.3 页表分配相关的函数

/*** 为页全局目录分配内存*/pgd_t *pgd_alloc(struct mm_struct *mm)/*** 释放页全局目录项*/void pgd_free(struct mm_struct *mm, pgd_t *pgd_base)/*** 分配页上级目录，在二级页表中，此函数什么也不做。*/#define pud_alloc(mm, pgd, address)        (pgd)/*** 释放页上级目录，在二级页表中，这个函数什么也不做*/#define pud_free(mm, x)                               do { } while (0)Pmd_alloc、pmd_free、pte_alloc_map、pte_free等宏或函数与此类似。

1.2 刷新cache和TLB
Cache是CPU与内存之间的缓存，而TLB是CPU与MMU之间缓存。

当外部硬件通过DMA修改了内存中的数据时，需要使cache中的数据失效，强制CPU从内存中装载数据。当CPU向缓存中写入数据后，为了通过DMA将数据传送到外部硬件，则需要将缓存中的数据强制写入内存。

当页表项映射的页面发生变化后，也需要将页面缓存的内容写入内存。

同理，当修改了页表项后，为了避免TLB中缓存的项进行错误的MMU转换，也需要使TLB中缓存的项失效。

1.3 follow_page函数
follow_page函数是从进程的页表中搜索特定地址对应的页面对象。这个函数对于理解LINUX内核页表管理有帮助。

struct page *follow_page(struct vm_area_struct *vma, unsigned long address,unsigned int flags){pgd_t *pgd;pud_t *pud;pmd_t *pmd;pte_t *ptep, pte;spinlock_t *ptl;struct page *page;struct mm_struct *mm = vma->vm_mm;/*** 对ARM A9来说，没有配置巨页功能，follow_huge_addr实际上是空处理。*/page = follow_huge_addr(mm, address, flags & FOLL_WRITE);if (!IS_ERR(page)) {BUG_ON(flags & FOLL_GET);goto out;}page = NULL;/*** 在一级目录项中，查找地址对应的一级目录索引项。*/pgd = pgd_offset(mm, address);/*** 该地址对应的一级目录项无效。对ARM来说，pgd_none总返回0，真正的判断是在pmd_none。*/if (pgd_none(*pgd) || unlikely(pgd_bad(*pgd)))goto no_page_table;/*** 查找地址对应的页上级目录项。这对4级目录的分组体系来说才有效。ARM不存在页上级目录和页中间目录。* pud总是返回pgd。*/pud = pud_offset(pgd, address);/*** pud_none总是返回0，因此下面的判断是无用。真正有用的判断在后面的pmd_none*/if (pud_none(*pud))goto no_page_table;if (pud_huge(*pud) && vma->vm_flags & VM_HUGETLB) {BUG_ON(flags & FOLL_GET);page = follow_huge_pud(mm, address, pud, flags & FOLL_WRITE);goto out;}if (unlikely(pud_bad(*pud)))goto no_page_table;/*** 取页中间目录，对ARM来说，pmd直接返回pud，即pgd。*/pmd = pmd_offset(pud, address);/*** 判断pmd是否为0，即ARM一级目录是否有效。对pgd,pud的判断都是无用的，真正的判断在这里。*/if (pmd_none(*pmd))goto no_page_table;/*** 判断pmd是否是一个巨页，以及用户虚拟地址空间段是否是一个巨页段，略过。*/if (pmd_huge(*pmd) && vma->vm_flags & VM_HUGETLB) {BUG_ON(flags & FOLL_GET);/*** 查找巨页地址映射的物理页面。*/page = follow_huge_pmd(mm, address, pmd, flags & FOLL_WRITE);goto out;}/*** 透明巨页处理，对某些体系结构，如mips来说，这个功能是有效的。但是虽然ARM硬件支持巨页(1M页)* 目前的内核还不支持ARM巨页，略过。*/if (pmd_trans_huge(*pmd)) {if (flags & FOLL_SPLIT) {split_huge_page_pmd(mm, pmd);goto split_fallthrough;}spin_lock(&mm->page_table_lock);if (likely(pmd_trans_huge(*pmd))) {if (unlikely(pmd_trans_splitting(*pmd))) {spin_unlock(&mm->page_table_lock);wait_split_huge_page(vma->anon_vma, pmd);} else {page = follow_trans_huge_pmd(mm, address,pmd, flags);spin_unlock(&mm->page_table_lock);goto out;}} elsespin_unlock(&mm->page_table_lock);/* fall through */}split_fallthrough:/*** 判断pmd是否有效。*/if (unlikely(pmd_bad(*pmd)))goto no_page_table;/*** 在二级页表中找到地址对应的pte。并将pte指针返回。* 注意，这里获取了进程的内存页表锁。以防止内核其他路径修改进程页表，使得ptep指向的pte产生变化。* ptl是内存页表锁。* 如果内核支持将pte表放到高端内存，那么还需要调用kmap_atomic将页表到内核地址空间中。*/ptep = pte_offset_map_lock(mm, pmd, address, &ptl);pte = *ptep;/*** 这里判断页表项是否有效。* 有时，页面在内存中，但是不允许访问。比如写时复制。* 当页完全不在内存中时，页表项也没有效。*/if (!pte_present(pte))goto no_page;/*** 希望搜索一个可写的页面，但是页表项没有写权限。*/if ((flags & FOLL_WRITE) && !pte_write(pte))goto unlock;/*** 根据pte中保存的页帧号，找到该页帧号对应的page结构。*/page = vm_normal_page(vma, address, pte);if (unlikely(!page)) {/* 根据页帧号无法找到page结构，可能是一些特殊情况。如驱动自行管理的pte出了问题。 */if ((flags & FOLL_DUMP) || /* 不允许返回0页 */!is_zero_pfn(pte_pfn(pte))) /* 不是0页 */goto bad_page;page = pte_page(pte);/* 向上层返回0页 */}/*** 调用者要求获取页面引用，则增加页面引用计数。*/if (flags & FOLL_GET)get_page(page);if (flags & FOLL_TOUCH) {/* 调用者希望设置访问标志，可能是随后会写页面 */if ((flags & FOLL_WRITE) &&/* 获取写引用 */!pte_dirty(pte) && !PageDirty(page))/* 页面和pte的脏标志都还没有设置，则强制设置脏标志 */set_page_dirty(page);/** pte_mkyoung() would be more correct here, but atomic care* is needed to avoid losing the dirty bit: it is easier to use* mark_page_accessed().*//*** 标记页面访问标志。*/mark_page_accessed(page);}/*** 调用者想将页面锁在内存中。*/if ((flags & FOLL_MLOCK) && (vma->vm_flags & VM_LOCKED)) {/** The preliminary mapping check is mainly to avoid the* pointless overhead of lock_page on the ZERO_PAGE* which might bounce very badly if there is contention.** If the page is already locked, we don't need to* handle it now - vmscan will handle it later if and* when it attempts to reclaim the page.*/if (page->mapping && trylock_page(page)) {/* 锁住页面，不交换到外部存储器中 */lru_add_drain();  /* push cached pages to LRU *//** Because we lock page here and migration is* blocked by the pte's page reference, we need* only check for file-cache page truncation.*/if (page->mapping)mlock_vma_page(page);unlock_page(page);}}unlock:/*** 释放进程页面锁，同时，如果支持将页表放到高端内存，就解除对页表的映射。*/pte_unmap_unlock(ptep, ptl);out:return page;bad_page:pte_unmap_unlock(ptep, ptl);return ERR_PTR(-EFAULT);no_page:pte_unmap_unlock(ptep, ptl);if (!pte_none(pte))return page;no_page_table:/** When core dumping an enormous anonymous area that nobody* has touched so far, we don't want to allocate unnecessary pages or* page tables.  Return error instead of NULL to skip handle_mm_fault,* then get_dump_page() will return NULL to leave a hole in the dump.* But we can only make this optimization where a hole would surely* be zero-filled if handle_mm_fault() actually did handle it.*/if ((flags & FOLL_DUMP) &&(!vma->vm_ops || !vma->vm_ops->fault))return ERR_PTR(-EFAULT);return page;

《LINUX3.0内核源代码分析》第一章：内存寻址相关推荐

《LINUX3.0内核源代码分析》第二章：中断和异常【转】
转自:http://blog.chinaunix.net/uid-25845340-id-2982887.html 摘要:第二章主要讲述linux如何处理ARM cortex A9多核处理器的中断.异 ...
linux 内存管理代码,《LINUX3.0内核源代码分析》第四章：内存管理(3)
1.1.1.1快速分配流程 /** *遍历管理区列表,分配一个页面. *gfp_mask:分配标志. *nodemask:在哪些节点中进行分配,一般未指定. *order:分配的页面数量为2^orde ...
卷一内核源代码分析第二章异常 2.2.4 OMAP4的中断体系图书试读版-请勿转载
作者 crosskernel@gmail.com 2.2.4 OMAP4的中断体系尽管已经宣布推出手机市场,但是作为移动处理器领域曾经的领袖, Ti在相当长的时间里总是抢先发布性能最强的新一代ARM ...
Linux内核源代码分析-目录
第一部分 Linux 内核源代码 arch/i386/kernel/entry.S 2 arch/i386/kernel/init_task.c 8 arch/i386/kernel/irq.c 8 ...
linux VFS概述以及内核源代码分析
linux VFS概述以及内核源代码分析一. 概述 Linux能够支持各种不同的文件系统是通过VFS实现的,由于不同的物理文件系统具有不同的组织结构和不同的处理方式,为了能够处理各种不同的物理文 ...
linux内核源代码分析----内核基础设施之klist
概述 klist是list的线程安全版本,他提供了整个链表的自旋锁,查找链表节点,对链表节点的插入和删除操作都要获得这个自旋锁.klist的节点数据结构是klist_node,klist_node引入 ...
linux内核测试指南第一章
linux内核测试指南第一章内核,补丁,内核树和编译 1.1 内核 Linux内核的当前版本通常可以从linux内核档案网站(http://www.kernel.org/)以一个大的压缩文件的 ...
Linux内核源代码分析——可执行文件header处理（二进制文件读写范例，写DUL工具入门指引）...
在把Linux内核源代码生成Image之前,需要把执行文件头结构信息剔除出来.这个过程对理解Linux内核具有很大的帮助.同时,由于是对可执行文件进行直接读写操作,想写DUL工具的童鞋可以在这里学习到 ...
算法设计与分析第一章递推算法
算法设计与分析第一章递推算法 1.概述在**已知条件**和**所求问题**之间总存在着某种相互联系的关系,如果可以找到前后过程之间的数量关系(即递推式),那么,从**问题出发逐步推到已知条件** ...

《LINUX3.0内核源代码分析》第一章：内存寻址

《LINUX3.0内核源代码分析》第一章：内存寻址相关推荐

最新文章

热门文章