编译原理笔记（二）之词法分析

1. 词法分析中的若干问题
- 1.1 基本概念
- 1.2 记号的属性
- 1.3 词法分析器的作用与工作方式
- 1.4 输入缓冲区
2. 模式的形式化描述
- 2.1 字符串与语言
- 2.2 正规式与正规集
- 2.3 记号的说明
3. 记号的识别——有限自动机
- 3.1 不确定的有限自动机（NFA）
- 3.2 确定的有限自动机（DFA）
- 3.3 有限自动机的等价
4. 从正规式到词法分析器
- 4.1 从正规式到NFA
- 4.2 从NFA到DFA
- 4.3 最小化DFA
- 4.4 由DFA构造词法分析器

1. 词法分析中的若干问题

程序设计语言的基本元素———单词的集合

词法分析器的双重含义：（定义规则和执行规则）

规定单词形式的规则，也被称为构词规则或词法规则（立法）
根据构词规则识别输入序列，也被称为词法分析（执法）

1.1 基本概念

模式：将产生和识别单词的规则
记号：按照某个模式（规则）识别出的元素
单词：被识别出的元素自身的值

1.2 记号的属性

记号至少包含两个部分：记号类别和记号的其他信息
记号的类别唯一标识一类记号
一般情况下，记号的类别可以用整型编码或枚举类型表示。

1.3 词法分析器的作用与工作方式

主要工作：

滤掉源程序中无用成分
处理与具体平台有关的输入
识别记号，并交给语法分析器
调用符号表管理器或出错处理器，进行相关处理

工作方式：
1、词法分析器作为语法分析器的子程序

2、词法分析器单独进行一遍扫描

3、与语法分析器并行工作的模式

1.4 输入缓冲区

设立输入缓冲区来加快读入源程序字符序列的速度
方式：但缓冲器和双缓冲区

c_ptr：指向当前被识别记号的第一个字符
f_ptr：指向当前被识别记号的向前扫描的字符，向前扫描，直到某个模式匹配成功。
#：表示整个输入程序的结束

2. 模式的形式化描述

从词法分析的角度看，程序设计语言是由记号组成的集合，每个记号又是由若干个字母按照一定规则组成的字符串。

2.1 字符串与语言

定义：语言L是有限字母表∑上有限长度字符串的集合。
1、字母表是有限的，即字母表中的元素是有限多个。
2、字符串的长度是有限的，即字符串中字符的个数是有限多个。

2.2 正规式与正规集

定义：令∑是一个有限字母表，则∑上的正规式及其表示的集合递归定义如下：

（1）ε （伊普西龙）是正规式，它表示集合L(ε)={ε}。

（2）若a是∑上的字符，则a是正规式，它表示集合L(a)={a}。

（3）若正规式r和s分别表示集合L(r)和L(s)，则
1、r|s是正规式，表示集合L(r) U L(s); (或)
2、rs是正规式，表示集合L(r)L(s); (连接)
3、r*是正规式，表示集合（L(r)）*; (闭包)
4、(r)是正规式，表示集合仍然是L(r);

可用正规式描述的语言称为正规语言或正规集。

2.3 记号的说明

用正规式说明记号的公式为：记号=正规式，可以读作“（左边）记号定义为（右边）正规式”，或者“记号是正规式”

3. 记号的识别——有限自动机

3.1 不确定的有限自动机（NFA）

定义：NFA是一个五元组， M= (S ， ∑ ， move ， s0 ， F)，其中：
（1）S是有限个状态(state)的集合（全集）
（2）∑是有限个输入字符(包括ε)的集合（字母表）
（3）move是一个状态转移函数，move(si，ch)=sj 表示当前状态si下遇到输入字符ch，则转移到状态sj
（4）s0是唯一的初态(也称开始状态)
（5）F是终态集(也称接受状态集)，它是S的子集，包含了所有的终态(F不一定只有一个)
栗子：识别由正规式 (a|b)*abb说明的记号的NFA定义如下：
S ={0,1,2,3}，∑={a,b}，s0=0，F={3}，
move = { move(0,a), move(0,a)=1, move(0,b)=0,move(1,b)=2, move(2,b)=3}

NFA的特点：不确定性

3.2 确定的有限自动机（DFA）

定义：DFA是NFA的一个特列，其中：
（1）没有状态具有ε状态转义，即状态转换图中没有标记ε的边。
（2）对每一个状态s和每一个字符a，最多有一个下一状态。
栗子：识别由正规式（a|b）*abb说明的记号的DFA，如图所示
转换图表示的DFA

转换矩阵表示的DFA
DFA的特点：确定性

3.3 有限自动机的等价

NFA和DFA统称为有限自动机（FA）。所谓有限，是指自动机的状态数是有限的。

定义：若有限自动机M和M’识别同一个正规集，则称M和M’是等价的，记为M=M‘。

4. 从正规式到词法分析器

构造词法分析器的一般步骤：

用正规式对模式进行描述
为每个正规式构造一个NFA，它识别正规式所表示的正规集。
将构造出来的NFA转换成等价的DFA，这一过程也被称为确定化。
优化DFA，使其状态数最少，这一过程称为最小化。
根据优化后的DFA构造词法分析器。

4.1 从正规式到NFA

Thompson算法
规则（s0为初态，f为终态）：
(1)对于ε，构造NFA。该NFA接受{ε}

（2）对于∑上的每一个字符a，构造NFA。接受{a}。

（3）若N§和N(q)是正规是p和q的NFA，则
1、对于p|q，构造NFA。接受N(p)UN(q)

2、对于正规式pq，构造NFA。接受N(p)N(q)

3、对于正规式p*，构造NFA。接受L（p*）

4、对于正规式（p），使用p本身的NFA，不再构造新的NFA

栗子：
用Thompson算法构造正规式r=(a|b)*abb的N（r）

4.2 从NFA到DFA

NFA识别记号的“并行”方法
- 采用并行的方法，可以消除识别时的不确定性，以避免回溯。
- 将不确定的下一状态确定化
“子集法”构造DFA

4.3 最小化DFA

将一个DFA等价交换为另一个状态数最少的DFA的过程称为最小化DFA
定义：对于任何两个状态t和s，若从一状态出发接受输入字符串ω，而从另一状态出发不接受ω，或者从t出发和从s出发到达不同的接受状态，则称为ω对状态t和s是可区分的。

4.4 由DFA构造词法分析器

表驱动型词法分析器

驱动器：模拟DFA的算法
分析表：转换矩阵
直接编码型词法分析器
直接将DFA转换成程序，即直接用程序代码模拟DFA的行为。

编译原理笔记（二）之词法分析相关推荐

【编译原理笔记03】词法分析：正则表达式、有穷自动机（FA）、DFA与NFA及RE的相互转换、DFA识别单词、语法检测
本次笔记内容: 3-1 正则表达式 3-2 正则定义 3-3 有穷自动机 3-4 有穷自动机的分类 3-5 从正则表达式到有穷自动机 3-6 从NFA到DFA的转换 3-7 识别单词的DFA 文章目录 ...
编译原理实验二：赋值语句的语法分析程序设计
编译原理实验二:赋值语句的语法分析程序设计 1.1实验内容目的: 在前面实验的基础上,通过设计.编制.调试一个典型的赋值语句的语法分析程序,实现对词法分析程序所提供的单词序列进行语法检查,进一步掌握 ...
编译原理实验二：Bison
编译原理实验二:Bison 实验要求 1.了解Bision基础知识,如何将文法产生式转换为Bison语句 2.阅读/src/common/SyntaxTree.c,对应头文件 /include/Syn ...
zucc 编译原理笔记
zucc 编译原理笔记 lec02 lec03 lec04
编译原理实验二（全部存储到数组再逐行验证语法版.....这种思路被老师否了，应该是验证一行扔掉一行才对）
编译原理实验二(可能还有BUG,不确定继续找) 要大改一次23333,老师的意思是不能用数组存储,而是一边识别单词,然后识别完一行就判断一次语法写实验二的时候找到的实验一的一个逻辑错误改动了实验一 ...
编译原理实验二 macos系统 itoa方法报错解决方法
编译原理实验二生成符号表的前期准备中使用itoa函数报错问题执行 gcc -o parser lex.yy.c parser.tab.c ast.c 显示: itoa 函数是一个广泛应用的,从非标 ...
编译原理笔记3 词法分析龙书
正则表达式(Regular Expression,RE) 啥是正则表达式//比较简单略写- 正则表达式(Regular Expression,RE) 是一种用来描述正则语言(3型语言)的更紧凑的表示方 ...
了解编译原理-笔记小结
这是之前学习编译原理过程中做下的笔记. 因能力有限,在很多地方都理解不到位,特别是对于词法分析与语法分析的过程感觉特别晦涩. 分享这个笔记也是为了自己做个总结,算是一个小的提纲吧,都没怎么深入解析编译 ...
【编译原理笔记01】什么是编译，编译系统各结构作用
资源Bilibili AV17649289 编译原理哈尔滨工业大学陈鄞本次笔记内容: 1-1 什么是编译 1-2 编译系统的结构 1-3 词法分析 1-4 语法分析概述 1-5 语义分析概述 1 ...

编译原理笔记（二）之词法分析

编译原理笔记（二）之词法分析

1. 词法分析中的若干问题

1.1 基本概念

1.2 记号的属性

1.3 词法分析器的作用与工作方式

1.4 输入缓冲区

2. 模式的形式化描述

2.1 字符串与语言

2.2 正规式与正规集

2.3 记号的说明

3. 记号的识别——有限自动机

3.1 不确定的有限自动机（NFA）

3.2 确定的有限自动机（DFA）

3.3 有限自动机的等价

4. 从正规式到词法分析器

4.1 从正规式到NFA

4.2 从NFA到DFA

4.3 最小化DFA

4.4 由DFA构造词法分析器

编译原理笔记（二）之词法分析相关推荐

最新文章

热门文章