编译原理笔记(二)之词法分析

  • 1. 词法分析中的若干问题
    • 1.1 基本概念
    • 1.2 记号的属性
    • 1.3 词法分析器的作用与工作方式
    • 1.4 输入缓冲区
  • 2. 模式的形式化描述
    • 2.1 字符串与语言
    • 2.2 正规式与正规集
    • 2.3 记号的说明
  • 3. 记号的识别——有限自动机
    • 3.1 不确定的有限自动机(NFA)
    • 3.2 确定的有限自动机(DFA)
    • 3.3 有限自动机的等价
  • 4. 从正规式到词法分析器
    • 4.1 从正规式到NFA
    • 4.2 从NFA到DFA
    • 4.3 最小化DFA
    • 4.4 由DFA构造词法分析器

1. 词法分析中的若干问题

程序设计语言的基本元素———单词的集合

词法分析器的双重含义:(定义规则和执行规则)

  • 规定单词形式的规则,也被称为构词规则或词法规则(立法)
  • 根据构词规则识别输入序列,也被称为词法分析(执法)

1.1 基本概念

  • 模式:将产生和识别单词的规则
  • 记号:按照某个模式(规则)识别出的元素
  • 单词:被识别出的元素自身的值

1.2 记号的属性

  • 记号至少包含两个部分:记号类别和记号的其他信息
  • 记号的类别唯一标识一类记号
  • 一般情况下,记号的类别可以用整型编码或枚举类型表示。

1.3 词法分析器的作用与工作方式

  • 主要工作:
  1. 滤掉源程序中无用成分
  2. 处理与具体平台有关的输入
  3. 识别记号,并交给语法分析器
  4. 调用符号表管理器或出错处理器,进行相关处理
  • 工作方式:
    1、 词法分析器作为语法分析器的子程序

2、 词法分析器单独进行一遍扫描

3、 与语法分析器并行工作的模式

1.4 输入缓冲区

设立输入缓冲区来加快读入源程序字符序列的速度
方式:但缓冲器和双缓冲区

c_ptr:指向当前被识别记号的第一个字符
f_ptr:指向当前被识别记号的向前扫描的字符,向前扫描,直到某个模式匹配成功。
#:表示整个输入程序的结束

2. 模式的形式化描述

从词法分析的角度看,程序设计语言是由记号组成的集合,每个记号又是由若干个字母按照一定规则组成的字符串。

2.1 字符串与语言

  • 定义:语言L是有限字母表∑上有限长度字符串的集合。
  • 1、字母表是有限的,即字母表中的元素是有限多个。
  • 2、字符串的长度是有限的,即字符串中字符的个数是有限多个。

2.2 正规式与正规集

定义:令∑是一个有限字母表,则∑上的正规式及其表示的集合递归定义如下:

(1)ε (伊普西龙)是正规式,它表示集合L(ε)={ε}。

(2)若a是∑上的字符,则a是正规式,它表示集合L(a)={a}。

(3)若正规式r和s分别表示集合L(r)和L(s),则
  1、r|s是正规式,表示集合L(r) U L(s); (或)
  2、rs是正规式,表示集合L(r)L(s); (连接)
  3、r*是正规式,表示集合(L(r))*; (闭包)
  4、(r)是正规式,表示集合仍然是L(r);

可用正规式描述的语言称为正规语言正规集

2.3 记号的说明

用正规式说明记号的公式为:记号=正规式,可以读作“(左边)记号定义为(右边)正规式”,或者“记号是正规式”

3. 记号的识别——有限自动机

3.1 不确定的有限自动机(NFA)

  • 定义:NFA是一个五元组 , M= (S , ∑ , move , s0 , F),其中:
    (1)S是有限个状态(state)的集合 (全集
    (2)∑是有限个输入字符(包括ε)的集合(字母表
    (3)move是一个状态转移函数,move(si,ch)=sj 表示当前状态si下遇到输入字符ch,则转移到状态sj
    (4)s0是唯一的初态(也称开始状态)
    (5)F是终态集(也称接受状态集),它是S的子集,包含了所有的终态(F不一定只有一个)

  • 栗子:识别由正规式 (a|b)*abb说明的记号的NFA定义如下:
    S ={0,1,2,3},∑={a,b},s0=0,F={3},
    move = { move(0,a), move(0,a)=1, move(0,b)=0,move(1,b)=2, move(2,b)=3}

  • NFA的特点:不确定性

3.2 确定的有限自动机(DFA)

  • 定义:DFA是NFA的一个特列,其中:
    (1)没有状态具有ε状态转义,即状态转换图中没有标记ε的边。
    (2)对每一个状态s和每一个字符a,最多有一个下一状态。

  • 栗子:识别由正规式(a|b)*abb说明的记号的DFA,如图所示
    转换图表示的DFA

    转换矩阵表示的DFA

  • DFA的特点:确定性

3.3 有限自动机的等价

NFA和DFA统称为有限自动机(FA)。所谓有限,是指自动机的状态数是有限的。

  • 定义: 若有限自动机M和M’识别同一个正规集,则称M和M’是等价的,记为M=M‘。

4. 从正规式到词法分析器

构造词法分析器的一般步骤:

  1. 用正规式对模式进行描述
  2. 为每个正规式构造一个NFA,它识别正规式所表示的正规集。
  3. 将构造出来的NFA转换成等价的DFA,这一过程也被称为确定化。
  4. 优化DFA,使其状态数最少,这一过程称为最小化。
  5. 根据优化后的DFA构造词法分析器。

4.1 从正规式到NFA

Thompson算法
规则(s0为初态,f为终态):
(1)对于ε,构造NFA。该NFA接受{ε}

(2)对于∑上的每一个字符a,构造NFA。接受{a}。

(3) 若N§和N(q)是正规是p和q的NFA,则
1、对于p|q,构造NFA。接受N(p)UN(q)

2、对于正规式pq,构造NFA。接受N(p)N(q)

3、对于正规式p*,构造NFA。接受L(p*)

4、对于正规式(p),使用p本身的NFA,不再构造新的NFA

  • 栗子:
    用Thompson算法构造正规式r=(a|b)*abb的N(r)

4.2 从NFA到DFA

  1. NFA识别记号的“并行”方法

    • 采用并行的方法,可以消除识别时的不确定性,以避免回溯。
    • 将不确定的下一状态确定化

  2. “子集法”构造DFA

4.3 最小化DFA

将一个DFA等价交换为另一个状态数最少的DFA的过程称为最小化DFA
定义:对于任何两个状态t和s,若从一状态出发接受输入字符串ω,而从另一状态出发不接受ω,或者从t出发和从s出发到达不同的接受状态,则称为ω对状态t和s是可区分的。

4.4 由DFA构造词法分析器

  1. 表驱动型词法分析器

    驱动器:模拟DFA的算法
    分析表:转换矩阵
  2. 直接编码型词法分析器
    直接将DFA转换成程序,即直接用程序代码模拟DFA的行为。

编译原理笔记(二)之词法分析相关推荐

  1. 【编译原理笔记03】词法分析:正则表达式、有穷自动机(FA)、DFA与NFA及RE的相互转换、DFA识别单词、语法检测

    本次笔记内容: 3-1 正则表达式 3-2 正则定义 3-3 有穷自动机 3-4 有穷自动机的分类 3-5 从正则表达式到有穷自动机 3-6 从NFA到DFA的转换 3-7 识别单词的DFA 文章目录 ...

  2. 编译原理实验二:赋值语句的语法分析程序设计

    编译原理实验二:赋值语句的语法分析程序设计 1.1实验内容 目的: 在前面实验的基础上,通过设计.编制.调试一个典型的赋值语句的语法分析程序,实现对词法分析程序所提供的单词序列进行语法检查,进一步掌握 ...

  3. 编译原理实验二:Bison

    编译原理实验二:Bison 实验要求 1.了解Bision基础知识,如何将文法产生式转换为Bison语句 2.阅读/src/common/SyntaxTree.c,对应头文件 /include/Syn ...

  4. zucc 编译原理 笔记

    zucc 编译原理 笔记 lec02 lec03 lec04

  5. 编译原理实验二(全部存储到数组再逐行验证语法版.....这种思路被老师否了,应该是验证一行扔掉一行才对)

    编译原理实验二(可能还有BUG,不确定继续找) 要大改一次23333,老师的意思是不能用数组存储,而是一边识别单词,然后识别完一行就判断一次语法 写实验二的时候找到的实验一的一个逻辑错误 改动了实验一 ...

  6. 编译原理实验二 macos系统 itoa方法报错解决方法

    编译原理实验二 生成符号表的前期准备中使用itoa函数报错问题 执行 gcc -o parser lex.yy.c parser.tab.c ast.c 显示: itoa 函数是一个广泛应用的,从非标 ...

  7. 编译原理笔记3 词法分析 龙书

    正则表达式(Regular Expression,RE) 啥是正则表达式//比较简单略写- 正则表达式(Regular Expression,RE) 是一种用来描述正则语言(3型语言)的更紧凑的表示方 ...

  8. 了解编译原理-笔记小结

    这是之前学习编译原理过程中做下的笔记. 因能力有限,在很多地方都理解不到位,特别是对于词法分析与语法分析的过程感觉特别晦涩. 分享这个笔记也是为了自己做个总结,算是一个小的提纲吧,都没怎么深入解析编译 ...

  9. 【编译原理笔记01】什么是编译,编译系统各结构作用

    资源Bilibili AV17649289 编译原理 哈尔滨工业大学 陈鄞 本次笔记内容: 1-1 什么是编译 1-2 编译系统的结构 1-3 词法分析 1-4 语法分析概述 1-5 语义分析概述 1 ...

最新文章

  1. 原创:检查点的三种加入方式
  2. 【源码解读】Screencap源码分析-基础篇
  3. win11 wsl centos7换源aliyun阿里云命令记录
  4. VTK:图片之StaticImage
  5. ie统计报表html,IE中动态添加表格
  6. url在python_Python中url标签使用详解
  7. urlconnection java_Java 网络编程:必知必会的 URL 和 URLConnection
  8. MySQL知识点查阅
  9. 2018蚂蚁金服NLP用户意图的精准识别,复赛f1 = 0.7327
  10. 【分享】浅析Quora的技术架构
  11. 浏览器cookie怎么清除,彻底清除上网痕迹只需这几步
  12. Mujoco基本情况介绍
  13. 华硕aura完全卸载_这把键盘,或是顶级光轴键盘!华硕TUF GAMING K7光轴机械键盘...
  14. python hist bins_python – matplotlib中的Hist:Bins不居中,轴上的比例不正确
  15. JS中onblur总结
  16. Mac QQ聊天记录迁移方法(Mac to Mac)
  17. XP系统无法设置用户权限,如加everyone等的
  18. 函数设计中参数的规则
  19. 量子计算机能超越光速,量子纠缠: 真的可以“超越光速”吗?
  20. Android studio登陆注册的实现及介绍

热门文章

  1. Android studio3.6.3的jdk版本设置在哪里?
  2. 开源电子原型平台 Arduino
  3. 统计|如何理解多元线性回归的F检验的作用与目的
  4. 【2022修复版】社群扫码进群活码引流完整运营源码/对接免签约支付接口/推广正常绑定下级/带视频搭建教程
  5. 春招艰难?给你几条应届生的求职建议!
  6. 简述存储器的分级策略
  7. 有什么好用的股票回测接口?
  8. AutoAugment中16种数据增强方法可视化直观展示
  9. 江南春:在不确定的市场,找到确定性的增长
  10. mysql 水平分区_MySQL水平分区,垂直分区