自底向上语法分析(bottom-up parsing)

  • 自底向上分析概述
  • LR分析概述
  • LR(0)分析
    • 增广文法
    • 点标记
    • 项目
    • LR(0)分析表
    • CLOSURE函数
    • GOTO函数
    • LR(0)自动机的状态集
    • LR(0)分析表构造算法
    • LR(0)自动机的形式化定义
    • LR(0)分析的冲突问题
  • SLR分析
    • SLR算法的关键
    • SLR分析的冲突问题
  • LR(1)分析
    • 规范LR(1)项目
    • 等价LR(1)项目
    • 同心项目集
    • CLOSURE函数
    • GOTO函数
    • 文法G' 构造LR(1)项集族
    • LR(1)分析表的构造算法
  • LALR分析

在自顶向下语法分析(top-down parsing) 中介绍了一种自顶向上语法分析法——LL(1)分析法,但它存在两个问题:

  • 能够分析的文法有限;
  • 很多时候需要进行文法转换。

为此,将介绍一种使用更加广泛的自底向上语法分析法——LR分析法。这也是当前实际运用最广泛的一种语法分析方法。

本文主要是对 哈工大编译原理课件 的学习和总结。

自底向上分析概述

自底向上语法分析是从分析树的底部(叶子节点)向顶部根节点方向构造分析树,也即是将输入串归约为文法开始符号的过程。自顶向下的语法分析是采用最左推导方式,而自底向上的语法分析是采用最左归约方式,其实就是反向构造最右推导 。

自顶向上语法分析的通用框架是:移入-规约分析(Shift-Reduce Parsing)。下面通过一个例子来介绍移入-规约分析的算法思想。

移动-规约分析法的大致过程为:

  • 对输入串的一次从左到右扫描过程中,将零个或多个输入符号移入到栈的顶端,直到它可以对栈顶的一个文法符号串 β 进行归约为止。
  • 然后,将 β 归约为某个产生式的左部(使用左部的非终结符替换 β )。
  • 不断地重复上面的循环,直到它检测到一个语法错误或者栈中包含了开始符号且输入缓冲区为空为止。

移入-规约语法分析过程中的四个动作:

  • 移入:将下一个输入符号移入到栈顶。
  • 归约:被归约的符号串的右端必然处于栈顶。语法分析器在栈中确定这个串的左端,并决定用哪个非终结符来替换这个串。
  • 接收:语法分析过程成功完成。
  • 报错:发现一个语法错误,并调用错误恢复子例程。

如何正确地识别句柄是移动-规约分析法的关键问题。

LR分析概述

LR文法是最大的、可以构造出相应移入-归约语法分析器的文法类。

  • L:输入串进行从左(Left)到右的扫描;
  • R:反向(Reverse)构造出一个最右推导序列;

LR(k)分析表示需要向前查看 k 个输入符号的LR分析。k = 0 和 k = 1 这两种情况具有实践意义。当(k)省略时,表示k =1。

自底向上分析的关键问题是如何正确识别句柄,句柄是逐步形成的,LR分析法用“状态”表示句柄识别的进展程度。LR分析法的总体结构为:

LR分析器使用自动机的机制,通过读头读入输入串,根据输入串查询动作表和转移表(统称LR分析表),将符号和状态压栈或出栈的过程完成语法分析。动作表和转移表是LR分析法的关键。LR分析算法如下:

  • 输入:串w和LR分析表,该表描述了文法G的ACTION函数和GOTO函数。
  • 输出:如果w在L(G)中,则输出w的自底向上语法分析过程中的归约步骤,否则给出一个错误指示。
  • 方法:初始时,语法分析器栈中的内容为初始状态 s 0 s_0 s0​ ,输入缓冲区中的内容为w$。然后,语法分析器执行下面的程序:
令a为w$的第一个符号;
while(1) { /* 永远重复*/令s是栈顶的状态;if ( ACTION[s,a] = st ) {将t压入栈中;令a为下一个输入符号;} else if ( ACTION[s,a] = 归约A → β ) {从栈中弹出│β│个符号;将GOTO[t,A]压入栈中;输出产生式 A → β ;} else if ( ACTION[s,a] = 接受 ) break; /* 语法分析完成*/else调用错误恢复例程;
}

LR分析算法的关键过程:

下面通过一个例子介绍LR分析法的工作过程:

对于上面的文法和LR分析表,输入串 bab ,LR分析其工作过程如下:

              输入           栈        剩余输入             操作初始化                      0                       b a b          $         bab$
---------------------------------------------------------------------------输入           栈        剩余输入             备注迭代一                      04                       ACTION[0,b]=s4    b a b          $b         ab$
---------------------------------------------------------------------------    输入           栈        剩余输入             备注迭代二       B              02                       ACTION[4,a]=r3|              $B         ab$           B→bb a b                                   GOTO[0,B]=2
---------------------------------------------------------------------------      输入           栈        剩余输入             备注迭代三       B              023                      ACTION[2,a]=s3|              $Ba         b$b a b
---------------------------------------------------------------------------           输入           栈        剩余输入             备注迭代四       B              0234                     ACTION[3,b]=s4|              $Bab         $b a b
---------------------------------------------------------------------------    输入           栈        剩余输入             备注迭代五       B   B          0236                      ACTION[4,$]=r3|   |          $BaB         $            B→bb a b                                    GOTO[3,B]=6
---------------------------------------------------------------------------    输入           栈        剩余输入             备注B            025                       ACTION[6,$]=r2| \          $BB          $            B→aB迭代六       B | B                                    GOTO[2,B]=5| | |          b a b
--------------------------------------------------------------------------       输入           栈        剩余输入             备注S                                        ACTION[5,$]=r1|\                                       S→BB| B            01                        GOTO[0,S]=1| | \          $S          $迭代七       B | B                           | | |          b a b
---------------------------------------------------------------------------               输入           栈        剩余输入            备注S                                        ACTION[1,$]=acc|\  | B            01| | \          $S          $迭代八       B | B                           | | |          b a b
--------------------------------------------------------------------------

上面的例子很好地描述了LR分析器的过程。接下来,如何构建LR分析表成了LR分析的关键。

LR(0)分析

增广文法

对于下面的算术表达式文法G:

// G
1)  E → E + T
2)  E → T
3)  T → T * F
4)  T → F
5)  F → ( E )
6)  F → id

这个文法G中,起始符号 E 出现在多个产生式的左部(1、2),会使得分析器有多个接收状态。

为了解决这个问题,在 G 中新增一个起始符号 S’ 和产生式 S’→S,称为 G 的增广文法(Augmented Grammar) G’,使得开始符号仅出现在一个产生式的左部,从而使得分析器只有一个接受状态。

G 的增广文法 G’ 为:

// G'
0)  E'→ E
1)  E → E + T
2)  E → T
3)  T → T * F
4)  T → F
5)  F → ( E )
6)  F → id

点标记

为了标记语法分析器已经读入了多少输入,引入一个点标记 ·

例如: E + 3 · * 4。· 前面的表示已经读入串,· 后面表示剩余读入串。

项目

项目(Item):右部某位置标有圆点的产生式称为相应文法的一个项目。例如: A → α 1 ⋅ α 2 A \rightarrow \alpha_1·\alpha_2 A→α1​⋅α2​。产生式 A → ε A\rightarrowε A→ε 只生成一个项目 A → ⋅ A \rightarrow · A→⋅。项目描述了句柄的识别状态。

后继项目 (Successive Item):同属于一个产生式的项目,但圆点的位置只相差一个符号,则称后者是前者的后继项目,例如: A → α ⋅ X β A \rightarrow α· Xβ A→α⋅Xβ 的后继项目是 A → α X ⋅ β A \rightarrow αX·β A→αX⋅β。

这个例子中,标有相同彩色标记的项目(如0、2)属于一个项目集闭包,也是自动机的一个状态。

LR(0)分析表

很容易将上述文法的项目集转换为LR(0)自动机和LR(0)分析表:

CLOSURE函数

根据项目集等价的含义,很容计算给定项目集 I I I 的 C L O S U R E CLOSURE CLOSURE 函数:

C L O S U R E ( I ) = I ∪ { B → ⋅ γ ∣ A → α ⋅ B β ∈ C L O S U R E ( I ) , B → γ ∈ P } CLOSURE( I ) = I∪ \{B→ · γ \ | \ A→α·Bβ∈CLOSURE( I ) , B→γ∈P\} CLOSURE(I)=I∪{B→⋅γ ∣ A→α⋅Bβ∈CLOSURE(I),B→γ∈P}

SetOfltems CLOSURE ( I ) {J = I;repeatfor ( J中的每个项A → α·Bβ )for ( G的每个产生式 B → γ )if ( 项B → · γ 不在J中 )将 B → · γ 加入J中;until 在某一轮中没有新的项被加入到J中;return J;
}

GOTO函数

返回项目集 I I I 对应于文法符号 X X X 的后继项目集闭包:

G O T O ( I , X ) = C L O S U R E ( { A → α X ⋅ β ∣ A → α ⋅ X β ∈ I } ) GOTO( I, X )=CLOSURE(\{A→αX·β \ | \ A→α·Xβ∈I \}) GOTO(I,X)=CLOSURE({A→αX⋅β ∣ A→α⋅Xβ∈I})

SetOfltems GOTO ( I,X ) {将J 初始化为空集;for ( I 中的每个项A → α·Xβ )将项 A → αX·β 加入到集合J 中;return CLOSURE ( J );
}

LR(0)自动机的状态集

规范LR(0)项集族 (Canonical LR(0) Collection):

C = { I 0 } ∪ { I ∣ ∃ J ∈ C , X ∈ V N ∪ V T , I = G O T O ( J , X ) } C=\{I_0 \}∪\{ I \ | \ \exists J ∈ C, X∈V_N ∪ V_T , I=GOTO(J , X) \} C={I0​}∪{I ∣ ∃J∈C,X∈VN​∪VT​,I=GOTO(J,X)}

void items( G' ) {C={ CLOSURE ({[ S'→ ·S ] } ) };repeatfor ( C中的每个项集 I )for( 每个文法符号 X )if ( GOTO( I,X )非空且不在C中)将GOTO( I,X )加入C中;until在某一轮中没有新的项集被加入到C中;
}

LR(0)分析表构造算法

  1. 构造G’的规范LR(0)项集族 C = { I 0 , I 1 , . . . , I n } C = \{ I_0 , I_1 , ... , I_n \} C={I0​,I1​,...,In​}
  2. 令 I i I_i Ii​ 对应状态 i i i。状态 i i i 的语法分析动作按照下面的方法决定:
    2.1. i f A → α ⋅ a β ∈ I i a n d G O T O ( I i , a ) = I j t h e n A C T I O N [ i , a ] = s j if A→α·aβ∈I_i \ and \ GOTO( I_i , a )=I_j \ then \ ACTION[ i, a ]=sj ifA→α⋅aβ∈Ii​ and GOTO(Ii​,a)=Ij​ then ACTION[i,a]=sj
    2.2. i f A → α ⋅ B β ∈ I i a n d G O T O ( I i , B ) = I j t h e n G O T O [ i , B ] = j if A→α·Bβ∈I_i \ and \ GOTO( I_i , B )=I_j \ then \ GOTO[ i, B ]=j ifA→α⋅Bβ∈Ii​ and GOTO(Ii​,B)=Ij​ then GOTO[i,B]=j
    2.3. i f A → α ⋅ ∈ I i if A→α·∈I_i ifA→α⋅∈Ii​ 且 A ≠ S ′ t h e n f o r ∀ a ∈ V T ∪ { A ≠ S' \ then \ for \ \forall a∈V_T ∪ \{ A=S′ then for ∀a∈VT​∪{ $ } \} } d o A C T I O N [ i , a ] = r j do \ ACTION[ i, a ]=rj do ACTION[i,a]=rj ( j j j 是产生式 A → α A→α A→α 的编号)
    2.4. i f S ′ → S ⋅ ∈ I i t h e n A C T I O N [ i , if S'→S· ∈I_i \ then \ ACTION[i, ifS′→S⋅∈Ii​ then ACTION[i, $ ] = a c c ]=acc ]=acc
  3. 没有定义的所有条目都设置为“error”

LR(0)自动机的形式化定义

文法 G:
G = ( V N , V T , P , S ) G=(V_N,V_T,P,S) G=(VN​,VT​,P,S)

LR(0)自动机:
M = ( C , V N ∪ V T , G O T O , I 0 , F ) M=(C,V_N \cup V_T,GOTO,I_0,F) M=(C,VN​∪VT​,GOTO,I0​,F)

  • C = { I 0 } ∪ { I ∣ ∃ J ∈ C , X ∈ V N ∪ V T , I = G O T O ( J , x ) } C=\{I_0\}\cup\{I \ | \ \exist J \in C,X \in V_N \cup V_T,I=GOTO(J,x) \} C={I0​}∪{I ∣ ∃J∈C,X∈VN​∪VT​,I=GOTO(J,x)}
  • I 0 = C L O S U R E ( { S ′ → ∙ S } ) I_0=CLOSURE(\{S^{'} \rightarrow \bullet S\}) I0​=CLOSURE({S′→∙S})
  • F = { C L O S U R E ( { S ′ → S ∙ } ) } F=\{CLOSURE(\{S^{'} \rightarrow S\bullet \})\} F={CLOSURE({S′→S∙})}

LR(0)分析的冲突问题

LR(0)分析过程中可能会出现移进和归约二者间的冲突问题。例如:

如果LR(0)分析表中没有语法分析动作冲突,那么给定的文法就称为LR(0)文法。不是所有CFG都能用LR(0)方法进行分析,也就是说,CFG不总是LR(0)文法。

SLR分析

SLR算法的关键

有的LR(0)分析表的冲突的问题,可以使用SLR分析解决。SLR分析算法和LR(0)分析算法基本步骤相同,仅在分析表构造算法的2.3中处理归约项目时不同:

  • 对于 i i i 状态上的项目 A − > α ∙ A->\alpha \bullet A−>α∙,仅对 y ∈ F O L L O W ( A ) y \in FOLLOW(A) y∈FOLLOW(A) 时才添加 A C T I O N [ i , y ] ACTION[i,y] ACTION[i,y]。

对于上面的数学表达式。得到SLR分析表如下:

可以消除LR(0)分析表的冲突问题。下面再给一个例子:

SLR分析的冲突问题

如果给定文法的SLR分析表中不存在有冲突的动作,那么该文法称为SLR文法

LR(1)分析

SLR只是简单地考察下一个输入符号 b 是否属于与归约项目 A→α 相关联的 FOLLOW(A)。但 b∈FOLLOW(A) 只是归约 α 的一个必要条件,而非充分条件。

在不同的位置,A会有不同的后继符号。使用 FOLLOW(A) 判定 A − > α A->\alpha A−>α 是否可以归约,显然扩大了归约的范围。LR(1)分析会使用特定位置的后继符号,从而解决这个问题。

规范LR(1)项目

将一般形式为 [A→α · β, a] 的项称为 LR(1) 项 。 a 是一个终结符(展望符,lookahead),用于表示当前状态下,A后面必须紧跟的终结符。

  • LR(1) 中的 1 指的是项的第二个分量的长度。
  • 在形如 [A→α · β, a] 且 β ≠ ε 的项中,展望符 a 没有任何作用。
  • 但是一个形如 [A→α · , a] 的项在只有在下一个输入符号等于 a 时才可以按照 A→α 进行归约。

等价LR(1)项目

因为这里 β 可能推导为空,因此 b ∈ FIRST (βa) 。

当 β = > + ε β=>^+ ε β=>+ε 时,此时 b=a 叫 继承的 后继符,否则叫 自生的 后继符。

则赋值语句文法的 LR(1) 自动机和分析表如下:

构造过程和LR(0)和SLR自动机和分析过程一样,主要是在遇到待归约的LR(1)项目时,计算等价项目(也即闭包集)的方法不一样。

同心项目集

则同心的项目集为:

  • I 10 I_{10} I10​ 和 I 8 I_8 I8​
  • I 11 I_{11} I11​ 和 I 4 I_4 I4​
  • I 12 I_{12} I12​ 和 I 5 I_5 I5​
  • I 13 I_{13} I13​ 和 I 7 I_7 I7​

如果把同心项目集合并,则LR(1)自动机的状态数目和SLR是一样的。

CLOSURE函数

C L O S U R E ( I ) = I ∪ { [ B → ⋅ γ , b ] ∣ [ A → α ⋅ B β , a ] ∈ C L O S U R E ( I ) , B → γ ∈ P , b ∈ F I R S T ( β a ) } CLOSURE( I ) = I ∪ \{ [B→·γ, b] \ | \ [A→α·Bβ, a] ∈ CLOSURE( I ), B→γ∈P, b∈FIRST(βa)\} CLOSURE(I)=I∪{[B→⋅γ,b] ∣ [A→α⋅Bβ,a]∈CLOSURE(I),B→γ∈P,b∈FIRST(βa)}

SetOfltems CLOSURE ( I ) {repeatfor ( I中的每个项 [A → α·Bβ,a ])for (G' 的每个产生式 B → γ)for ( FIRST (βa)中的每个符号 b )将[ B → · γ ,b]加入到集合 I 中;until 不能向I中加入更多的项;until I ;
}

GOTO函数

G O T O ( I , X ) = C L O S U R E ( { [ A → α X ⋅ β , a ] ∣ [ A → α ⋅ X β , a ] ∈ I } ) GOTO( I, X ) = CLOSURE(\{[A→αX · β,a] \ | \ [A→α · Xβ, a]∈I \}) GOTO(I,X)=CLOSURE({[A→αX⋅β,a] ∣ [A→α⋅Xβ,a]∈I})

SetOfltems GOTO ( I,X ) {将J 初始化为空集;for ( I 中的每个项 [A → α·Xβ,a ])将项 [A → αX·β,a]加入到集合 J 中;return CLOSURE ( J );
}

文法G’ 构造LR(1)项集族

void items (G' ) {将C初始化为{CLOSURE ({[ S' → · S, $]} )} ;repeatfor ( C 中的每个项集 I )for ( 每个文法符号 X )if (GOTO(I,X )非空且不在 C 中)将 GOTO(I,X )加入 C 中;until 不再有新的项集加入到C中;
}

LR(1)分析表的构造算法

LR(1)分析表算法和LR(0)分析表算法流程一致,稍加修改即可:

LALR分析

对于LR(1)自动机中,同心的项目集其实是不存在动作冲突,只是展望符不同,可以进行合并,以减少其状态。这就是 LALR分析。

  • 寻找具有相同核心的LR(1) 项集,并将这些项集合并为一个项集;

  • 然后根据合并后得到的项集族构造语法分析表;

  • 如果分析表中没有语法分析动作冲突,给定的文法就称为LALR(1) 文法,就可以根据该分析表进行语法分析。

合并同心项目集时可能产生归约-归约的冲突。例如:

同心项目集合并是合并的是展望符,展望符只在归约的时候起作用,因此,合并同心项目集不会产生移进-归约的冲突。但合并同心项目集可能产会推迟错误的发现。例如:

I 4 I_4 I4​ 和 I 9 I_9 I9​ 是同心项目集, I 6 I_6 I6​ 和 I 1 0 I_10 I1​0 是同心项目集。

对于错误输入d$,合并同心项目集前,从状态 I 0 I_0 I0​ 转移到状态 I 4 I_4 I4​ 后,由于展望符是 $,而不是 c,则会报错。而合并同心项目集后,在状态 I 4 I_4 I4​ 时不会报错,而是执行归约,回到状态 I 0 I_0 I0​,状态 I 0 I_0 I0​ 遇到刚归约的A到状态 I 2 I_2 I2​,状态 I 2 I_2 I2​ 遇到 $ 则报错。可见合并同心项目集可能使得报错推迟。

LALR(1)的特点:

  • 形式上与LR(1)相同,都是采用LR(1)项目的形式;

  • 大小上与LR(0)/SLR相当(自动机的状态相当);

  • 分析能力介于SLR和LR(1)二者之间;
    S L R < L A L R ( 1 ) < L R ( 1 ) SLR<LALR(1)<LR(1) SLR<LALR(1)<LR(1)

  • 合并后的展望符集合仍为FOLLOW集的子集。

参考

  • 哈工大编译原理课件

自底向上语法分析(bottom-up parsing)相关推荐

  1. scrum master_成为魔术师如何使我成为更好的Scrum Master。

    scrum master You find transferable skills in the strangest places. The principles I mastered learnin ...

  2. 与大多数台式机和移动广告软件说再见

    Some time ago I wrote an article where I described - read it here - an easy way to get rid of advert ...

  3. 【编译原理笔记06】语法分析,移入-归约分析:自底向上的分析,LR(0)分析法,LR(0)分析表的构建(基于自动机)

    本次笔记内容: 4-8 自底向上的分析概述 4-9 LR分析法概述 4-10 LR0分析 4-11 LR0分析表构造 本节课幻灯片,见于我的 GitHub 仓库:第6讲 语法分析_3.pdf 本节课介 ...

  4. 《编译原理》-用例题理解-自底向上的语法分析,FIRSTVT,LASTVT集

    <编译原理>-用例题理解-自底向上的语法分析,FIRSTVT,LASTVT集 上一篇:<编译原理>-用例题理解-自顶向下语法分析及 FIRST,FOLLOW,SELECT集,L ...

  5. 从零写一个编译器(二):语法分析之前置知识

    项目的完整代码在 C2j-Compiler 前言 在之前完成了词法分析之后,得到了Token流,那么接下来就是实现语法分析器来输入Token流得到抽象语法树 (Abstract Syntax Tree ...

  6. Eclipse快速创建Bottom Up类型的Web Service服务端

    什么是Buttom 的Up Web Service 简言之就是从一个Java类创建Web Servcie服务(包括WSDL文件,部署描述文件等). 本篇演示环境配置 Eclipse Version: ...

  7. 编译原理--语法分析:LR

    归约 可将自底向上语法分析过程看成将一个串ω"归约"为文法开始符号的过程. 在每个归约步骤中, 一个与某产生式体相匹配的特定子串被替换为该产生式头部的非终结符号. 句柄剪枝 如有S=>^{*}_ ...

  8. 论文浅尝 | 基于知识库的自然语言理解 04#

    本文转载自公众号:知识工场. 罗康琦,上海交通大学计算机系2019届博士,研究方向为自然语义理解和知识图谱.2012年获得华中科技大学软件工程学士学位,现就职于京东数据科学实验室(Data Scien ...

  9. 自然语言处理(NLP)-统计句法分析(CKY算法用于PCFG下的句法分析)

    1.先解释何为CFG及PCFG: 一个栗子: 2.CKY算法(或称CYK算法) "在计算机科学领域,CYK算法(也称为Cocke–Younger–Kasami算法)是一种用来对 上下文无关文 ...

最新文章

  1. java 实现雷达图,如何使用y轴为0到100的chart.js创建雷达图?
  2. 批处理之 for/f 详解
  3. Flutter 制作一个具有酷炫液体滑动效果的酷炫入门页面
  4. C++ 标准库类型 stack
  5. 威佐夫博弈(模板题)
  6. 微信小程序教程02:App(Object)和Page(Object) 构造器介绍
  7. WPF实现TextBox水印效果
  8. mongo-关于仲裁节点
  9. python高级含金量技巧_2020年最新Python开发的高级技巧,面试必学
  10. java窗口按钮位置设置
  11. Microsoft Edge 浏览器如何打开Axure RP文件
  12. php vld扩展,Linux安装php-vld扩展
  13. 阿里云CentOS 6.8 + WordPress + 芒果云KODExplorer
  14. 【华为OD机试真题 C语言】机器人走迷宫
  15. 1674386-82-3,Lipoamido-PEG2-alcohol醇基可以反应进一步衍生化合物
  16. 【网络安全】文件包含漏洞总结
  17. php树递归算法,php实现无限级树型菜单(函数递归算法)
  18. 登录功能的测试用例设计
  19. redis分布式代理工具选型与功能验证
  20. 学业水平考试b能上985吗_学业水平测试要求

热门文章

  1. 低压直流配网-断路器
  2. AITech国际智能科技峰会圆满落幕,AI大咖共论人工智能发展
  3. windows文件夹同步
  4. java启动mysq服务_启动java服务器
  5. 知道为什么人活着累吗
  6. java端分词工具ANSJ插件的基本使用
  7. 【Arthas】初识Arthas,安装使用
  8. Windows提权--小迪权限提升--烂土豆--DLL劫持--udf提权
  9. 语用学如何帮助我们获得更准确的表达
  10. linux路由表命令,Linux的路由表详细介绍