引言

最近刚刚用python写完了一个解析protobuf文件的简单编译器,深感ply实现词法分析和语法分析的简洁方便。乘着余热未过,头脑清醒,记下一点总结和心得,方便各位pythoner参考使用。

ply使用

简介

如果你不是从事编译器或者解析器的开发工作,你可能从未听说过ply。ply是基于python的lex和yacc,而它的作者就是大名鼎鼎Python

Cookbook, 3rd

Edition的作者。可能有些朋友就纳闷了,我一个业务开发怎么需要自己写编译器呢,各位编程大牛说过,中央决定了,要多尝试新的东西。而且了解一些语法解析的姿势,以后自己解析格式复杂的日志或者数学公式,也是非常有帮助的。

针对没有编译基础的童鞋,强烈建议了解一些文法相关的基本概念。轮子哥强烈推荐的parsing

techniques以及编译龙虎鲸书,个人感觉都不适合入门学习,在此推荐胡伦俊的编译原理(电子工业出版社),针对概念的例子讲解很多,很适合入门学习。当然也不需要特别深入研究,知道词法分析和语法分析的相关概念和方法就可以愉快的使用ply了。文档链接:

http://www.pchou.info/open-source/2014/01/18/52da47204d4cb.html

为了方便大家上手,以求解多元一次方程组为例,讲解一下ply的使用。

例子说明

输入是多个格式为x + 4y - 3.2z = 7的一次方程,为了让例子尽可能简单,做如下限制:每个方程含有变量的部分在等号左边,常数在等号右边

每个方程不限制变量的个数以及变量的顺序,但每个方程每个变量只允许出现一次

变量的命令规则为小写字母串(x y xx yy abc 均为合法变量名)

变量的系数限制为整数和浮点数,浮点数不允许1.4e8的格式,系数和变量紧邻,且系数不能为0

方程组和方程组之间用, ;隔开

学过线性代数的童鞋肯定知道,只需要将方程组抽象为矩阵,按照线性代数的方法就可以解决。因此只需要将输入方程组解析成右边的矩阵和变量列表即可,剩下的求解过程就可以交给线性代数相关的工具解决。

解析

词法解析

ply中的lex来做词法解析,词法解析的理论有一大堆,但是lex用起来却非常直观,就是用正则表达式的方式将文本字符串解析为一个一个的token,下面的代码就是用lex实现词法解析。from ply import lex

#

空格 制表符 回车这些不可见符号都忽略

t_ignore = ' \t\r'

#

解析错误的时候直接抛出异常

def t_error(t):

raise Exception('error {} at line {}'.format(t.value[0], t.lineno))

#

记录行号,方便出错定位

def t_newline(t):

r'\n+'

t.lexer.lineno += len(t.value)

#

支持c++风格的\\注释

def t_ignore_COMMENT(t):

r'\/\/[^\n]*'

#

变量的命令规则

def t_VARIABLE(t):

r'[a-z]+'

return t

#

常数命令规则

def t_CONSTANT(t):

r'\d+(\.\d+)?'

t.value = float(t.value)

return t

#

输入中支持的符号头token,当然也支持t_PLUS = r'\+'的方式将加号定义为token

literals = '+-,;='

tokens = ('VARIABLE', 'CONSTANT')

if __name__ == '__main__':

data = '''

-x

+ 2.4y + z = 0; //this is a comment

9y

- z + 7.2x = -1;

y

- z + x = 8

'''

lexer = lex.lex()

lexer.input(data)

while True:

tok = lexer.token()

if not tok:

break

print tok

直接运行文件就可以将解析的token串打印出来,如下所示,详细的使用文档可以参考ply文档。LexToken(-,'-',2,5)

LexToken(VARIABLE,'x',2,6)

LexToken(+,'+',2,8)

LexToken(CONSTANT,2.4,2,10)

LexToken(VARIABLE,'y',2,13)

LexToken(+,'+',2,15)

LexToken(VARIABLE,'z',2,17)

LexToken(=,'=',2,19)

LexToken(CONSTANT,0.0,2,21)

LexToken(;,';',2,22)

语法解析

ply中的yacc用作语法分析,虽然复杂的词法分析可以代替简单的语法分析,但类似于编程语言的解析再复杂的词法分析也胜任不了。在使用yacc之前,需要了解上下文无关文法,这部分内容太多太杂,我也只了解部分简单的概念,有兴趣的可以看一看编译原理深入了解。

目前语法分析的方法有两大类,即自下向上的分析方法和自上而下的分析方法。所谓自上而下的分下法就是从文法的开始符号出发,根据文法规则正向推到出给定句子的一种方法,或者说,从树根开始,往下构造语法树,直到建立每个树叶的分析方法。代表算法是LL(1),此算法文法解析能力不强,对文法定义要求比较高,主流的编译器都没有使用。自下而上的分析法是从给定的输入串开始,根据文法规则逐步进行归约,直至归约到文法的开始符号,或者说从语法书的末端开始,步步向上归约,直至归约到根节点的分析方法。代表算法有SLR、LRLR,ply使用的就是LRLR。

因此我们只需要定义文法和规约动作即可,以下就是完整的代码。#

-*- coding=utf8 -*-

from ply import (

lex,

yacc

)

#

空格 制表符 回车这些不可见符号都忽略

t_ignore = ' \t\r'

#

解析错误的时候直接抛出异常

def t_error(t):

raise Exception('error {} at line {}'.format(t.value[0], t.lineno))

#

记录行号,方便出错定位

def t_newline(t):

r'\n+'

t.lexer.lineno += len(t.value)

#

支持c++风格的\\注释

def t_ignore_COMMENT(t):

r'\/\/[^\n]*'

#

变量的命令规则

def t_VARIABLE(t):

r'[a-z]+'

return t

#

常数命令规则

def t_CONSTANT(t):

r'\d+(\.\d+)?'

t.value = float(t.value)

return t

#

输入中支持的符号头token,当然也支持t_PLUS = r'\+'的方式将加号定义为token

literals = '+-,;='

tokens = ('VARIABLE', 'CONSTANT')

#

顶层文法,规约的时候equations对应的p[1]是一个列表,包含了方程左边各个变量与系数还有方程左边的常数

def p_start(p):

"""start : equations"""

var_count, var_list = 0, []

for left, _ in p[1]:

for con, var_name in left:

if var_name in var_list:

continue

var_list.append(var_name)

var_count += 1

matrix = [[0] * (var_count + 1) for _ in xrange(len(p[1]))]

for counter, eq in enumerate(p[1]):

left, right = eq

for con, var_name in left:

matrix[counter][var_list.index(var_name)] = con

matrix[counter][-1] = -right

var_list.append(1)

p[0] = matrix, var_list

#

方程组对应的文法,每个方程用,或者;做分隔

def p_equations(p):

"""equations : equation ',' equations

| equation ';' equations

| equation"""

if len(p) == 2:

p[0] = [p[1]]

else:

p[0] = [p[1]] + p[3]

#

单个方程对应的文法

def p_equation(p):

"""equation : eq_left '=' eq_right"""

p[0] = (p[1], p[3])

#

方程等式左边对应的文法

def p_eq_left(p):

"""eq_left : var_unit eq_left

|"""

if len(p) == 1:

p[0] = []

else:

p[0] = [p[1]] + p[2]

#

六种文法对应例子: x, 5x, +x, -x, +4x, -4y

#

归约的形式是一个元组,例: (5, 'x')

def p_var_unit(p):

"""var_unit : VARIABLE

|

CONSTANT VARIABLE

|

'+' VARIABLE

|

'-' VARIABLE

|

'+' CONSTANT VARIABLE

|

'-' CONSTANT VARIABLE"""

len_p = len(p)

if len_p == 2:

p[0] = (1.0, p[1])

elif len_p == 3:

if p[1] == '+':

p[0] = (1.0, p[2])

elif p[1] == '-':

p[0] = (-1.0, p[2])

else:

p[0] = (p[1], p[2])

else:

if p[1] == '+':

p[0] = (p[2], p[3])

else:

p[0] = (-p[2], p[3])

#

方程等式右边对应的常数,对应的例子:1.2, +1.2, -1.2

def p_eq_right(p):

"""eq_right : CONSTANT

|

'+' CONSTANT

|

'-' CONSTANT"""

if len(p) == 3:

if p[1] == '-':

p[0] = -p[2]

else:

p[0] = p[2]

else:

p[0] = p[1]

if __name__ == '__main__':

data = '''

-x

+ 2.4y + z = 0; //this is a comment

9y

- z + 7.2x = -1;

y

- z + x = 8

'''

lexer = lex.lex()

parser = yacc.yacc(debug=True)

lexer.lineno = 1

s = parser.parse(data)

print s

直接运行文件即可,得到的输出如下,之后就可以根据线性代数的方法求解各个变量的值([[-1.0, 2.4, 1.0,

-0.0], [7.2, 9.0, -1.0, 1.0], [1.0, 1.0, -1.0, -8.0]], ['x', 'y', 'z',

1])

总结

依托于python简洁的语法,ply为我们提供了一个强大的语法分析工具,更复杂的例子可以参考https://github.com/LiuRoy/proto_parser,这是我用ply实现的一个简单的protobuf解析器,用于减少频繁的中间文件生成。有这种神器,一颗赛艇!

以上就是python 开发编译器 的内容,更多相关内容请关注PHP中文网(www.gxlcms.com)! 本条技术文章来源于互联网,如果无意侵犯您的权益请点击此处反馈版权投诉 本文系统来源:php中文网

python开源编译器,python开发编译器相关推荐

  1. python开发编译器_python开发编译器

    引言 最近刚刚用python写完了一个解析protobuf文件的简单编译器,深感ply实现词法分析和语法分析的简洁方便.乘着余热未过,头脑清醒,记下一点总结和心得,方便各位pythoner参考使用. ...

  2. python开源ide_前5个开源Python IDE

    python开源ide Python无处不在. 如今,它似乎为从主要网站到桌面实用程序再到企业软件的所有功能提供支持. Python已被用于编写dnf / yum,OpenStack,OpenShot ...

  3. python开源web项目-最火的五大 python 开源项目

    原标题:最火的五大 python 开源项目 python 语言易学,且开发高效,用 python 语言开发的开源项目活跃度很高,下面介绍目前最活跃的五大 python 开源项目: 1.) 排名第一位的 ...

  4. 【开发环境】PyCharm 打开现有 Python 工程 ( 配置 Python 编译器版本 )

    文章目录 一.PyCharm 打开现有 Python 工程 二.配置 Python 编译器版本 一.PyCharm 打开现有 Python 工程 在 PyCharm 欢迎界面 , 点击 " ...

  5. 手机版的python3编译器,python编辑器安卓下载

    如何用手机编程Python? 1.QPython3:这是一个在安卓手机上运行python3的脚本引擎,整合了python3解释器.控制台.QEdit编辑器和SLA4库,可以在安卓手机上运行python ...

  6. 在线python编程编译器-编译器python

    广告关闭 腾讯云双11爆品提前享,精选热门产品助力上云,云服务器首年88元起,买的越多返的越多,最高满返5000元! 一.解释型语言pythonpython语言是一种解释型.面向对象.动态数据类型的高 ...

  7. python一般用什么编译器-Python常用的编辑器有哪些?老男孩Python

    python是一门解释型语言,代码想要运行,必须通过解释器来执行,当然为了满足不同平台的需求,python解释器也分为不同的种类,接下来老男孩教育为大家介绍五款常用python解释器. 目前常见的Py ...

  8. 安装python环境以及安装pycharm编译器教程

    首先,此文章只适用于新手小白,本教程在服务器中录制,教程中用到的软件链接在教程的最后. 第一步,解压好我们的文件夹以后,可以看到里面有两个文件,一个是python环境安装,一个是pycharm编译器的 ...

  9. 通过python各种开源库,开发一个适合大部分公司测试项目框架,确定名字AutoTestProjects

    通过python各种开源库,开发一个适合大部分公司测试项目框架,确定名字AutoTestProjects 一,简介 1.目前市场上的框架一般都需要码农进行编写,对测试小白非常的不友好,而且现在整个IT ...

最新文章

  1. 插入排序--希尔排序
  2. 牛客网——10进制 VS 2进制
  3. sockaddr与sockaddr_in的区别
  4. 新秀翻译(两)——使用Java通用配置模板方法模式
  5. 【Git、GitHub、GitLab】十 将git仓库备份到本地
  6. (软件工程复习核心重点)第六章实现和测试-第三节:单元测试
  7. MaxCompute命令行工具——odpscmd的操作使用
  8. 浪潮服务器系统驱动,浪潮英信服务器驱动(最新更新)浪潮网卡驱动
  9. csr驱动程序linux版,CSR8510蓝牙驱动下载
  10. 2020年Google SEO 8大趋势
  11. CPP----C++练习100题
  12. 模块化 AMD与CMD 规范
  13. 【动手学习pytorch笔记】28.机器翻译数据集
  14. Containerd镜像lazy-pulling「详细解读 」
  15. win10安全模式都进不去_win10开机进不了系统处理
  16. 拒绝面试造火箭,工作拧螺丝——Java经典面试题分享『带答案』
  17. 计算机中心那些事(四),计算机软考的那些事儿!
  18. Linux下配置git
  19. android 自动挂断,android实现接通和挂断电话
  20. 班班通计算机工作总结,初中班班通培训工作总结

热门文章

  1. win10清理C盘有效的几种方法
  2. BlumNet: Graph Component Detection for Object Skeleton Extraction阅读笔记
  3. SpringBootAdmin超详细教程以及端点指标控制
  4. 关于Python中的引用
  5. Spring Cloud之Hystrix服务容错
  6. 微星超龙显卡的性能模式无法开机的原因与解决办法
  7. ohci之usb_submit_urb 一
  8. oracle db、dba和rdba
  9. 使用VSCode创建一个Vue项目
  10. FMC子卡:2 路 14bit、3G ADC 采集功能、2 路 16bit 12.6G 回放