换个角度理解正则表达式
原创作品,允许转载,转载时请务必以超链接形式标明文章原始出处 、作者信息和本声明。否则将追究法律责
其实Linux系统中处理文本的工具还有很多,功能也远比我们所能想象到的任何工具都要强大。要想真正掌握它们,就必须要掌握一项基本技能——正则表达式。
正则表达式已经无处不在了,无论是网络文章,还是很多图书,亦或是教材也都在讲解正则表达式,我们也坚信正在读本书的你也早已熟稔正则表达式的运用。但是,我们依然要介绍它,只是换了一个角度,以期望初学者能有一个好的开端,行家里手们能够加深入的理解它,因为要熟练使用Linux是离不开正则表达式。
对于初学者来讲,一定会追问到底什么是正则表达式。这是一个很难回答的问题。但是我们可以通过一个应用实例来让大家明白。一般地,我们在处理字符串的时候后有需要判断是否存在某个子串的情况,比如要在字符串“prefix=/usr”中来判断是否拥有“prefix=”这个字串,可以使用逐一比对的方式来完成这个功能。这看起来很好,而且屡试不爽。还能进一步演进算法,实现提取诸如“prefix”的“值”这样的需求。显然只需要判断字符串中有“prefix=”这个子串并确认它的位置就能够提取出“/usr”这个子串了。看来变量取值算法也是很“简单”的啊!但是别骄傲,当你遇到“exec-prefix=/libexec prefix=/usr”这样的字符串时,你怎么取“prefix”的值呢?你会说,稍微变化一下算法就行了。那遇到的字符串更复杂怎么办?对于这类需求,我们可以变换一下思路,即找到“K=V”这样形式的子串会更好。或许现在你觉得思路又开阔了。但是别着急,还有更复杂的在等着你。比如字符串“3.1416 * 100 ^ 2”,要提取出所有数字。似乎你又有思路了,无外乎提取连续的0至9,附带+、-号以及“.”的字串,但是这就能完成任务了?如果再变成“3.1416 * 1.3E2 ^ 2”这样了呢?反正变化很多。如果你要还是保持前面的思路,我保证你使用几十万行代码的if-else都满足不了需求。估计你现在一定会想,如果有一门语言只需要编写少量的代码就能够满足上面的所有需求的话,一定要学会它。这样你就不怕老板在这个地方的各种刁难。那我告诉你,还真有一门这样的语言,它就是——正则表达式。一些简单的正则表达式,就能够满足上面的这些需求,比如:
prefix=
[ \t]*[a-zA-Z]+=[ \t]*[a-zA-Z/]+[ \t]*
[+-]?[0-9]+(\.[0-9]*)?([Ee][+-]?[0-9]+)?
我们说上面的这些方方块块、花花草草就是正表达式了,它们具体都是什么含义呢?
为了搞清楚这个问题,我们首先要对正则表达式所要处理的文本进行一下精确定义。这个定义是:文本是指字符串的集合,其中的字符来自于一个有限的字符集合。也就是说,文本是由一个有限的字符集构成的,但是文本本身既可以是有穷集合,也可以是无穷集合。就比如属于文本的源代码文件,就是满足某种语言语法的全体字符串的集合,但是不同的源代码全部算在一起显然就是一个无穷的集合。当然,也可以有非常简单的文本,比如只含有一个字母“a”的文本,如果用集合了表示的话就是{a}。按照这个定义,正则表达式就是来描述任意文本的一种特殊表达式,而且拥有两个基本要素:
l表达式ε表示一个文本,仅包含一个长度为0的字符串,也可以理解为{NULL}。通常将NULL记作ε;
l对字符集中任意字符a,表达式a表示仅有一个字符a的文本,即{a}
以及三种基本运算规则:
l两个正则表达式的并,记作X|Y,表示的文本是正则表达式X所表示的文本与正则表达式Y所表示的文本的并集。比如a|b所得的文本就是{a,b},类似于加法;
l两个正则表达式的连接,记作XY,表示的文本是将X文本中的每个字符串后面连接上Y文本中的每一个字符串之后,再把所有这种连接的结果组成一种新的文本。比如X=a|b,Y=c|d,那么XY所表示的文本就是{ac,bc,ad,bd}。因为X是{a, b},而Y是{c,d},连接运算取X文本的每个字符串接上Y文本的每一个字符串,最后得到了4种连接结果。这类似于乘法;
l一个正则表达式的克林闭包,记作X*,表示分别将0个、1个、2个……n个X与自己连接,然后再把所有这些求并。也就是说X*=ε|X|XX|XXX|……。比如a*这个正则表达式,就表示的是无穷文本{ε,a,aa,aaa,……}。这相当于任意次重复一个语言。
以上三种运算写在一起时,克林闭包的优先级高于连接运算,而连接运算的优先级高于并运算。这就是正则表达式的全部规则。完全不难理解吧?
在正则表达式的实际使用中,如果只是提供上述三种运算很多时候会使得正则表达式被书写的十分复杂,为了简化正则表达式又引入了一些扩展运算。这些扩展运算都是基于三种基本运算的,它们是:
l[]方括号表示括号内的字符做并运算,同时支持范围描述符“-”。比如[abcd]就等于a|b|c|d,等价于[a-d]。
l由于方括号中支持范围描述“-”,如果要使用“-”字符,则需要将它放在方括号的开头,如[-abc]等于-|a|b|c。
l方括号中以^字符开头,表示在字符集中排除方括号中的所有字符之后,所剩字符的并运算。比如[^ab]则表示除了ab以外的所有字符求并。
lX?表示X|ε。这就代表X与空字符串之间可选。
lX+表示XX*。这等于限制了X至少要重复1次。
现在我们就可以理解一下我们前面给出的这几个正则表达式了。
第一个正则表达式是“prefix=”,这就是一个连接运算,由“p”、“r”、“e”、“f”、“i”、“x”、“=”这几个字符连接而成。
第二个正则表达式则是提取出“K=V”这样形式的子串,取“=”号右侧子串就等同于取值了。而且限定了用空格来区分“K=V”结构的边界。[ \t]就是描述空格的正则表达式。
第三个正则表达式是提取数字,包含浮点数和科学计数法。比较困惑的是“()”圆括号的出现。这是因为很多正则表达式工具默认都使用单一字符作为字串边界,为了扩大子串的边界,可以使用“()”来明确限定,所以也被称为子表达式。但是这种子表达式并不属于标准正则表达式的范畴,所以会遇到不支持的情况。
好了,这部份的内容就算结束了,这是纯理论的,希望这些内容能够帮助到大家。本书的后续内容还会遇到一些有关正则表达式的内容,那些就更加偏重于实践了。本书之所以要这样组织,主要是考虑到正则表达式的派系过于繁杂,不同情况下所使用的工具对正则表达式派系的支持可能不太一样,只有遇到合适的场景才能更好的体会的这些差异来。其实接下来的内容就已经是这样的了。
换个角度理解正则表达式相关推荐
- 深入理解正则表达式环视的概念与用法
在<深入理解正则表达式高级教程-环视>中已经对环视做了简单的介绍,但是,可能还有一些读者比较迷惑,今天特意以专题的形式,深入探讨一下正则表达式的环视的概念与用法. 深入理解正则表达式环视的 ...
- 理解正则表达式(程序员第3期文章)
本文为<程序员>07年3月号<七种武器>专题所做.有兴趣的读者可以到 这里 来投一票,表达您对于程序员基本功的看法. 在程序员日常工作中,数据处理占据了相当的比重.而在所有的 ...
- php 正则表达式 环视,深入理解正则表达式高级教程
前面已经写过一篇文章<我眼里的正则表达式(入门)>介绍过正则表达式的基础和基本套路正则三段论:定锚点,去噪点,取数据了,接下来这篇文章,补充一点相对高级的概念:1. 概念一:按单字符匹配 ...
- 几个实例让你轻松理解正则表达式
使用正则表达式 正则表达式相关知识 在编写处理字符串的程序或网页时,经常会有查找符合某些复杂规则的字符串的需要,正则表达式就是用于描述这些规则的工具,换句话说正则表达式是一种工具,它定义了字符串的匹配 ...
- 带你换个角度理解图卷积网络
摘要:本文带大家从另一个角度来理解和认识图卷积网络的概念. 本文分享自华为云社区<技术综述十二:图网络的基本概念>,原文作者:一笑倾城. 基础概念 笔者认为,图的核心思想是学习一个函数映射 ...
- 正则表达式查找字符串_如何简单理解正则表达式?只需1分钟就可以看到她优美的舞姿...
Hi,大家好,本章节开始将会从零开始和大家用图文的方式,让你从零基础学会正则表达式!有兴趣的小伙伴可以持续关注我,或者在专栏中进行查看自我学习,愿与君携手前行! 本文将要说到的正则表达式?可能初学的你 ...
- 换个角度理解封装的意义
封装 封装其实就是对复杂事物的一种简化.任何事物随着不断地发展,总是会越来越复杂,体量越来越大,效率越来越低,管理起来越来越困难.这时候就需要进行分类升级,也就是我们所说的抽象,将相同特征的一类事物进 ...
- 图文解读助你理解和使用正则表达式
机器之心 作者:Jan Meppe 这篇文章是关于正则表达式(regex)的插图指南,旨在为那些从来没有使用过正则表达式,想尝试但又望而生畏的新手提供一个简单介绍. 所以,欢迎使用正则表达式- 对于大 ...
- ps2019布尔运算快捷键_超实用:换个角度教你快速理解PS CS6布尔运算
今天为大家分享快速理解PS CS6布尔运算教程,教程真的很不错,推荐过来,一起来学习吧! 我最开始接触布尔运算是在使用3DSMAX的时候,三维物体的布尔运算. 那个时候理解起来更直接,后来使用PS的时 ...
- 固定字符结尾的正则_新手上路:图文解读助你理解和使用正则表达式
选自janmeppe.com 作者:Jan Meppe 机器之心编译 参与:韩放.杜伟 这篇博客是关于正则表达式(regex)的插图指南,旨在为那些从来没有使用过正则表达式,想尝试但又望而生畏的新手提 ...
最新文章
- AspectJ切入点语法详解
- 快速开发mina(翻译)
- 服务器虚拟化架构设计,服务器虚拟化与数据中心I/O网络架构设计
- HDU - 5316 Magician(线段树区间合并)
- phpmyadmin 4.8.1 Remote File Inclusion(CVE-2018-12613)远程文件包含漏洞复现
- yii mysql 主从_mysql主从同步实践YII
- 算法高级(10)-如何实现浏览器的前进、后退功能
- 某学校有计算机主机1300台,网络互联技术与实践第14章:构建基于静态路由的多层网络.ppt...
- 经验分享:Web前端入门要怎么开始学?
- python怎么读写文件-python3 excle(python怎么读写excel文件)
- 【Win10应用开发】自定义磁贴通知的排版
- 文件——rstrip() 、lstrip()和 strip()、zip() 函数
- 7种JVM垃圾收集器特点,优劣势、及使用场景
- java并发编程(2)--线程 原子性 volatile AtomicInteger
- LINUX使用chrpath更改编译结果的rpath
- Linux TCP/IP 网络工具对比:net-tools 和 iproute2
- gyb优化事项(1)
- Jenkins 前端 自动化发版/CICD
- CTF-misc(解题思路/做题经验)
- 中国信通院栗蔚解读“云计算发展现状与可信云评估” 肯定“信创云基座”的可信能力