python正则匹配_Python正则表达式详解
正则表达式,又称规则表达式(Regular Expression),是使用单个字符串来描述、匹配某个句法规则的字符串,常被用来检索、替换那些符合某个模式(规则)的文本。最初的正则表达式出现于理论计算机科学的自动控制理论和形式化语言理论中。
1950 年,数学家斯蒂芬·科尔·克莱尼利用称之为“正则集合”的数学符号来描述此模型。肯·汤普逊将此符号系统引入编辑器 QED,随后是 UNIX 上的编辑器 ed,并最终引入 grep。自此以后,正则表达式被广泛地应用于各种 UNIX 或类 UNIX 系统的工具中。目前,许多程序设计语言都支持利用正则表达式进行字符串操作。
一个正则表达式通常被称为一个模式(pattern),是用来描述或者匹配一系列匹配某个句法规则的字符串。例如 Polish、Spanish 和 Swedish 这三个字符串,都可以由(Pol|Span|Swed)ish 这个模式来描述。
大部分正则表达式的形式都有如下的结构:
1) 选择
竖线|表示选择,具有最低优先级,例如 center|centre 可以匹配 center 或 centre。
2) 数量限定
字符后的数量限定符用来限定前面这个字符允许出现的个数。最常见的数量限定符包括“+”“?”和“*”(不加数量限定则代表出现一次且仅出现一次):
加号+代表前面的字符必须至少出现一次(一次或多次),例如 goo+gle 可以匹配 google、gooogle、goooogle 等。
问号?代表前面的字符最多只可以出现一次(零次或一次),例如 colou?r 可以匹配 color 或者 colour。
星号*代表前面的字符可以不出现,也可以出现一次或者多次(零次、一次或多次),例如 0*42 可以匹配 42、042、0042、00042 等。
3) 匹配
成对的小括号( )用来定义操作符的范围和优先度,例如 gr(a|e)y 等效于 gray|grey,(grand)?father 匹配 father 和 grandfather。
正则表达式中除了上述的几种特殊字符外,还使用了一些特殊的方式表示匹配的模式,常用的特殊字符及含义如表 1 所示。
表 1:正则表达式常用的特殊字符及含义
符号
描述
\
将下一个字符标记为一个特殊字符、一个原义字符(Identity Escape,有 "^" "$" "(" ")" "*" "+" "{" "|" 共计12个)、一个向后引用(backreferences)或一个八进制转义符。例如“n”匹配字符“n”,“\n”匹配一个换行符,“\\”匹配“\”,“\(”则匹配“(”
^
匹配输入字符串的开始位置。如果设置了正则表达式的多行属性,“^”也可以匹配“\n”或“\r”之 后的位置
$
匹配输入字符串的结束位置。如果设置了正则表达式的多行属性,“$”也可以匹配“\n”或“\r”之 前的位置
*
匹配前面的子表达式零次或多次。例如“zo*”能匹配“z” “zo”以及“zoo”,“*”等效于“{0,}”
+
匹配前面的子表达式一次或多次。例如“zo+”能匹配“zo”以及“zoo”,但不能匹配“z”,“+”等效于"{1,}”
?
匹配前面的子表达式零次或一次。例如“do(es)?”可以匹配 “do”或 “does”中的“do”,“?”等效 于 “{0,1}”
{n}
n 是一个非负整数,匹配确定的 n 次。例如“o{2}”不能匹配“Bob”中的“o”,但是能匹配“food” 中的两个 o
{n,}
n 是一个非负整数,至少匹配n次。例如“o{2,}”不能匹配“Bob”中的“o”,但能匹配“foooood”中的所有o,等效于“o+”,“o{0,}”则等效于“o*”
{n,m}
m 和 n 均为非负整数,其中 n<=m。最少匹配 n 次且最多匹配 m 次。例如“o{1,3}”将匹配“fooooood" 中的前三个“o”,“o{0,l}”等效于“0?”。注意在逗号和两个数之间不能有空格
.
匹配除“\r” “\n”之外的任何单个字符。要匹配包括“\r” “\n”在内的任何字符,请使用“(.|\r|\n)” 的模式
(?:pattem)
匹配模式但不获取匹配的子字符串,也就是说这是一个非获取匹配,不存储匹配的子字符串用于向 后引用。这在使用竖线字符来组合一个模式的各个部分时很有用。例如“industr(?:y|ies)”就是 一个比"industry|industries”更简略的表达式
(?=pattem)
正向肯定断言,在任何匹配 pattern 的字符串开始处匹配查找字符串。这是一个非获取匹配。例如 “Windows(?=95|98|NT|2000)“ 能匹配 “Windows2000” 中的 “Windows”,但不能匹配"Windows3.1 ” 中的“Windows”。断言不消耗字符,即在一个匹配发生后,在最后一次匹配之后立即开始下一次匹配的搜索,而不是从包含断言的字符之后开始
x|y
没有包围在 ( ) 里,其范围是整个正则表达式。例如“z|food”匹配“z”或“food”,“(?:z|f)ood”则匹配 “zood” 或 “food”
[xyz]
字符集合,匹配所包含的任意一个字符。例如“[ab可”可以匹配“plain”中的“a”。特殊字符仅有反斜线“\”保持特殊含义,用于转义字符。其他特殊字符如星号、加号、各种括号等均作为普通字符。脱字符“^”如果出现在首位则表示负值字符集合;如果出现在字符串中间就仅作为普通字符。 连字符“-”如果出现在字符串中间表示字符范围描述;如果出现在首位(或末尾)则仅作为普通字符。右方括号应转义出现,也可以作为首位字符出现
[a-z]
字符范围,匹配指定范围内的任意字符。例如“[a-z]”可以匹配“a”到“z”范围内的任意小写字母字符
\b
匹配一个单词边界,也就是指单词和空格间的位置。例如“er\b”可以匹配“never”中的“er”,但不匹配“verb”中的“er”
\B
匹配非单词边界。例如“er\B”能匹配“verb”中的“er”,但不能匹配“never”中的“er”
\cx
匹配控制字符。x 必须为 A(a) 到 Z(z)。否则,将 c 视为一个原义的“c”字符。控制字符的值等于 x 的值,但最低为 5 比特(即对 3210 进制的余数)。例如“\cM”匹配一个“Control-M”或回车符。“\ca” 等效于 “\u0001”,“\cb” 等效于 “\u0002”
\d
匹配一个数字字符,等效于"[0-9]”。注意 Unicode 正则表达式会匹配全角数字字符
\D
匹配一个非数字字符,等效于“[^0-9]”
\f
匹配一个换页符,等效于“\x0c 和 \cL”
\n
匹配一个换行符,等效于“\x0a 和 \cJ”
\r
匹配一个回车符,等效于“\x0d 和 \cM”
\s
匹配任何空白字符,包括空格、制表符、换页符等,等效于“[\f\n\r\t\v]”。注意 Unicode 正则表达式 会匹配全角空格符
\S
匹配任何非空白字符,等效于“[^\f\n\r\t\v]”
\t
匹配一个制表符,等效于“\x09 和 \c1”
\v
匹配一个垂直制表符,等效于“\x0b 和 \cK”
\w
匹配包括下画线的任何单词字符,等效于"[A-Za-z0-9_]”。注意 Unicode 正则表达式会匹配中文字符
\W
匹配任何非单词字符,等效于“[^A-Za-z0-9_]”
\n
标识一个八进制数转义值或一个向后引用。如果“\n”之前至少 n 个获取的子表达式,则 n 为向后引 用。否则,如果 n 为八进制数字“(0-7)”,则 n 为一个八进制数转义值
表 1 中这些特殊字符的优先级如表 2 所示。
表 2:正则表达式特殊字符的优先级
优先级
符号
最高
“\”
高
“()” “(?:)” “(?=)” “[]”
中
“*”“+” “?”“{n}” “{n,}” “{n,m}”
低
“^” “$” “中介字符”
次最低
串接,即相邻字符连接在一起
最低
“|”
在Python中可以通过 re 模块使用正则表达式,例如:
import re
str = 'abcdabcdef '
pattern ='.*'
p = re.compile(pattern)
match = re.search(p, str)
print(match.group(0))
上述代码的运行结果如下所示:
>>> import re
>>> str = 'abcdabcdef '
>>> pattern ='.*'
>>> p = re.compile(pattern)
>>> match = re.search(p, str)
>>> print(match.group(0))
abcdabcdef
在正则表达式中使用“*”匹配字符串默认是匹配到串的结尾,即所谓的“贪婪模式”。如果只想匹配到第一个符合条件的子字符串就停止,需要切换为“非贪婪模式”,方法是在“*”之后使用“?”,例如:
import re
str = 'abcdabcdef '
pattern ='.*?'
p = re.compile(pattern)
match = re.search(p, str)
print(match.group(0))
上述代码的运行结果如下所示:
>>> import re
>>> str = 'abcdabcdef '
>>> pattern ='.*?'
>>> p = re.compile(pattern)
>>> match = re.search(p, str)
>>> print(match.group(0))
abcd
可见,“贪婪模式”在整个表达式匹配成功的前提下,尽可能多地匹配;而“非贪婪模式”在整个表达式匹配成功的前提下,尽可能少地匹配。“贪婪模式”与“非贪婪模式”影响的是被量词修饰的子表达式的匹配行为。
Python中正则表达式常用的方法如表 3 所示。
表 3:正则表达式常用的方法
方法
描述
compile()
编译正则表达式模式,返回一个对象的模式
match()
决定正则表达式对象是否在字符串最开始的位置匹配。注意:该方法不是完全匹配。当模式结束时若 原字符串还有剩余字符,仍然视为成功。想要完全匹配,可以在表达式末尾加上边界匹配符“$”
search()
在字符串内查找模式匹配,只要找到第一个匹配然后返回,如果字符串没有匹配,则返回“None”
findall()
遍历匹配,可以获取字符串中所有匹配的字符串,返回一个列表
finditer()
返回一个顺序访问每一个匹配结果的迭代器,该方法将找到匹配正则表达式的所有子串
split()
按照能够匹配的子串将原字符串分割后返回列表
sub()
替换原字符串中每一个匹配的子串后返回替换后的字符串
subn()
返回“sub()”方法执行后的替换次数
flags()
正则表达式编译时设置的标志
pattem()
正则表达式编译时使用的字符串
python正则匹配_Python正则表达式详解相关推荐
- python正则匹配_python 正则表达式详解
正则表达式是一个很强大的字符串处理工具,几乎任何关于字符串的操作都可以使用正则表达式来完成,作为一个爬虫工作者,每天和字符串打交道,正则表达式更是不可或缺的技能,正则表达式的在不同的语言中使用方式可能 ...
- python正则匹配_Python正则表达式只匹配一次
我正在尝试创建一个简单的降价乳胶转换器,只是为了学习 python和基本的正则表达式,但我不知道试图弄清楚为什么下面的代码不起作用: re.sub (r'\[\*\](.*?)\[\*\]: ?(.* ...
- python正则匹配_Python正则表达式初识(五)
原标题:Python正则表达式初识(五) 正则表达式的内容很丰富,今天小编继续给大家分享Python正则表达式的基础知识.今天要给大家的讲的特殊字符是竖线"|".竖线"| ...
- 菜鸟教程python正则表达式_python 正则表达式详解
python 正则表达式详解 1. 正则表达式模式 模式描述 ^ 匹配字符串的开头 $ 匹配字符串的末尾. . 匹配任意字符,除了换行符,当re.DOTALL标记被指定时,则可以匹配包括换行符的任意字 ...
- python正则判断_Python 正则表达式
一.基础语法 1.1 语法速查 1.2 最简单的正则匹配 学习正则一般是从 match 和 search 函数开始,推荐教程. match match(pattern, string) 函数会从字符串 ...
- python正则库_python 正则表达式第三方库 re的基本使用
re模块简介: 正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配,而re模块就是python中实现正则的模块 正则表达式简介: 非打印字符: 非打印字符也可以是正则表达 ...
- linux 正则查找email_Linux 正则表达式详解
一.linux文本查找命令 在说linux正规表达式之前,还介绍下linux中查找文本文件常用的三个命令: 1.grep : 最早的文本匹配程序,使用POSIX定义的基本正则表达式(BRE)来匹配文本 ...
- python正则判断_python正则表达式
python要用正则要导入re包 . (点) 在默认模式,匹配除了换行的任意字符.如果指定了标签 DOTALL ,它将匹配包括换行符的任意字符. ^ (插入符号) 匹配字符串的开头, 并且在 MULT ...
- python pexpect输出_Python Pexpect详解
背景介绍 Expect 程序主要用于人机对话的模拟,就是那种系统提问,人来回答 yes/no ,或者账号登录输入用户名和密码等等的情况.因为这种情况特别多而且繁琐,所以很多语言都有各种自己的实现.最初 ...
最新文章
- 编写函数求两个整数 a 和 b 之间的较大值。要求不能使用if, while, switch, for, ?: 以 及任何的比较语句。...
- 发布e表 for Java版
- 解决Outlook带有附件的邮件重复发送的问题
- 日积月累-从细节做起
- 使用PowerMock模拟构造函数
- 并发模型之——共享内存模型(线程与锁)理论篇
- 异常处理记录: Servlet class X is not a javax.servlet.Servlet
- mysql常用sql总结_获取多个字段最大值最小值
- [转载] 嵌入式文件系统
- DXUT框架剖析(4)
- c语言打印uint64, int64
- smtp服务器组件,配置exchange Smtp服务器
- [生存志] 第14节 历代大事件概览 西汉
- python图片logo_Python logo
- Citrix PVS架构和工作原理
- AI工程师应聘要具备哪些能力?
- 基于easyTrader部署自动化交易(一)
- 第三章 ---- 了解各种 Linux 文本编辑器
- 获取krpano点坐标 ath-x atv-y
- 域名怎么卖:玩好社群就可以!
热门文章
- 平面设计-数字品牌与商业插画
- JDK1.8帮助文档(api)中文版下载。百度网盘下载。
- macbook双击html文件打不开,双击打不开_我的macbook pro 双击 打不开文件和文件夹...
- 西南大学计算机绘图1作业答案,2019年西南大学春季[0921]《计算机绘图》辅导答案...
- 爱奇艺登录password参数js解析
- C++零基础入门教程:基础篇(一)
- 哈萨比斯恩师:深度学习只能帮助我们解决10%的难题 | 速递
- k8s安装elasticSearch(简易版)
- 内师大计算机专业在哪个学院,内蒙古师范大学计算机与信息工程学院介绍
- 2021年高压电工最新解析及高压电工模拟考试题库