Python高级——正则表达式与re模块
正则表达式
构成
原子(普通字符,如英文字符)
元字符(有特殊功用的字符)
模式修正字符
1.匹配单个字符
字符 | 功能 |
---|---|
. | 匹配任意1个字符(除了\n) |
[ ] | 匹配[ ]中列举的字符 |
\d | 匹配数字,即0-9 |
\D | 匹配非数字,即不是数字 |
\s | 匹配空白,即 空格,\t-tab键 \n-换行 |
\S | 匹配非空白 |
\w | 匹配单词字符,即a-z、A-Z、0-9、_ |
\W | 匹配非单词字符 |
2.匹配多个字符
字符 | 功能 |
---|---|
* | 匹配前一个字符出现0次或者无限次,即可有可无 |
+ | 匹配前一个字符出现1次或者无限次,即至少有1次 |
? | 匹配前一个字符出现1次或者0次,即要么有1次,要么没有 |
{m} | 匹配前一个字符出现m次 |
{m,n} | 匹配前一个字符出现从m到n次 |
3.匹配开头和结尾字符
字符 | 功能 |
---|---|
^ | 匹配字符串开头,注意^[4-7] 和 [ ^4-7]的区别 |
$ | 匹配字符串结尾 |
4.匹配分组
字符 | 功能 |
---|---|
| | 匹配左右任意一个表达式 |
(ab) | 将括号中字符作为一个分组 |
\num | 引用分组num匹配到的字符串 |
(?P) | 分组起别名 |
(?P=name) | 引用别名为name分组匹配到的字符串 |
()分组提取:
import re
# 提取区号和电话号码
result = re.match("(\d{3,4})-(\d{7,8})", "010-12345678")
# 判断匹配结果
if result:print(result.group(1))print(result.group(2))else:print("匹配失败!")
\引用分组:(匹配分组内信息)
import re
ret = re.match(r"<([a-zA-Z]*)>\w*</\1>", "<html>hh</html>")
if ret:print(ret.group())
else:print("匹配失败!")
分组起名及引用:
import re
ret = re.match(r"<(?P<name1>\w*)><(?P<name2>\w*)>.*</(?P=name2)></(?P=name1)>", "<html><h1>www.itcast.cn</h1></html>")
if ret:print(ret.group())
else:print("匹配失败!")
ret = re.match(r"<(?P<name1>\w*)><(?P<name2>\w*)>.*</(?P=name2)></(?P=name1)>", "<html><h1>www.itcast.cn</h2></html>")
if ret:print(ret.group())
else:print("匹配失败!")
5.贪婪和非贪婪
贪婪:符合正则条件时,尽可能多的匹配
非贪婪:符合正则条件时,尽可能少的匹配
默认贪婪,非贪婪在”*”,”?”,”+”,”{m,n}”后加?
import re
result = re.match(r"aaa(\d+)", "aaa123456")
if result:print(result.group())
else:print("匹配失败~!")
result = re.match(r"aaa(\d+?)", "aaa123456")
if result:print(result.group())
else:print("匹配失败~!")
6.r的作用
Python中字符串前面加上 r 表示原生字符串,防止转义字符\的干扰
print('abc\\')
print(r'abc\\')
re模块
1.match:
格式:re.match(pattern, string, flags=0)
从头开始匹配一个对象,匹配成功返回对象,失败返回None
pattern:正则模型
string:要匹配的字符串
flags:匹配模式
match匹配成功返回一个对象,对象的方法如下:
group():返回被匹配的字符串
start():返回匹配开始的位置
end():返回匹配结束的位置
span():返回一个元组包含匹配 (开始,结束) 的位置
2.search:
格式:re.search(pattern, string, flags=0)
找到第一个匹配然后返回,如果字符串没有匹配,则返回None
3.findall:
格式:re.findall(pattern, string, flags=0)
遍历匹配,可以获取字符串中所有匹配的字符串,返回一个列表
4.sub:
格式:re.sub(pattern, repl, string, count)
替换string中每一个匹配的子串后返回替换后的字符串
repl:替换后的字符串
count:最大替换次数
5.split:
格式:re.split(pattern, string, maxsplit)
按照能够匹配的子串将string分割后返回列表
maxspli:最大切割次数
Python高级——正则表达式与re模块相关推荐
- python基础—正则表达式即re模块
正则表达式(regular expression),就是字符匹配模式,而这个匹配规则在我们写爬虫进行数据提取,或者进行数据可视化进行数据清洗时经常用到,多样化的匹配规则在复杂的字符的情况提取数据时助我 ...
- Python高级——正则表达式 re模块1.match方法
python:正则表达式 一.什么是正则表达式 正则表达式也叫做匹配模式(Pattern),它由一组具有特定含义的字符串组成,通常用于匹配和替换文本. 正则表达式,是一个独立的技术,很多编程语言支持正 ...
- Python学习——正则表达式与re模块实现字符串计算器
学习了python的正则表达式后,一片懵逼,不知道干啥用的,也不知道咋用,只能放一些实例和正则表达式的规则以备后续查阅,希望在经过长时间的训练和使用后能对正则表达式有一个深刻的理解.什么是正则表达式呢 ...
- python爬虫 -- 正则表达式 与 Re模块的介绍
Regular Expression,正则表达式,一种使用表达式的方式对字符串进行匹配的语法规则. 爬虫中我们抓取到的网页源代码本质上就是一个超长的字符串,想从里面提取内容.用正则再合适不过了. 正则 ...
- Python的正则表达式和re模块
1. 正则表达式 1.1 用处 正则表达式就是记录文本规则的代码 这句话我觉得概括的很精炼. 1.2 元字符 正则表达式里有一些元字符, 他们代表的是很多意思, 有某种特征的集合呀, 不包括某种字符的 ...
- python之正则表达式及RE模块
正则表达式(匹配字符串) web界面正则匹配工具: http://tool.chinaz.com/regex/ 元字符 1 . 匹配除换行符之外的任意字符2 \w 匹配数字字母下划线3 \d 匹配数字 ...
- Python高级正则表达式
介绍 在我们教程的正则表达式介绍中,我们已经介绍了正则表达式的基本原理.我们已经展示了最简单的正则表达式的样子.我们还学习了如何通过使用 re 模块的 search() 和 match() 方法在 P ...
- python与正则表达式(part7)--re模块使用
文章目录 re模块使用 finditer 举个例子 fullmatch 举个例子 match 举个例子 search 举个例子 re模块使用 finditer re.finditer(pattern, ...
- python与正则表达式(part6)--re模块使用
文章目录 re模块使用 split 举个例子 sub 举个例子 subn 举个例子 re模块使用 split re.split(pattern,string,flags = 0) 功能: 使用正则表达 ...
最新文章
- alipay html5 app,H5App支付宝开发详解
- 重温经典算法系列: 动态规划法
- MyBatisPlus分页
- Music List
- AliOS Things网络连接技术概述
- 27.课时27.【Django模板】for标签使用详解(Av61533158,P27)
- 分析CSS布局中BFC
- 是时候开始好好考虑自己的职业定位了
- 机床电气课程设计(自己总结)
- 京东天猫茅台抢购代码的一些总结
- 关于青果教务系统一点小研究
- 码农故事:一个辞职创业卖凉皮的程序员
- Java实现阿里云企业邮箱发送邮件
- MATLAB教程(1) MATLAB 基础知识(转)
- Mysql 5.7.11压缩版安装及问题解决
- springboot水产品销售系统的设计与实现毕业设计源码041700
- PlsntUML的在线画图网址
- matlab智能算法之萤火虫算法
- tv3描述文件代理服务器,tvos14描述文件-tvos14beta描述文件更新官网 v1.0预约_手机乐园...
- 目标检测之五:随机权值平均(Stochastic Weight Averaging,SWA)---木有看懂
热门文章
- 颜色模型和颜色应用---颜色选择及其应用
- MVC3教程之实体模型和EF CodeFirst
- C# 中? 和 ?? 在变量中的使用
- 微软“.Net社区虚拟大会”dotnetConf2015:关键词:.NET 创新、开源、跨平台
- nginx+web.py+fastcgi(spawn-fcgi)的session失效問題
- WinForm下DataGridView导出Excel的实现
- 解读SSL ***技术(二)
- Nginx加密与上游服务器的TCP网络通信
- ehcache 加载自定义配置文件ehcache.xml路径
- Windows环境下Anaconda-Navigator出现闪退、无法打开问题的解决方案记录