什么是正则表达式

•正则表达式是字符串处理的有力工具,比字符串自身提供的方法提供了更强大的处理功能。

•例如判断一个字符串是否是合法的Email地址,可以通过构造一个规则(正则表达式),去判断字符串是否能够匹配。

正则表达式,又称正规表示式、正规表示法、正规表达式、规则表达式、常规表示法(英语:Regular Expression,在代码中常简写为regex、regexp或RE),计算机科学的一个概念。

正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串。

在很多文本编辑器里,正则表达式通常被用来检索、替换那些匹配某个模式的文本

元字符

一、导入re库

python使用正则表达式要导入re库。

import re

Python通过re模块提供对正则表达式的支持。

使用re的一般步骤是先将正则表达式的字符串形式编译为Pattern实例

然后使用Pattern实例处理文本并获得匹配结果(一个Match实例)

最后使用Match实例获得信息,进行其他的操作

re.match函数

匹配成功re.match方法返回一个匹配的对象

使用group(num) 或 groups() 匹配对象函数来获取匹配表达式

re.match与re.search的区别

re.match只匹配字符串的开始,如果字符串开始不符合正则表达式,则匹配失败,函数返回None

而re.search匹配整个字符串,直到找到一个匹配

compile 函数

compile 函数用于编译正则表达式,生成一个正则表达式( Pattern )对象,供 match() 和 search() 这两个函数使用

findall

在字符串中找到正则表达式所匹配的所有子串,并返回一个列表,如果没有找到匹配的,则返回空列表。

注意: match 和 search 是匹配一次 findall 匹配所有。

string 待匹配的字符串。

pos 可选参数,指定字符串的起始位置,默认为 0。

endpos 可选参数,指定字符串的结束位置,默认为字符串的长度

findall

re.finditer

在字符串中找到正则表达式所匹配的所有子串,并把它们作为一个迭代器返回

re.finditer(pattern, string, flags=0)

re.split

split 方法按照能够匹配的子串将字符串分割后返回列表,它的使用形式如下

re.split(pattern, string[, maxsplit=0, flags=0])

re.sub

sub(pattern, repl, string, count=0, flags=0)

替换函数,将正则表达式 pattern 匹配到的字符串替换为 repl 指定的字符串, 参数 count 用于指定最大替换次数

贪婪 vs 不贪婪

当重复一个正则表达式时,如用 a*,操作结果是尽可能多地匹配模式。 .* 的本质是“贪婪”的

在这种情况下,解决方案是使用不贪婪的限定符 *?、+?、?? 或 {m,n}?,尽可能匹配小的文本

二、使用正则表达式步骤

1、寻找规律;

2、使用正则符号表示规律;

3、提取信息,如果每一个字符都能匹配,则匹配成功;一旦有匹配不成功的字符则匹配失败

三、正则表达式中常见的基本符号

1.点号“.”

一个点号可以代替除了换行符(n)以外的任何一个字符,包括但不限于英文字母、数字、汉字、英文标点符号和中文标点符号。

2.星号“*”

一个星号可以表示它前面的一个子表达式(普通字符、另一个或几个正则表达式符号)0次到无限次。

3.问号“?”

问号表示它前面的子表达式0次或者1次。注意,这里的问号是英文问号。

4.反斜杠“”

反斜杠在正则表达式里面不能单独使用,甚至在整个Python里都不能单独使用。反斜杠需要和其他的字符配合使用来把特殊符号变成普通符号,把普通符号变成特殊符号。如:“n”。

5.数字“d”

正则表达式里面使用“d”来表示一位数字。再次强调一下,“d”虽然是由反斜杠和字母d构成的,但是要把“d”看成一个正则表达式符号整体。

6.小括号“()”

小括号可以把括号里面的内容提取出来。

四、常见的正则表达式举例

1. .*?(匹配所有内容)

例如:'<title>(.*?)</title>' 将网页的标题爬取下来。

2、w 单词字符[A-Za-z0-9_], "+" 匹配前一个字符1次或无限次 例如:一个人的邮箱是这样的lixiaomei@qq.com,那么我们如何从一大堆的字符串把它提取出来呢?

pattern: w+@w+.com

?代表了匹配0次或者1次括号分组内的匹配内容,"()"则表示被括内容是一个分组,分组序号从pattern字符串起始往后依次排列。因为是匹配0次或1次,那么就意味着括号内的部分是可有可无的,所以这个pattern就可能匹配以上两种邮箱格式。

扩展: w+@(w+.)*w+.com 模式就更厉害了," * " 可以匹配0次或无限次。

五、re库的核心函数

compile()函数 (可有可无)

  • 函数定义: compile(pattern, flag=0)
  • 函数描述:编译正则表达式pattern,然后返回一个正则表达式对象。

为什么要对pattern进行编译呢?《Python核心编程》里面是这样解释的:

使用预编译的代码对象比直接使用字符串要快,因为解释器在执行字符串形式的代码前都必须把字符串编译成代码对象。

2、match()函数

  • 函数定义: match(pattern, string, flag=0)
  • 函数描述:只从字符串的最开始与pattern进行匹配,匹配成功返回匹配对象(只有一个结果),否则返回None。

问题来了,为什么result1结果有这么多的东西啊?貌似最后一个才是要匹配的对象。这个要怎么提取出来呀?

别着急,我们现在得到的是匹配对象,需要用一定的方法提取,后面会在《匹配对象的方法》章节来解决这个问题,继续往下看。

3、search()函数

  • 函数定义: search(pattern, string, flag=0)
  • 函数描述:与match()工作的方式一样,但是search()不是从最开始匹配的,而是从任意位置查找第一次匹配的内容。如果所有的字串都没有匹配成功,返回None,否则返回匹配对象。

4、findall()函数

  • 函数定义: findall(pattern, string [,flags])
  • 函数描述:查找字符串中所有出现的正则表达式模式,并返回一个匹配列表

上面同时列出了match、search、findall三个函数用法。findall与match和search不同的地方是它会返回一个所有无重复匹配的列表。如果没找到匹配部分,就返回一个空列表。六、匹配对象的方法(提取)

以上re模块函数的返回内容可以分为两种:

  • 返回匹配对象:就是上面如 <_sre.SRE_Match object; span=(0, 5), match='12345'>这样的对象,可返回匹配对象的函数有match、search、finditer。
  • 返回一个匹配的列表:返回列表的就是 findall。

因此匹配对象的方法只适用match、search、finditer,而不适用与findall。

常用的匹配对象方法有这两个:group、groups、还有几个关于位置的如 start、end、span就在代码里描述了。

1、group方法

  • 方法定义:group(num=0)
  • 方法描述:返回整个的匹配对象,或者特殊编号的字组

再看下面的实例:

这里就需要用到我们之前提到的分组概念。

分组的意义在于:我们不仅仅想得到匹配的整个字符串,我们还想得到整个字符串里面的特定子字符串。如上例中,整个字符串是“我12345+abcde”,但是想得到 “abcde”,我们就可以用()括起来。因此,你可以对pattern进行任何的分组,提取你想得到的内容。

2、groups方法

  • 方法定义:groups(default =None)
  • 方法描述:返回一个含有所有匹配子组的元组,匹配失败则返回空元组

七、re模块的属性(flag)

re模块的常用属性有以下几个:

  • re.I: 匹配不分大小写;(常用)
  • re.L: 根据使用的本地语言环境通过w, W, b, B, s, S实现匹配;
  • re.M: ^和$分别匹配目标字符串中行的起始和结尾,而不是严格匹配整个字符串本身的起始和结尾;
  • re.S: “.”(点号)通常匹配除了n(换行符)之外的所有单个字符,该标记表示“.”(点号)能够匹配全部字符;(常用)
  • re.X: 通过反斜线转义,否则所有空格加上#(以及在该行中所有后续文字)都被忽略,除非在一个字符类中或者允许注释并且提高可读性;

注意:

如果我们定义了compile编译,需要先将flag填到compile函数中,否则填到匹配函数中会报错; 如果没有定义compile,则可以直接在匹配函数findall中填写flag。

python findall函数_Python正则表达式相关推荐

  1. python findall函数_python正则表达式之中的findall函数是什么?

    在这篇文章之中我们来了解一下关于python正则表达式的相关知识,有些朋友可能是刚刚接触到python这一编程语言,对这一方面不是特别的了解,在接下来这篇文章将会来带大家来了解关于正则表达式中的pyt ...

  2. python中findall函数_Python正则表达式 findall函数详解

    在写正则表达式的时候总会遇到不少的问题, 特别是在表达式有多个元组的时候.下面看下re模块下的findall()函数和多个表达式元组相遇的时候会出现什么样的坑. 代码如下:import re str= ...

  3. python findall函数_Ramp;Python Data Science系列:数据处理(11)Python正则表达式re模块(三)...

    前言 使用正则表达式进行匹配,可以直接调用模块级函数,如match().search().findall()等,函数第一个参数是匹配的正则表达式,第二个参数则为要匹配的字符串.也可以使用re.comp ...

  4. python正则匹配_python 正则表达式详解

    正则表达式是一个很强大的字符串处理工具,几乎任何关于字符串的操作都可以使用正则表达式来完成,作为一个爬虫工作者,每天和字符串打交道,正则表达式更是不可或缺的技能,正则表达式的在不同的语言中使用方式可能 ...

  5. python findall函数用法_Python--re模块的findall等用法

    1)正则表达式含义 . # 点可代表一切字符 \ # 起转义作用 [...] # 指代方括号中的任意字符 \d # 指代数字0-9 \D # 指代非数字 \s # 指代一切空格,包括tab制表符.空格 ...

  6. python findall用法_Python 正则表达re模块之findall()详解

    目录 一.re.findall函数介绍 二.代码如下 三.re.findall中正则表达式(.*?) 四.re.findall中参数re.S的意义 一.re.findall函数介绍 它在re.py中有 ...

  7. python text函数_python可视化text()函数使用详解

    python可视化text()函数使用详解 这篇文章主要介绍了python可视化text()函数使用详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考 ...

  8. python not函数_python 函数

    1 为什么使用函数 在没有接触函数时,有时候需要将一个功能多次写,如果需要修改其中一个变量,则需要把所有实现该功能的代码一处一处改.不利于代码维护,代码量大了,组织结构也会很不清晰. 所以总结不使用函 ...

  9. python include函数_python 库函数

    python的内建函数和库函数的区别是什么? [区别]:标准库函数都需要import xxx才能取得.内建函数都在__builtins__里面,在global里直接就能用. [补充]:1.python ...

最新文章

  1. R语言使用basename函数获取数据链接地址中的文件名称(removes all of the path up to and including the last path separator )
  2. AutoCAD.net/Map 3D/AIMS/MapGuide/Civil 3D二次开发学习指南
  3. 步步为营UML建模系列二、部署图(Deployment Diagram)
  4. IAS的工作原理(一)作为 RADIUS 服务器的 IAS
  5. 百亿数据量下,掌握这些Redis技巧你就能Hold全场
  6. nhibernate入门系列: 使用Criteria载入对象
  7. Linux常用命令全名
  8. boost::mp11::mp_at相关用法的测试程序
  9. Pyhton注释符号使用方法及规范
  10. java版我的世界MITE怎么下_MITE极限生存模组
  11. php读取移动硬盘数据,移动硬盘数据恢复
  12. 网页图片上传到服务器
  13. python爬虫api接口,网易云音乐python爬虫api接口
  14. 在CSDN高校俱乐部校园巡讲中遇到的几个共性问题
  15. scala中case的用法
  16. 什么是Merkle Tree(默克尔树)
  17. 2022数据结构习题(知产)
  18. 电脑上的以太网连接,本地连接,宽带连接,无线WLAN连接的区别(超详细)--转载
  19. android 英文字典,爱疯不忘学英语 实测10款Android词典
  20. mapstruct使用的正确姿势

热门文章

  1. UVA10268 498-bis【多项式】
  2. HDU2522 A simple problem【分数与小数】
  3. POJ3980 取模运算【水题】
  4. POJ3748 位操作【位运算+STL】
  5. UVA494 Kindergarten Counting Game【输入输出+水题】
  6. 只属于你我的共同记忆
  7. Spring —— 静态成员的注入
  8. 卷积(convolution)与相关(correlation)(matlab 实现)
  9. 强悍的 ubuntu —— ubuntu 与 windows 双系统的交互
  10. ubuntu 的使用(三)—— 实用小工具