re 模块

match 函数

  • 尝试用正则表达式模式从字符串的 开头匹配如果匹配成功,则返回一个匹配对象;否则返回 None

案例:使用match函数匹配字符串

>>> import re       #导入正则表达式模块
>>> re.match('foo', 'food')        #匹配字符串'food'中是否包含字符'foo',包含返回一个对象
<re.Match object; span=(0, 3), match='foo'>
>>> re.match('foo', 'food').group()    #匹配'seafood'中是否包含字符'foo',不包含返回None
'foo'

search 函数

  • 在字符串中查找正则表达式模式的第一次出现,如果匹配成功,则返回一个匹配对象;否则返回 None。

案例

>>> import re       # 导入正则表达式模块
>>> m = re.search('foo', 'food')  # 匹配字符串'food'中是否包含字符'foo',包含返回一个对象
>>> print(m)                   # 打印对象m
<re.Match object; span=(0, 3), match='foo'>
>>> m = re.search('foo', 'seafood')       # 字符串'seafood'中是否包含字符'foo',包含返回对象
>>> m
>>> m.group()      # 通过group(),取出m对象中的内容

findall 函数

  • 在字符串中查找正则表达式模式的所有出现;返回一个匹配对象的列表

案例

>>> import re       # 导入正则表达式模块
>>> re.findall('foo', 'seafood is food')       # 查找所有的'foo',会返回在一个列表中
['foo', 'foo']

finditer函数

  • 查找字符串中所有匹配字符【返回迭代器】

案例

>>> import re       # 导入正则表达式模块
>>> re.finditer('foo', 'seafood is food')      #查找所有的'foo',返回在一个迭代器对象中
>>> list(re.finditer('foo', 'seafood is food'))        #将迭代器对象转换为列表,验证结果
>>> for m in re.finditer('foo', 'seafood is food'):        #for循环遍历finditer迭代器对象中元素
...     m.group()
import re
# 1. re.match(正则表达式, 字符串)
# \d: 数字      \d\d\d == \d{3}
dc1 = re.match("\d{3}", "456aaabbb")
print(dc1)  # <_sre.SRE_Match object; span=(0, 3), match='456'>
print(dc1.group())  # "456"
# 2. re.search(正则表达式, 字符串)
# 在字符串中查找正则表达式模式的第一次出现,如果匹配成功,则返回一个匹配对象;
# 否则返回 None
dc2 = re.search("\d{3}", "aaa123bbb456ccc789ddd")
print("dc2:", dc2)  # <_sre.SRE_Match object; span=(3, 6), match='123'>
print(dc2.group())  # 123
# 3. re.findall(正则表达式, 字符串)
#    在字符串中查找正则表达式模式的所有出现,返回一个列表
dc3 = re.findall("\d{3}", "aaa123bbb456ccc789ddd")
print("dc3:", dc3)  # ['123', '456', '789']
# 4. re.finditer(正则表达式, 字符串): 查找字符串中所有匹配字符
dc4 = re.finditer("\d{3}", "aaa123bbb456ccc789ddd")
print("dc4:", dc4)  # <callable_iterator object at 0x7f25594d0048>
for item in dc4:print(item.group())

split 方法

  • 根据正则表达式中的分隔符把字符分割为一个列表,并返回成功匹配的列表
  • 字符串也有类似的方法,但是正则表达式更加灵活

案例

# split方法,使用正则切割字符串
>>> s1 = 'hello-world-how-are-you.tar.gz'       #定义一个字符串s1
>>> s1.split('-')                                #split(),将字符串s1,用字符'-'进行切割
>>> s1.split('.')                #split(),将字符串s1,用字符'.'进行切割
>>> re.split('-|\.', s1)     #split(),使用正则,将字符串s1,用字符'-' 或'.'行切割,'.'代表任意字符,要用'\'进行转义

sub方法

  • 把字符串中所有匹配正则表达式的地方替换成新的字符串
>>> import re       # 导入正则表达式模块
>>> re.sub('X', 'nfx', 'Hi X, Nice to meet you, X')      #将字符串中的'X', 替换成'nfx'

compile函数

  • 对正则表达式模式进行编译,返回一个正则表达式对象
  • 不是必须要用这种方式,但是在大量匹配的情况下,可以提升效率

案例

>>> patt = re.compile('f..')     #编译正则表达式'f..'【匹配包含f的任意三个字串】
>>> m = patt.search('seafood is food')      #search(), 在字符串中,匹配正则表达式patt【f..】
>>> m          #查看对象m
>>> m.group()      #查看m中的对象# findall(), 在字符串'seafood is food'中,匹配正则表达式patt【f..】
>>> patt.findall('seafood is food')      #将查找到的所有'foo',返回在一个列表中
# 5. re.split(正则表达式,字符串): 根据正则表达式中的分隔符把字符分割为一个列表,并返回成功匹配的列表
#    字符串也有类似的方法,但是正则表达式更加灵活
str01 = "hello_tar.gz"
dc5 = re.split("_|\.",str01)
print("dc5:",dc5)# 6. re.sub(正则表达式,替换字符串,字符串) 把字符串中所有匹配正则表达式的地方替换成新的字符串
dc6 = re.sub("\d{3}","wwy","Hi 123, Nice to meet you, 456~")
print("dc6:",dc6) # dc6: Hi wwy, Nice to meet you, wwy~# 7. re.compile(字符串): 对正则表达式模式进行编译,返回一个正则表达式对象
#         不是必须要用这种方式,但是在大量匹配的情况下,可以提升效率
patt = re.compile("\d{3}")  #  # patt: 正则表达式对象
dc7 = patt.search("aaa123bbb456ccc789ddd")
print("dc7:",dc7)   # <_sre.SRE_Match object; span=(3, 6), match='123'>
print(dc7.group())   # 123
dc8 = patt.findall("aaa123bbb456ccc789ddd")
print("dc8:",dc8)   # ['123', '456', '789']

分析 apache 访问日志

需求:编写一个apache 日志分析脚本(count_patt.py):

  • 统计每个客户端访问 apache 服务器的次数
  • 将统计信息通过字典的方式显示出来
  • 分别统计客户端是 Firefox 和 MSIE 的访问次数
  • 分别使用函数式编程和面向对象编程的方式实现
# 需求:编写一个日志分析脚本:
# 统计每个客户端(ip)访问 apache 服务器的次数
# 将统计信息通过字典(dict)的方式显示出来
# {"192.168.1.100":3, "192.168.1.101":2, .....}
# 分别统计客户端是 Firefox 和 MSIE 的访问次数
import re
def count_data(fname, patt_str):  # fname: /opt/apache.logpatt_jg = {}  # 存储结果数据fr = open(fname, mode="r")patt_obj = re.compile(patt_str)  # patt_str: "(\d+\.){3}\d+"for line in fr.readlines():  # for line in fr:dc = patt_obj.search(line)  # SRE_Match objectip = dc.group()if ip in patt_jg.keys():  # 判断key在不在字典中patt_jg[ip] += 1  # 在的话, 出现次数+1else:patt_jg[ip] = 1   # 不在的话, 出现次数=1fr.close()return patt_jg
if __name__ == '__main__':fname = "/opt/apache.log"# \d+\.\d+\.\d+\.\d+  ->  (\d+\.){3}\d+patt_ip = "(\d+\.){3}\d+"patt_browser = "Firefox|MSIE"dc = count_data(fname, patt_ip)print(dc)dc1 = count_data(fname, patt_browser)print(dc1)
# cat /opt/apache.log
# 192.168.1.100  Firefox
# 192.168.1.101  MSIE
# 192.168.1.102  Firefox
# 192.168.1.100  MSIE
# 192.168.1.103  Firefox
# 192.168.1.101  MSIE

正则表达式及re模块相关推荐

  1. python正则表达式之re模块方法介绍

    python正则表达式之re模块其他方法 1:search(pattern,string,flags=0) 在一个字符串中查找匹配 2:findall(pattern,string,flags=0) ...

  2. python基础—正则表达式即re模块

    正则表达式(regular expression),就是字符匹配模式,而这个匹配规则在我们写爬虫进行数据提取,或者进行数据可视化进行数据清洗时经常用到,多样化的匹配规则在复杂的字符的情况提取数据时助我 ...

  3. python re正则_正则表达式+Python re模块详解

    正则表达式(Regluar Expressions)又称规则表达式,在代码中常简写为REs,regexes或regexp(regex patterns).它本质上是一个小巧的.高度专用的编程语言. 通 ...

  4. Python正则表达式和re模块,完美匹配中文与中文标点符号

    正则表达式和re模块 世界上分两种人,一种是懂正则表达式的,一种是不懂正则表达式的. https://darlewo.cn/getting_started_with_crawler_advanced_ ...

  5. 正则表达式与re模块

    一 .正则表达式与re模块的关系 正则表达式(regular expression)是对字符串数据的处理 re是python中的一个模块 1.正则模式是一门独立的技术,大多编程语言都支持使用 2.Py ...

  6. Python爬虫学习笔记-第六课(正则表达式下+csv模块的使用)

    正则表达式下+csv模块的使用 1. re模块方法补充 1.1 compile()方法 1.2 search()和findall()方法 1.3 split()方法 1.4 sub()方法 2. re ...

  7. 关于学习Python的一点学习总结(57->正则表达式及re模块中的一些函数)

    关于这个正则表达式,我本人也是有点不完全懂,还在继续学习中. 97.re 1.正则表达式: 1.通配符:正则表达式可与多个字符串匹配,可使用特殊字符来创建这种正则表达式 例如:正则表达式'.ython ...

  8. [ python ] 正则表达式及re模块

    正则表达式 正则表达式描述: 正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符.及这些特定字符的组合,组成一个'规则字符串',这个'规则字符串'用来     表达对字符串的一种过 ...

  9. python中的正则表达式re模块_python中的正则表达式(re模块)

    一.简介 正则表达式本身是一种小型的.高度专业化的编程语言,而在python中,通过内嵌集成re模块,程序媛们可以直接调用来实现正则匹配.正则表达式模式被编译成一系列的字节码,然后由用C编写的匹配引擎 ...

  10. python爬虫 -- 正则表达式 与 Re模块的介绍

    Regular Expression,正则表达式,一种使用表达式的方式对字符串进行匹配的语法规则. 爬虫中我们抓取到的网页源代码本质上就是一个超长的字符串,想从里面提取内容.用正则再合适不过了. 正则 ...

最新文章

  1. Mysql5.5配置主从复制
  2. Red Hat Linux、rhel 和 Fedora Core 以及 Centos 区别与联系
  3. 自己的电脑上怎么用python-如何做一个任何电脑都能用的python程序?
  4. IDE之VS:利用 Visual Studio中的IDE配置C++语言进行编程
  5. 【NLP】图解 Attention完整版
  6. PHP怎么修改链接,phpcms导航链接怎么修改
  7. Docker nginx部署阿里https(最新的方案)
  8. 找到的程序集清单定义与程序集引用不匹配
  9. [react] react中发起网络请求应该在哪个生命周期中进行?为什么?
  10. 【转】DICOM之Print!!!!!!!!!
  11. 对比两个字符串相等_字符串匹配问题
  12. java获取cpu使用率_2019年阿里P8架构师的解析:最新Java性能测试、调优策略
  13. nginx .conf
  14. Mysql update 语句(chm文档)
  15. Atitit 可视化技术体系题 目录 1. 1. 可视化分类 1 1 1.1. 1.1. 层次可视化 金字塔等 层次降为3层归类可视化 1 1 1.2. 1.2. 高层可视化 鸟瞰可视化 1 1 1
  16. Linux安装vim编辑器
  17. 计算机路由器无线级联配置,不同品牌无线路由器 无线级联 配置案例
  18. php 怎么打出来的,word书名号怎么打出来
  19. 千锋php 靠谱吗,千锋PHP学员心得 长久的坚持不懈才能接近成功
  20. 什么牌子的洗地机最适合家用?洗地机品牌排行榜前十名推荐

热门文章

  1. RESTful API常用的HTTP请求方法
  2. AP最大功率一般为100mW/500mW
  3. 游戏开发中的物理介绍
  4. 1.3.2:计算(a+b)*c的值
  5. 计算机专业大专毕业设计,大专计算机专业毕业论文设计.doc
  6. OpenCV实现运动模糊图像的模拟
  7. 浙江大学计算机考研学硕,真够“卷”的!浙江大学,计算机专业2021考研复试线399分?...
  8. 最大回撤率MaxDawndown算法(Python3)
  9. 大学生?!!你必须要理解的15件事!
  10. 如何规划好自己的读博生涯