测试代码1:
main5.py

# -*- coding: utf-8 -*-
import reif __name__ == '__main__':# findall匹配字符串中所有的符合正则的内容lst = re.findall(r"\d+", "濮阳电话区号:0393,郑州电话区号:0371")print(lst)# 【推荐】finditer匹配字符串中所有的内容[返回的是迭代器],从迭代器中拿到内容需要.group()it = re.finditer(r"\d+", "濮阳电话区号:0393,郑州电话区号:0371")for i in it:print(i.group())# search,找到一个结果就返回,返回的结果是match对象,拿到数据需要.group()s = re.search(r"\d+", "濮阳电话区号:0393,郑州电话区号:0371")print(s.group())# match,从头开始匹配s = re.match(r"\d+", "0393,郑州电话区号:0371")print(s.group())# 【推荐】finditer匹配字符串中所有的内容[返回的是迭代器],从迭代器中拿到内容需要.group()# 预加载正则表达式obj = re.compile(r"\d+")it = obj.finditer("濮阳电话区号:0393,郑州电话区号:0371")for i in it:print(i.group())

测试代码2:python爬虫很常用的从网页提取数据例子
main6.py

# -*- coding: utf-8 -*-
import reif __name__ == '__main__':s = """<div class= 'tom'><span id= '1'>汤姆</span></div><div class= 'kali'><span id= '2'>凯丽</span></div><div class= 'lnr'><span id= '3'>罗恩</span></div>"""# 【推荐】finditer匹配字符串中所有的内容[返回的是迭代器],从迭代器中拿到内容需要.group()# 预加载正则表达式,(?P<分组名称>正则表达式)可以单独从正则匹配的内容中进一步提取内容,标志处添加re.S是让.匹配换行符,即匹配任意字符。obj = re.compile(r"<div class= '(?P<class>.*?)'><span id= '(?P<id>\d)'>(?P<name>.*?)</span></div>", re.S)result = obj.finditer(s)for i in result:print(i.group("class")+"    "+i.group("id")+"    "+i.group("name"))

效果:

tom    1    汤姆
kali    2    凯丽
lnr    3    罗恩

关注公众号,获取更多资料

python爬虫 正则表达式 re.finditer 元字符 贪婪匹配 惰性匹配相关推荐

  1. python爬虫正则表达式实例-python爬虫 正则表达式解析

    这篇文章主要介绍了python爬虫 正则表达式解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 - re.I # 忽略大小写 - re.M # 多 ...

  2. python爬虫 -- 正则表达式 与 Re模块的介绍

    Regular Expression,正则表达式,一种使用表达式的方式对字符串进行匹配的语法规则. 爬虫中我们抓取到的网页源代码本质上就是一个超长的字符串,想从里面提取内容.用正则再合适不过了. 正则 ...

  3. python爬虫正则表达式实例-python爬虫学习三:python正则表达式

    python爬虫学习三:python正则表达式 1.正则表达式基础 a.正则表达式的大致匹配过程: 1.依次拿出表达式和文本中的字符比较 2.如果每一个字符都能匹配,则匹配成功:一旦有匹配不成功的字符 ...

  4. python爬虫——正则表达式

    一.匹配模式和描述. 模式 描述 \w 匹配字母数字及下划线 \W 匹配非字母数字下划线 \s 匹配任意空白字符,等价于[\t\n\r\f] \S 匹配任意非空字符 \d 匹配任意数字,等价于[0-9 ...

  5. Python爬虫——正则表达式(超详细,附带实战演练)

    目录 前言 正则表达式 re库--常用方法 查找一个匹配项 查找多个匹配项 分割 替换 正则表达式对象 re库--修饰符 小技巧 匹配目标 贪婪与非贪婪匹配 实战演练 页面分析 抓取页面源代码 正则提 ...

  6. python爬虫正则表达式实例-使用正则表达式进行页面提取

    使用正则表达式进行页面提取 上节课我们学习了如何使用 BeautifulSoup 来解析页面,这节课我们来学习下如何使用正则来解析页面. 正则表达式的基本概念 正则表达式基本语法 正则表达式常用函数 ...

  7. python爬虫正则表达式匹配为空的问题

    在用正则表达式匹配网址信息的时候,经常会匹配到空的列表.这个问题确实很烦,我当初也在这个地方卡了好长时间,所以就打算写一个博客来好好整理一下正则表达式匹配为空的一些状况. 一:选取正则表达式的方式不对 ...

  8. python爬虫--正则表达式与Cookie的使用

    正则表达式与Cookie的使用 正则表达式:描述字符串排列的一套规则 原子 1.普通字符作为原子 2.非打印字符作为原子 3.通用字符作为原子 原子表 []:原子表(正则表达式:[xyz]py;源字符 ...

  9. Python爬虫——正则表达式基础

    介绍 正则表达式是处理字符串的一种很强大的工具,我们可以利用正则表达式自由地处理字符串.作为处理字符串的强大工具,正则表达式在处理爬虫的请求内容方面,有着巨大的作用.下面就从 Python 的五个函数 ...

最新文章

  1. SSD(Single shot multibox detector)目标检测模型架构和设计细节分析
  2. 48个Python练手项目(附详细教程)
  3. 仿中国比特币首页趋势图,折线图,k线图
  4. re2c php,PHP的词法解析器:re2c
  5. Ruby on Rails: 使用devise+cancan+rolify建立完整的权限管理系
  6. 技术玩法大升级,网易MCtalk揭秘5G即时通讯技术背后的秘密
  7. ubuntu16.04 远程控制win10
  8. Django(模板语言-自定义filter和simple_tag)
  9. Gradle 使用技巧(二) - SO/NDK过滤
  10. axure9数据统计插件_WMDA:大数据技术栈的综合实践
  11. FFMPEG geq与比较函数
  12. oracle r12成本操作,ORACLE-EBS-R12成本模块讲义.ppt
  13. 邮箱被国际反垃圾邮件组织拉黑的解决方法
  14. Testbench的激励添加和书写技巧
  15. 小学计算机小知识,小学生电脑基础知识
  16. 微信第三方开平台代公众号发起网页授权 获取用户信息 openid,uninoid
  17. VMware 安装ghost win7 gho
  18. LEAM(生活/生命体验算法模型)
  19. 申宝策略-船舶军工表现靓丽
  20. 好事成双--庆祝牛郎织女一年一次的见面

热门文章

  1. Android 物联网 传感器
  2. 新北洋,知识型员工的科学管理
  3. 神经网络的基本工作原理
  4. kafka清理数据日志
  5. Linux高并发应用类型对系统内核的优化
  6. android 快传 源码_最新安卓仿茄子快传APP源码包括服务端源码Android开发快传类项目源码全套...
  7. logisim优先编码器怎么用_编码器简介、应用的stm32代码及注释
  8. 企业网站 源码 服务邮箱:_后来才知道:温州腾讯企业邮箱定制服务
  9. 在java中5 % 3_Java基础5
  10. datatable中某一列最小值_Asp.net中获取DataTable选择第一行某一列值