一、re模块使用流程

1.方法一

r_list=re.findall('正则表达式'，html,re.s)

2.方法二(常用)

#创建正则编译对象
pattern=re.compile('正则表达式'，re.s)
re_list=pattern.findall(html)

二、正则表达表达式元字符

元字符	含义
.	任意一个字符（不包括\n）
\d	一个数字
\s	空白字符
\S	非空白字符
[]	包含[]内容
*	出现0次或多次
+	出现1次或多次

例如

写出一个匹配任意一个字符的正则表达式

import re
pattern=re.compile('.',re.s)

三、贪婪匹配和非贪婪匹配

1.贪婪匹配 : .*

在整个表达式匹配成功的情况下，尽可能多的匹配

2.非贪婪匹配： .*？

在整个表达式匹配成功的情况下，尽可能少的匹配

import rehtml='''
<html><div><p>九霄龙吟惊天变</p></div><div><p>风云际会浅水游</p></div></html>'''
#贪婪匹配
#pattern =re.compile('<div><p>.*</p></div>',re.S)
#r_list=pattern.findall(html)
#print(r_list)#非贪婪匹配
pattern = re.compile('<div><p>(.*?)</p></div>',re.S)
r_list=pattern.findall(html)
print(r_list)

四、正则表达式分组

1.在网页中，想要什么内容，·就加（）

2.先按整体正则匹配，然后再提取分组（）中的内容

如果有2个及以上分组（），则结果中以元组形式显示[(),(),()]

案例 1

从以下html代码啊结构中完成如下内容信息的提取

1、[(‘Tiger’)，'Two...'，（‘Rabbit’，‘Small...’）]

2.

动物名称：Tiger

动物描述：Two tigers two tigers run fast

动物名称：Rabbit

动物描述：Small white rabbit white and white

页面结构如下

<div class="animal"><p class="name"><a title="Tiger"></a></p><p class="content">Two tigers two tigers run fast</p>
</div><div class="animal"><p class="name"><a title="Rabbit"></a></p><p class="content">Small white rabbit white and white</p></div>

见re_groups

import re
html='''
<html>
<div class="animal"><p class="name"><a title="Tiger"></a></p><p class="content">Two tigers two tigers run fast</p>
</div><div class="animal"><p class="name"><a title="Rabbit"></a></p><p class="content">Small white rabbit white and white</p>
</div>
</html>
'''pattern=re.compile('<div class="animal">.*?title="(.*?)".*?''class="content">(.*?)</p>',re.S)
r_list=pattern.findall(html)for rt in r_list:print('动物名称',rt[0].strip())print('动物描述', rt[1].strip())

结果展示：

字符串常用方法：

strip() :去除空格

split(): 分割

replace：替换

练习

爬取猫眼电影信息：猫眼电影-榜单-top100榜

第一步

猫眼电影-第1页.html

猫眼电影-第2页.html

..........

第二步

1.提取数据：电影名称、主演、上映时间

2.先打印输出，再写入到本地

总结

请求模块（urllib.request）

request=request.Request(url，headers)

response=request.urlopen(request)

html=res.read().decode('utf-8')

编码模块（urllib.parse）

urlencode({dict})

urlencode({'wd':'美女'，‘pn’:20})

解析模块（re）

爬虫学习04-正则解析模块re相关推荐

Python爬虫学习第二章-1-requests模块简介
Python爬虫学习第二章-1-requests模块简介这一章主要是介绍requests模块的相关知识以及使用 1.requests模块简介: 概述:是python中原生的一款基于网络请求的模块 ...
数据解析学习笔记(正则解析、bs4解析、xpath解析)
聚焦爬虫:爬取页面中指定的页面内容. - 编码流程: - 指定url - 发起请求 - 获取响应数据 - 数据解析 - 持久化存储数据解析分类: 正则 bs4 xpath(***) 数据解析原理概述 ...
Python爬虫编程4——数据解析模块之bs4
目录一.bs4简介 1.基本概念 2.源码分析二.bs4的使用 1.快速开始 2.bs4的对象种类三.遍历文档树遍历子节点 1.contents children desc ...
【python爬虫学习篇】请求模块urllib3
目录 1.urllib3 1.1,发送网络请求 1.1.2,GET请求 1.1.3,POST请求 1.1.4,重试请求和处理响应内容 1.1.5,JSON信息 1.2,复杂请求的发送 1.2.1,设置 ...
利用python爬虫(part16)--json解析模块
学习笔记 json解析模块 json.loads 作用把json格式的字符串转为Python数据类型. 语法 res = requests.get(url=url, headers=headers) ...
python爬虫正则解析及xpath解析，lxml解析库
正则解析模块re re模块使用流程方法一 r_list=re.findall('正则表达式',html,re.S) 方法二 # 1.创建正则编译对象 pattern = re.compile('正则 ...
python爬虫学习笔记-网络爬虫的三种数据解析方式
爬虫的分类 1.通用爬虫:通用爬虫是搜索引擎(Baidu.Google.Yahoo等)"抓取系统"的重要组成部分.主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份 ...
Python爬虫学习第十一天---pymongo模块使用
Python爬虫学习第十一天-pymongo模块使用一.安装pymongo模块 python3 -m pip install pymongo 二.pymongo模块的使用 1.配置基础项 user ...
一木.溪桥学爬虫-04：requests模块
一木.溪桥在Logic Education跟Jerry学爬虫 07期:Python 爬虫一木.溪桥学爬虫-04:requests模块.cookie.session 日期:2021年1月31日学习 ...

爬虫学习04-正则解析模块re

一、re模块使用流程

1.方法一

2.方法二(常用)

二、正则表达表达式元字符

三、贪婪匹配和非贪婪匹配

1.贪婪匹配 : .*

2.非贪婪匹配： .*？

四、正则表达式分组

案例 1

总结

请求模块（urllib.request）

编码模块（urllib.parse）

解析模块（re）

爬虫学习04-正则解析模块re相关推荐

最新文章

热门文章