使用正则表达式爬取票房信息

还是老样子哈哈，如果对正则不是很了解的同学，在这里推荐一个学习网址：
http://www.runoob.com/python3/python3-reg-expressions.html

进入正文，这是我们要爬的网址： http://www.cbooo.cn/year?year=2008
而这个，就是我们要爬的内容了：

第一步，获取网页信息

import requests,re
headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.109 Safari/537.36'
,'Cookie':'Hm_lvt_daabace29afa1e8193c0e3000d391562=1550206631,1550381059; Hm_lpvt_daabace29afa1e8193c0e3000d391562=1550381609'}
url="http://www.cbooo.cn/year?year=2008"
req=requests.get(url,headers=headers,timeout=30)
req.encoding='utf-8'
req.text

运行结果：

根据网页的结构，我们可以通过标签来找到我们想要的内容

第二步，在使用正则之前，我们要找到我们需要的标签

在要查看的地方，右键选择检查，就可以在开发者工具里找到我们需要的标签

通过查找，我们发现 <tr> 就是我们要查找的内容

第三步，通过正则获取我们需要的信息

不知道什么是.?和(.?)是什么的同学，不要慌，我会在最后解释的。

rows=re.findall("<tr.*?>(.*?)</tr>",req.text,re.S)  #re.S:匹配换行
rows

运行结果：

第四步，过滤多余信息

for row in rows:tds=re.findall("<td.*?>(.*?)</td>",row,re.S)print(tds)

运行结果：

第五步，输出内容

由图可知，tds 是一个列表，它除了第一个元素是不规范的，其他都ok了，所以我们还要对他进行过滤，下面我就把它和输出步骤一起写出来了：

if len(tds) != 0:tds[0] = ''.join(re.findall('.*?</span>(.*?)</p>.*?',row,re.S))if tds == []:del tdselse:print(tds)

运行结果：

这样，我们爬取结果就出来了！

整合代码

PS：以上的代码知爬取了2008年的票房，在这里我加上了一个循环，爬取了2008年到2019年的票房：

import requests,re
#如果headers找不到，可以不加
headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.109 Safari/537.36'
,'Cookie':'Hm_lvt_daabace29afa1e8193c0e3000d391562=1550206631,1550381059; Hm_lpvt_daabace29afa1e8193c0e3000d391562=1550381609'}
def request(i):#发出请求url="http://www.cbooo.cn/year?year={}".format(i)req=requests.get(url,headers=headers,timeout=30)req.encoding='utf-8'#用正则找标签,r是取消转义rows=re.findall(r"<tr.*?>(.*?)</tr>",req.text,re.S)  #re.S:匹配换行#过滤多余信息并且循环输出for row in rows:tds=re.findall(r"<td.*?>(.*?)</td>",row,re.S)#对tds第一个元素进行正则匹配if len(tds) != 0:tds[0] = ''.join(re.findall(r'.*?</span>(.*?)</p>.*?',row,re.S))#删除空列表if tds == []:del tds#输出else:print(tds)print("==========================={}年爬取结束===============================".format(i))
#爬取2008年到2019年的年度票房
for i in range(2008,2020):request(i)

.*?的意思（个人理解）：模糊匹配
(.*?)的意思（个人理解）：就是我们要找的内容

#例子
import re
tds='''
<td class="td1">this is td1</td>
<td class="td2">this is td2</td>
'''
#<td.*?>是匹配所有的<td>标签
all_td=re.findall('<td.*?>(.*?)</td>',tds)
print(all_td)
#匹配td1的内容
td1=re.findall('<td class="td1">(.*?)</td>',tds)
print(td1)

运行结果：

[‘this is td1’, ‘this is td2’]
[‘this is td1’]

好啦，今天的学习笔记就到这里了，有疑惑或好的建议的小伙伴，可以给我留言哦！祝大家学业进步！

用正则表达式爬CBO年度票房相关推荐

[python] 常用正则表达式爬取网页信息及分析HTML标签总结
这篇文章主要是介绍Python爬取网页信息时,经常使用的正则表达式及方法.它是一篇总结性文章,实用性比较大,主要解决自己遇到的爬虫问题,也希望对你有所帮助~ 当然如果会Selenium基于自动化测试爬 ...
python爬虫阶段性总结和项目实操——爬取猫眼票房Top100
本博客通过爬取猫眼票房Top100来简要复习一下网页的HTML获取(requests库)解析(Beautiful Soup库)和数据保存(csv库)以及总结一下爬取过程中遇到的问题和解决方法运行结果 ...
爬虫从头学之Requests+正则表达式爬取猫眼电影top100
爬取思路当我们想要爬取一个页面的时候,我们要保证思路清晰,爬虫的思路分四个步骤,发起请求,获取响应内容,解析内容,存储内容.根据这四个内容我们的思路就很清晰.以下为具体步骤使用requests库爬 ...
python3利用正则表达式爬取内涵段子
似乎正则在爬虫中用的不是很广泛,但是也是基本功需要我们去掌握. 先将内涵段子网页爬取下来,之后利用正则进行匹配,匹配完成后将匹配的段子写入文本文档内.代码如下: # -*- coding:utf-8 ...
利用正则表达式爬取网络小说，并按照章节下载到本地
利用正则表达式爬取网络小说,并按照章节下载到本地闲来无事,尝试了使用正则表达式爬取了某个明显没有反扒机制的小说网站,其实也是刚刚接触爬虫,第一次从网络上爬到感兴趣的东西还是令人开心的. 先贴为敬. ...
python爬取猫眼_python正则表达式爬取猫眼电影top100
用正则表达式爬取猫眼电影top100,具体内容如下 #!/usr/bin/python # -*- coding: utf-8 -*- import json # 快速导入此模块:鼠标先点到要导入的函 ...
Python实战---使用正则表达式爬取古诗文网
使用正则表达式爬取古诗文网爬取目标具体字段为: title 标题 dynasty 朝代 author 作者 content 内容 tag 标签实现代码 ''' @Description: 使用正 ...
Python爬虫——使用正则表达式爬取一本喜欢的小说
使用正则表达式爬取一本喜欢的小说这个爬虫的案例是对正则表达式的运用,通过这个案例,我们可以对正则表达式有更深入的了解. 1. 信息来源: 努努书坊.爬取的小说:三国演义.链接为:https://ww ...
python+正则表达式爬取京东商品数据信息
爬取数据的方式有很多种,正则表达式,scrapy,从接口中爬取动态网页的数据-今天我们讲的是用正则表达式来爬取京东一个大米商品的具体信息. 正则表达式的优点:可以精准的爬取我们想要的数据信息缺点:爬 ...
使用Requests+正则表达式爬取中国工作网招聘信息，并保存为JSON格式
文章目录一.准备 1.数据 2.数据字段二.数据爬取 1.设置预设 2.观察网页源码(部分) 3.制定正则规则三.数据存取存为JSON文件将多个字段列表进行打包,并放入一个list中四.完 ...

用正则表达式爬CBO年度票房

使用正则表达式爬取票房信息

第一步，获取网页信息

第二步，在使用正则之前，我们要找到我们需要的标签

第三步，通过正则获取我们需要的信息

第四步，过滤多余信息

第五步，输出内容

整合代码

用正则表达式爬CBO年度票房相关推荐

最新文章

热门文章