1.添加请求头，防止被拦截

dic = {"User-Agent" : "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.106 Safari/537.36"
}

2.预编译正则表达式，用于过滤无用信息

# cinema_name：电影名；Release_date：上映日期；
# grade：评分 ；Evaluation_number：评价人数；筛选出如下四个数据；
obj = re.compile(r'<li>.*?<div class="item">.*?<span class="title">(?P<cinema_name>.*?)'r'</span>.*?<p class="">.*?<br>(?P<Release_date>.*?)&nbsp.*?'r'<span class="rating_num" property="v:average">(?P<grade>.*?)</span>.*?'r'<span>(?P<Evaluation_number>.*?)</span>', re.S)

3.获取网页内容

250条数据一共有十页，所以需要获取十页网页的内容

# 获取当前页数为page的网页对象并返回，这个对象包含了该网页的所有数据
def get_web_content(page):url = 'https://movie.douban.com/top250?start=%d&filter='%(page)web_content = requests.get(url, headers=dic)return web_content# 合并十页的内容
web_content_all = get_web_content(0).text
for i in range(1,10):web_content_all = web_content_all + get_web_content(i*25).text

4.对获取的内容进行过滤

select_information = obj.finditer(web_content_all)

5.保存数据

# 新建一个csv文件用于保存数据
# newline="":csv文件去掉多余换行
Data_file = open("data.csv", mode="w", newline="")
csv_writer = csv.writer(Data_file)# 将抓取的信息转换为字典存储并且写入csv文件
for i in select_information:dic = i.groupdict()dic['Release_date'] = dic['Release_date'].strip()csv_writer.writerow(dic.values())Data_file.close()
print("over!")

6.完整代码

import requests
import re
import csv# 添加请求头，防止被拦截
dic = {"User-Agent" : "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.106 Safari/537.36"
}# 获取当前页数为page的网页对象并返回，这个对象包含了该网页的所有数据
def get_web_content(page):url = 'https://movie.douban.com/top250?start=%d&filter='%(page)web_content = requests.get(url, headers=dic)return web_content# compile:预编译正则表达式，可以重复使用
obj = re.compile(r'<li>.*?<div class="item">.*?<span class="title">(?P<cinema_name>.*?)'r'</span>.*?<p class="">.*?<br>(?P<Release_date>.*?)&nbsp.*?'r'<span class="rating_num" property="v:average">(?P<grade>.*?)</span>.*?'r'<span>(?P<Evaluation_number>.*?)</span>', re.S)# 获取10页共250数据网页内容text
web_content_all = get_web_content(0).text
for i in range(1,10):web_content_all = web_content_all + get_web_content(i*25).text# 开始匹配
select_information = obj.finditer(web_content_all)# 新建一个csv文件用于保存数据
# newline="":csv文件去掉多余换行
Data_file = open("data.csv", mode="w", newline="")
csv_writer = csv.writer(Data_file)# 将抓取的信息转换为字典存储并且写入csv文件
for i in select_information:dic = i.groupdict()dic['Release_date'] = dic['Release_date'].strip()csv_writer.writerow(dic.values())Data_file.close()
print("over!")

偷偷地问一下，写这种博客违规嘛？

python正则获取豆瓣排行250相关推荐

python爬虫获取豆瓣图书Top250
在上一篇博客<python爬虫获取豆瓣电影TOP250>中,小菌为大家带来了如何将豆瓣电影Top250的数据存入MySQL数据库的方法.这次的分享,小菌决定再带着大家去研究如何爬取豆瓣图片 ...
Python:实现获取 imdb 前 250 部电影算法(附完整源码)
Python:实现获取 imdb 前 250 部电影算法 from __future__ import annotationsimport csvimport requests from bs4 im ...
使用Python爬虫获取豆瓣影评，并用词云显示
使用Python爬虫获取豆瓣影评,并用词云显示 Python语言流行到现在,目前最受开发者喜爱的功能莫过于它的爬虫功能,以至于很多人以为Python的英语发音也是"爬虫",其实它是 ...
利用python爬虫获取豆瓣读书数据建立书单
0. 写在前面网络爬虫: A Web crawler, sometimes called a spider, is an Internet bot that systematically brows ...
python爬虫获取豆瓣TOP25电影名称和评分
import requests import lxml.html myheaders = {"User-Agent": "Mozilla/5.0 (Windows NT ...
Python爬虫获取豆瓣电影TOP250
最近在学python,研究了下,写了两个爬虫成功爬取了一些东西.有一个很黄很暴力,就不放出来了,还有一个比较绿色,简单,适合初学者学习,思路也比较清晰,也方便我以后再捡起来,注释写的很清楚,特把源码放 ...
python大规模获取豆瓣影评_python爬取豆瓣电影排行榜(requests)
''' 爬取豆瓣电影排行榜设计思路: 1.先获取电影类型的名字以及特有的编号 2.将编号向ajax发送get请求获取想要的数据 3.将数据存放进excel表格中 ''' 环境部署: 软件安装: 模块 ...
豆瓣排行250电影数据爬取
# 查看当前挂载的数据集目录, 该目录下的变更重启环境后会自动还原 # View dataset directory. This directory will be recovered automat ...
python 爬取豆瓣电影250
目录准备网址 1.准备: 打开浏览器找到请求头 2 网址: https://movie.douban.com/top250?start= 代码: # -*- codeing = utf-8 -*- ...

python正则获取豆瓣排行250

1.添加请求头，防止被拦截

2.预编译正则表达式，用于过滤无用信息

3.获取网页内容

4.对获取的内容进行过滤

5.保存数据

6.完整代码

偷偷地问一下，写这种博客违规嘛？

python正则获取豆瓣排行250相关推荐

最新文章

热门文章