python爬取豆瓣TOP250

豆瓣用户每天都在对“看过”的电影进行“很差”到“力荐”的评价，豆瓣根据每部影片看过的人数以及该影片所得的评价等综合数据，通过算法分析产生豆瓣电影 Top 250。
首先我们进入到豆瓣top250这个界面，首先，我们先确认要爬取的内容是不是在页面源代码中，如果在源代码中，我们直接解析html即可，如果不在，我们需要调试找到请求。
右键查看源代码，发现所看到的内容直接就在源代码中，直接请求即可。

代码如下：

import re
import requests
import csvf = open("result.csv", mode="a+", newline='')
csvwriter = csv.writer(f)#因为每一页只有25个影片 通过更改请求url的内容来依次请求250个影片
for i in range (0, 10):url = 'https://movie.douban.com/top250?start={}'.format(i*25)_headers = {"User-Agent" : "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36"}ret = requests.get(url, headers = _headers)page_content = ret.text# 解析数据obj = re.compile(r'<li>.*?<div class="item">.*?<span class="title">(?P<name>.*?)</span>'r'.*?<p class="">.*?<br>(?P<year>.*?)&nbsp'r'.*?<span class="rating_num" property="v:average">(?P<score>.*?)</span>'r'.*?<span>(?P<number>.*?)人评价</span>', re.S)#开始匹配ret = obj.finditer(page_content)for it in ret:dic = it.groupdict()dic['year'] = dic['year'].strip()csvwriter.writerow(dic.values())
f.close()
print('Over')

最后读取了影片名上映日期评分参与评分人数，并写入csv文件中。效果如下：

python爬取豆瓣TOP250相关推荐

Python爬取豆瓣Top250电影中2000年后上映的影片信息
Python爬取豆瓣Top250电影中2000年后上映的影片信息前言双十一前加在京东购物车的一个东西,价格330,Plus会员用券后差不多310.双十一当天打开看了下399,还得去抢满300减10 ...
Python爬取豆瓣Top250电影可见资料并保存为excel形式
Python爬取豆瓣Top250电影可见资料并保存为excel形式利用requests第三方库实现网页的元素爬取,再使用openpyxl库进行信息的录入. 具体思路 1.分析网页的headers. ...
python爬取豆瓣TOP250生成Excel表格例子最新
一确定爬取网站因为初学,所以按照网上的教程爬取豆瓣TOP250的网站.网址: https://movie.douban.com/top250 二编写爬虫程序详细过程就不再一一讲解,可以看代码 ...
python爬取豆瓣top250信息并存入数据库中 | sqlite3
文章目录代码: 遇到的问题: 1.关于数据库表格中出现:NBSP 2. 为什么HTML字段中会出现&NBSP? 3.java.io.IOException: 不能删除数据库文件 4. 关于d ...
Python爬取豆瓣Top250电影排名
# -*- codeing = utf-8 -*- # @Time: 2021/12/27 14:30 # @Author: 买欣怡 # @File: 7. spider-豆瓣.py # @Softw ...
Python爬取豆瓣Top250的电影
流程图如下: 爬取网页-解析网页-存储数据到Excel和数据库中源代码如下: 如果被豆瓣封Ip(一般被封第二天就解封了),可以自己设置代理Ip,或者自己登录账号后将Cookie放到header中. ...
python爬取豆瓣TOP250电影
按照小甲鱼的爬虫教程,再自己修改了一部分. 废话不多说,直接贴代码 import requests from bs4 import BeautifulSoup import redef open_ur ...
[python爬虫] BeautifulSoup和Selenium对比爬取豆瓣Top250电影信息
这篇文章主要对比BeautifulSoup和Selenium爬取豆瓣Top250电影信息,两种方法从本质上都是一样的,都是通过分析网页的DOM树结构进行元素定位,再定向爬取具体的电影信息,通过代码的对 ...
利用python爬取豆瓣电影top250
利用python爬取豆瓣电影top250: 注:本内容只是作为个人学习记录 1.业务分析进入网页https://movie.douban.com/top250 可以看见每部电影都呈现在眼前,点击电影 ...
Python爬取豆瓣电影top250的电影信息
Python爬取豆瓣电影top250的电影信息前言一.简介二.实例源码展示小结前言相信很多小伙伴在学习网络爬虫时,老师们会举一些实例案例讲解爬虫知识,本文介绍的就是经典爬虫实际案例–爬取豆 ...

python爬取豆瓣TOP250

python爬取豆瓣TOP250相关推荐

最新文章

热门文章