python爬取豆瓣TOP250
豆瓣用户每天都在对“看过”的电影进行“很差”到“力荐”的评价,豆瓣根据每部影片看过的人数以及该影片所得的评价等综合数据,通过算法分析产生豆瓣电影 Top 250。
首先 我们进入到豆瓣top250这个界面,首先,我们先确认要爬取的内容是不是在页面源代码中,如果在源代码中,我们直接解析html即可,如果不在,我们需要调试找到请求。
右键查看源代码,发现所看到的内容直接就在源代码中,直接请求即可。
代码如下:
import re
import requests
import csvf = open("result.csv", mode="a+", newline='')
csvwriter = csv.writer(f)#因为每一页只有25个影片 通过更改请求url的内容来依次请求250个影片
for i in range (0, 10):url = 'https://movie.douban.com/top250?start={}'.format(i*25)_headers = {"User-Agent" : "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36"}ret = requests.get(url, headers = _headers)page_content = ret.text# 解析数据obj = re.compile(r'<li>.*?<div class="item">.*?<span class="title">(?P<name>.*?)</span>'r'.*?<p class="">.*?<br>(?P<year>.*?) 'r'.*?<span class="rating_num" property="v:average">(?P<score>.*?)</span>'r'.*?<span>(?P<number>.*?)人评价</span>', re.S)#开始匹配ret = obj.finditer(page_content)for it in ret:dic = it.groupdict()dic['year'] = dic['year'].strip()csvwriter.writerow(dic.values())
f.close()
print('Over')
最后读取了影片名 上映日期 评分 参与评分人数,并写入csv文件中。效果如下:
python爬取豆瓣TOP250相关推荐
- Python爬取豆瓣Top250电影中2000年后上映的影片信息
Python爬取豆瓣Top250电影中2000年后上映的影片信息 前言 双十一前加在京东购物车的一个东西,价格330,Plus会员用券后差不多310.双十一当天打开看了下399,还得去抢满300减10 ...
- Python爬取豆瓣Top250电影可见资料并保存为excel形式
Python爬取豆瓣Top250电影可见资料并保存为excel形式 利用requests第三方库实现网页的元素爬取,再使用openpyxl库进行信息的录入. 具体思路 1.分析网页的headers. ...
- python爬取豆瓣TOP250生成Excel表格例子最新
一 确定爬取网站 因为初学,所以按照网上的教程爬取豆瓣TOP250的网站.网址: https://movie.douban.com/top250 二 编写爬虫程序 详细过程就不再一 一讲解,可以看代码 ...
- python爬取豆瓣top250信息并存入数据库中 | sqlite3
文章目录 代码: 遇到的问题: 1.关于数据库表格中出现:NBSP 2. 为什么HTML字段中会出现&NBSP? 3.java.io.IOException: 不能删除数据库文件 4. 关于d ...
- Python爬取豆瓣Top250电影排名
# -*- codeing = utf-8 -*- # @Time: 2021/12/27 14:30 # @Author: 买欣怡 # @File: 7. spider-豆瓣.py # @Softw ...
- Python爬取豆瓣Top250的电影
流程图如下: 爬取网页-解析网页-存储数据到Excel和数据库中 源代码如下: 如果被豆瓣封Ip(一般被封第二天就解封了),可以自己设置代理Ip,或者自己登录账号后将Cookie放到header中. ...
- python爬取豆瓣TOP250电影
按照小甲鱼的爬虫教程,再自己修改了一部分. 废话不多说,直接贴代码 import requests from bs4 import BeautifulSoup import redef open_ur ...
- [python爬虫] BeautifulSoup和Selenium对比爬取豆瓣Top250电影信息
这篇文章主要对比BeautifulSoup和Selenium爬取豆瓣Top250电影信息,两种方法从本质上都是一样的,都是通过分析网页的DOM树结构进行元素定位,再定向爬取具体的电影信息,通过代码的对 ...
- 利用python爬取豆瓣电影top250
利用python爬取豆瓣电影top250: 注:本内容只是作为个人学习记录 1.业务分析 进入网页https://movie.douban.com/top250 可以看见每部电影都呈现在眼前,点击电影 ...
- Python爬取豆瓣电影top250的电影信息
Python爬取豆瓣电影top250的电影信息 前言 一.简介 二.实例源码展示 小结 前言 相信很多小伙伴在学习网络爬虫时,老师们会举一些实例案例讲解爬虫知识,本文介绍的就是经典爬虫实际案例–爬取豆 ...
最新文章
- 4.6、Libgdx线程介绍
- 【HTML5】标记文字
- PowerCLI脚本,利用哈希表对参数进行转换
- 大牛深入浅出讲解c语言do{...}while(0)功能及用法
- Java 时间处理 Instant
- 管理数据库计算机网络,计算机网络与数据库管理系统.pdf
- 集中云数据加密能否填补安全漏洞?
- 谷歌chrome xp_什么是Google Chrome?
- 卡特兰数 Catalan number
- android8.0的电池图标,Android 8.0 电池图标 显示分析
- android edittext怎样获取输入的内容,如何获取edittext中输入的内容?
- 操作系统内核框架图整理
- Win10安装打印机驱动搜索不到打印机
- 【笔记】nginx - 上:安装、配置(基础、rewrite 重写、proxy_pass 代理、ssl)
- [爬虫]字节跳动招聘爬取实战-csrf校验
- visual studio2019 切换英文语言版本
- 如何学好GIS,彻底领悟这几句话就够了!!!
- jnz和djnz_djnz指令的应用方法
- PHP能获取word页数吗,PHP MS Word文件页数
- Elasticsearch 的前世今生
热门文章
- 无线桥接与中继的区别
- vnc远程控制软件7款,7款非常好用的vnc远程控制软件
- word画图关闭自动捕捉功能
- oracle共享池使用率,oracle调优之--共享池使用问题(摘自文平书)
- redis 中pipline,mset, mget使用对比
- 02-若依权限管理子系统简介(自己了解)
- Photoshop教程_PS渐变工具找不到,怎样导入ps渐变样式?ps渐变使用教程
- part-17 从开环增益曲线谈到运放稳定性
- 将算术表达式转换成四元式的程序实现
- Elasticsearch开发进阶指南——如何选择合适的ES版本