豆瓣用户每天都在对“看过”的电影进行“很差”到“力荐”的评价,豆瓣根据每部影片看过的人数以及该影片所得的评价等综合数据,通过算法分析产生豆瓣电影 Top 250。
首先 我们进入到豆瓣top250这个界面,首先,我们先确认要爬取的内容是不是在页面源代码中,如果在源代码中,我们直接解析html即可,如果不在,我们需要调试找到请求。
右键查看源代码,发现所看到的内容直接就在源代码中,直接请求即可。


代码如下:

import re
import requests
import csvf = open("result.csv", mode="a+", newline='')
csvwriter = csv.writer(f)#因为每一页只有25个影片 通过更改请求url的内容来依次请求250个影片
for i in range (0, 10):url = 'https://movie.douban.com/top250?start={}'.format(i*25)_headers = {"User-Agent" : "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36"}ret = requests.get(url, headers = _headers)page_content = ret.text# 解析数据obj = re.compile(r'<li>.*?<div class="item">.*?<span class="title">(?P<name>.*?)</span>'r'.*?<p class="">.*?<br>(?P<year>.*?)&nbsp'r'.*?<span class="rating_num" property="v:average">(?P<score>.*?)</span>'r'.*?<span>(?P<number>.*?)人评价</span>', re.S)#开始匹配ret = obj.finditer(page_content)for it in ret:dic = it.groupdict()dic['year'] = dic['year'].strip()csvwriter.writerow(dic.values())
f.close()
print('Over')

最后读取了影片名 上映日期 评分 参与评分人数,并写入csv文件中。效果如下:

python爬取豆瓣TOP250相关推荐

  1. Python爬取豆瓣Top250电影中2000年后上映的影片信息

    Python爬取豆瓣Top250电影中2000年后上映的影片信息 前言 双十一前加在京东购物车的一个东西,价格330,Plus会员用券后差不多310.双十一当天打开看了下399,还得去抢满300减10 ...

  2. Python爬取豆瓣Top250电影可见资料并保存为excel形式

    Python爬取豆瓣Top250电影可见资料并保存为excel形式 利用requests第三方库实现网页的元素爬取,再使用openpyxl库进行信息的录入. 具体思路 1.分析网页的headers. ...

  3. python爬取豆瓣TOP250生成Excel表格例子最新

    一 确定爬取网站 因为初学,所以按照网上的教程爬取豆瓣TOP250的网站.网址: https://movie.douban.com/top250 二 编写爬虫程序 详细过程就不再一 一讲解,可以看代码 ...

  4. python爬取豆瓣top250信息并存入数据库中 | sqlite3

    文章目录 代码: 遇到的问题: 1.关于数据库表格中出现:NBSP 2. 为什么HTML字段中会出现&NBSP? 3.java.io.IOException: 不能删除数据库文件 4. 关于d ...

  5. Python爬取豆瓣Top250电影排名

    # -*- codeing = utf-8 -*- # @Time: 2021/12/27 14:30 # @Author: 买欣怡 # @File: 7. spider-豆瓣.py # @Softw ...

  6. Python爬取豆瓣Top250的电影

    流程图如下: 爬取网页-解析网页-存储数据到Excel和数据库中 源代码如下: 如果被豆瓣封Ip(一般被封第二天就解封了),可以自己设置代理Ip,或者自己登录账号后将Cookie放到header中. ...

  7. python爬取豆瓣TOP250电影

    按照小甲鱼的爬虫教程,再自己修改了一部分. 废话不多说,直接贴代码 import requests from bs4 import BeautifulSoup import redef open_ur ...

  8. [python爬虫] BeautifulSoup和Selenium对比爬取豆瓣Top250电影信息

    这篇文章主要对比BeautifulSoup和Selenium爬取豆瓣Top250电影信息,两种方法从本质上都是一样的,都是通过分析网页的DOM树结构进行元素定位,再定向爬取具体的电影信息,通过代码的对 ...

  9. 利用python爬取豆瓣电影top250

    利用python爬取豆瓣电影top250: 注:本内容只是作为个人学习记录 1.业务分析 进入网页https://movie.douban.com/top250 可以看见每部电影都呈现在眼前,点击电影 ...

  10. Python爬取豆瓣电影top250的电影信息

    Python爬取豆瓣电影top250的电影信息 前言 一.简介 二.实例源码展示 小结 前言 相信很多小伙伴在学习网络爬虫时,老师们会举一些实例案例讲解爬虫知识,本文介绍的就是经典爬虫实际案例–爬取豆 ...

最新文章

  1. 4.6、Libgdx线程介绍
  2. 【HTML5】标记文字
  3. PowerCLI脚本,利用哈希表对参数进行转换
  4. 大牛深入浅出讲解c语言do{...}while(0)功能及用法
  5. Java 时间处理 Instant
  6. 管理数据库计算机网络,计算机网络与数据库管理系统.pdf
  7. 集中云数据加密能否填补安全漏洞?
  8. 谷歌chrome xp_什么是Google Chrome?
  9. 卡特兰数 Catalan number
  10. android8.0的电池图标,Android 8.0 电池图标 显示分析
  11. android edittext怎样获取输入的内容,如何获取edittext中输入的内容?
  12. 操作系统内核框架图整理
  13. Win10安装打印机驱动搜索不到打印机
  14. 【笔记】nginx - 上:安装、配置(基础、rewrite 重写、proxy_pass 代理、ssl)
  15. [爬虫]字节跳动招聘爬取实战-csrf校验
  16. visual studio2019 切换英文语言版本
  17. 如何学好GIS,彻底领悟这几句话就够了!!!
  18. jnz和djnz_djnz指令的应用方法
  19. PHP能获取word页数吗,PHP MS Word文件页数
  20. Elasticsearch 的前世今生

热门文章

  1. 无线桥接与中继的区别
  2. vnc远程控制软件7款,7款非常好用的vnc远程控制软件
  3. word画图关闭自动捕捉功能
  4. oracle共享池使用率,oracle调优之--共享池使用问题(摘自文平书)
  5. redis 中pipline,mset, mget使用对比
  6. 02-若依权限管理子系统简介(自己了解)
  7. Photoshop教程_PS渐变工具找不到,怎样导入ps渐变样式?ps渐变使用教程
  8. part-17 从开环增益曲线谈到运放稳定性
  9. 将算术表达式转换成四元式的程序实现
  10. Elasticsearch开发进阶指南——如何选择合适的ES版本