Request模块实战04 ---- 爬取豆瓣电影排行榜


需求:爬取豆瓣指定的电影类型排行榜


本案例主要通过查看豆瓣网站推荐电影,通过python爬取指定类型电影排行榜上的电影信息。


需求分析:

通过对网页的分析,当我们对页面进行滚动的时候,对应的电影信息会按照评分不断的刷新出来,类似于之前的破解百度翻译,我们会发现都有局部刷新的概念,也就是ajax的应用。

爬取豆瓣电影排行信息ajax请求局部刷新

通过开发者模式,我们可以发现确实在每次滚动刷新获取电影信息的时候,都会发动一个ajax请求包,配上特定的参数,即可获取。并且同时信息也是以json的形式传输。


代码实现:

# -*- coding: utf-8
#  @Time    : 2020/12/13 22:37
#  @Author  : ZYX
#  @File    : request实战之豆瓣电影分类排行榜.py
# @software: PyCharm
import requests
import jsonif __name__ == '__main__':# UA伪装headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3776.400 QQBrowser/10.6.4212.400'}# 指定urlurl = 'https://movie.douban.com/j/chart/top_list?'# 设定处理参数param = {'type': '17','interval_id': '100:90','action': '','start': '0',    # 从数据库中取电影的起点'limit': '20',    # 一次请求取出的限制数}# 发送请求response = requests.get(url=url,params=param,headers=headers)# 获取响应数据list_data = response.json()# 结果持久化filePath = "./data/douBan.json"with open(filePath,'w',encoding="utf-8") as fp:json.dump(list_data,fp=fp,ensure_ascii=False)print("douBan.json保存成功,爬取过程已完成!!!")

结果展示:



分析:

  • url参数处理

    对于这里的参数我们是写死的,可以通过传入实参的形式实现动态指定电影类型爬取。优化代码如下:
# 设定处理参数type = input("请输入电影类型号:")start = input("请输入爬取的电影开始:")limit = input("请输入爬取的电影信息数量:")param = {'type': type,     # 电影类型'interval_id': '100:90','action': '','start': start,     # 从数据库中取电影的起点'limit': limit,    # 一次请求取出的限制数}# 发送请求response = requests.get(url=url,params=param,headers=headers)

在这里我们设置参数为传入实参的形式,类型号13(爱情),开始爬取的电影编号为2,信息数目为2,也就是爬取两条电影信息。通过对爬取后的文件分析可以得出start参数的值是从0开始的,类似数组下标(索引)




Request模块实战04 ---- 爬取豆瓣电影排行榜相关推荐

  1. python大规模获取豆瓣影评_python爬取豆瓣电影排行榜(requests)

    ''' 爬取豆瓣电影排行榜 设计思路: 1.先获取电影类型的名字以及特有的编号 2.将编号向ajax发送get请求获取想要的数据 3.将数据存放进excel表格中 ''' 环境部署: 软件安装: 模块 ...

  2. [爬虫] 爬取豆瓣电影排行榜

    申明:本文对爬取的数据仅做学习使用,不涉及任何商业活动,侵删 爬取豆瓣电影排行榜 这是一个Scrapy框架入门级的项目, 它可以帮助我们基本了解Scrapy的操作流程和运行原理 这次我们要做例子的网站 ...

  3. 爬取豆瓣电影排行榜,并制作柱状图与3d柱状图

    **爬取豆瓣电影排行榜,并简单制作柱状图 一.首先,我们需要获取页面的信息,下图是从排行第25到50的电影,由此可见start可以想象为偏移量,我们把start的值换为0,得到了第一到25排名的电影, ...

  4. python爬虫爬取豆瓣电影排行榜并通过pandas保存到Excel文件当中

    我们的需求是利用python爬虫爬取豆瓣电影排行榜数据,并将数据通过pandas保存到Excel文件当中(步骤详细) 我们用到的第三方库如下所示: import requests import pan ...

  5. python用bs4爬取豆瓣电影排行榜 Top 250的电影信息和电影图片,分别保存到csv文件和文件夹中

    python用bs4爬取豆瓣电影排行榜 Top 250的电影信息和图片,分别保存到csv文件和文件夹中. 爬取的数据包括每个电影的电影名 , 导演 ,演员 ,评分,推荐语,年份,国家,类型. py如果 ...

  6. Requests库实战(三)---爬取豆瓣电影详细信息

    完整代码 爬取豆瓣电影的详细信息 地址:豆瓣电影动画 向下滑动时新增的数据也是Ajax请求,原理和上一个项目是一样的.唯一的不同是此处请求url携带了多个参数 import requests impo ...

  7. Python爬虫实战 | (3) 爬取豆瓣电影Top250

    在本篇博客中,我们将使用requests+正则表达式来爬取豆瓣电影TOP250电影榜单,获取每部电影的序号.片名.导演.编剧.主演.类型.制作国家/地区.语言.上映日期.片长.又名.豆瓣评分和剧情简介 ...

  8. Scrapy框架学习 - 爬取豆瓣电影排行榜TOP250所有电影信息并保存到MongoDB数据库中

    概述 利用Scrapy爬取豆瓣电影Top250排行榜电影信息,并保存到MongoDB数据库中 使用pymongo库操作MOngodb数据库 没有进行数据清洗 源码 items.py class Dou ...

  9. 爬取豆瓣电影排行榜top250

    爬取豆瓣电影top250 平时不知道看什么电影,正好最近学习了爬虫,自己试着把电影排行下载下来,边看边学两不误. 下面直接上代码: import requests from bs4 import Be ...

  10. 爬虫实战:爬取豆瓣电影 Top-250 到 Excel 表格中

    最近在家无聊自学了python的一些基础知识.后来看到许多朋友都在写爬虫,自己感觉很有意思,也想试一下 >____< 其实本来我是想将数据爬取到excel之后再增加一些数据库操作,然后用f ...

最新文章

  1. unittest 框架学习
  2. Nature Genetics:每年造成7亿人感染的酿脓链球菌的致病机制
  3. sqlite 实例教程 IOS下用sqlite打造词典
  4. [SOJ] 简单哈希
  5. leetcode -day19 Convert Sorted List to Binary Search Tree
  6. mysql ptquerydigest_MySQL - pt-query-digest的下载与使用
  7. 201712-2放学
  8. JS内置方法(Array)
  9. node python 后台启动_NodeJS后台
  10. javascript实例自学手册光盘源码_零基础,自学编程,如何选择语言?
  11. Docker系列教程15-Docker容器网络
  12. MySQL生成随机姓名
  13. ccf csp认证试题
  14. java调用js tel,jQuery国际电话区号选择插件intlTelInput.js
  15. 中国大学慕课python答案 北京理工大学_中国大学慕课mooc_Python 语言程序设计_章节测验答案...
  16. 无限制翻译PDF文件——低调使用
  17. python3将文本内容生成词云
  18. 钢铁侠--男人要对自己狠一点~~
  19. 【NRF51822】百度手环开源源码分析--数据自动同步部分
  20. 符号主义与机器学习的认知问题

热门文章

  1. PS合成下雨天蹲在路灯下的天使男人清(15)
  2. Windows 10, version 22H2 (released Oct 2022) 简体中文版、英文版下载
  3. mongodb——mongo笔记*
  4. Alien Skin Exposure新版X8功能介绍
  5. C# winform 魔兽MH全图制作教程(2):创建项目与关键类
  6. 网络编程之(转载自:https://www.cnblogs.com/clschao/articles/9593164.html)
  7. 央央家政解读:育儿嫂服务内容和标准
  8. 双绞线 计算机考试,计算机基础知识:有线传输介质之双绞线
  9. 网络API接口的使用
  10. 领域自适应论文(六十八):Implicit Class-Conditioned Domain Alignment for Unsupervised Domain Adaptation论文原理