一、过程分析

1、先打开douban电影排行榜,点击喜剧部分

2、用鼠标滚轮向下翻页,同时按f12进行检查,点击Network中的Headers

3、我们可以发现Headers中有很多信息,比如Request URL以及Content-Type中的json格式(意思是最后的数据类型是json格式),代码中需要用到

4、最下面的参数是所有页面共有的参数,代码中也需要用到

5、 上图中的User-Agent是UA伪装的必要部分,代码中也需要用

以上就是我们所需要的基本信息,下面给出代码

二、代码部分

1、import两个库

import requests
import json

2、在main函数中写出url和param字典,其中将第一部分中复制的Requests URL中问号后面的部分去掉,写在字典param里,这样方便我们设置参数,然后我们将start设置为1,limit设置为20,意思是从第二部电影开始,一直到100部电影后

if __name__=="__main__":url='https://movie.douban.com/j/chart/top_list?'param={'type':'4','interval_id':'100:90','action':'','start':'1',#从库中第几部电影开始'limit':'100',#一次取出的个数}

3、进行UA伪装,伪装自己为浏览器,从而访问该页面

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.120 Safari/537.36 Core/1.77.111.400 QQBrowser/10.9.4812.400'}

4、用response接收通过requests来get()的对象,同时创建一个list_data变量来接收requests.json()的数据

 response=requests.get(url=url,params=param,headers=headers)list_data=response.json()#响应数据为json格式

5、文件存储,将其存放在本目录下

 fp=open('./douban.json','w',encoding='utf-8')json.dump(list_data,fp=fp,ensure_ascii=False)

6、运行以后点击我们创建的douban.json,将其在网上的json在线识别库中解析后能发现我们的解析是成功的

三、总结

爬取网站的重要一点在于观察其网站的加载方式,然后进行对requests库和json库的结合使用。

B站路飞学城学习笔记-Python爬虫-爬取电影分类排名-相关推荐

  1. [python爬虫]爬取电影,电视剧

    目录 影视作品存储格式 爬取方法 实际操作 影视作品存储格式 网页中的小视频往往以 <video src="#"></video>存在,拿到src中的视频地 ...

  2. Python爬虫-爬取电影《星际穿越》评论并提取关键词

    我的个人博客:https://jmbaozi.top/ 这次选择了我最喜欢的电影<星际穿越>的短评,共爬取了500条评论,并且用jieba分词提取了100个关键词.程序文件点我查看 100 ...

  3. python爬虫爬取《斗破苍穹》小说全文

    网络爬虫的入门学习:python爬虫爬取小说全文 python爬虫首先导入基本爬虫库requests:import requests,安装命令pip install requests,使用pychar ...

  4. python爬电影天堂_python爬虫爬取电影天堂电影

    python爬虫爬取电影天堂电影?本项目实现一个简单的爬虫,通过requests和BeautifulSoup爬取电影天堂电影信息,包括片名.年代.产地.类别.语言.海报链接和视频链接等内容.pytho ...

  5. b站路飞学城python课梨视频项目代码

    @b站路飞学城python课梨视频项目代码 # -*- coding:utf-8 -*- import requests from lxml import etree import random im ...

  6. 路飞学城的python课程怎么样_路飞学城系列:Python就业班课程入学须知整理

    学习周期:[2020.8.1起,2020.8.2日整理] 1.专业视频有效期:2年. 2.导师服务有效期:6个月. 3.路飞学城相关消息:"路飞学城"微信公众号,包括系统通知.作业 ...

  7. Python 学习 02 —— Python如何爬取数据

    文章目录 系列文章 二.Python 爬 虫 1.任务介绍 2.简介 3.基本流程 3.1.准备工作 3.1.1.分析页面 3.1.2.编码规范 3.1.3.导入模块 3.1.4.程序流程 3.2.获 ...

  8. 四小时学python爬虫爬取信息系列(第一天)

    四小时学python爬虫爬取信息系列(第一天)(全是干货) 1.安装requests库(可以在电脑python,我是进入anaconda我建的虚拟环境) anaconda虚拟环境法流程: conda ...

  9. 使用python爬虫爬取蓝调口琴网乐谱

    学习目标:使用python爬虫爬取蓝调口琴网乐谱 提示:这里可以添加学习目标 例如:一周掌握 Java 入门知识 学习内容: 使用爬虫爬取需要动态验证码(如手机短信验证码)登录的网站. 提示:这里可以 ...

最新文章

  1. python统计字母空格个数_python统计字母、空格、数字等字符个数的实例
  2. 借助阿里云数加,小小的美甲行业被美甲帮玩出了天价。
  3. 数据结构 — B+ 树
  4. jQuery的使用及关于框架造型(转)
  5. SVN提示:由于目标机器积极拒绝,无法连接 的解决方法
  6. linux 编译环境包,linux上war包编译环境搭建(示例代码)
  7. matlab语言 列车平稳性指标,铁道车辆平稳性分析报告.docx
  8. 记一个有趣的Java OOM!
  9. RocketMQ 分布式消息中间件 理论介绍
  10. Android 处理软键盘遮挡问题
  11. php管理后台,后台管理主页面 admin.php
  12. 如何设置父层DIV不动子层DIIV透明且随滚动条晃动或是不晃动
  13. python脚本之对文件进行哈希校验
  14. php年龄计算器,js+html实现周岁年龄计算器
  15. 矩阵分解在推荐系统中的应用及实践
  16. SSL/TLS部署最佳实践
  17. 大数据时代背景下的商标注册风险及应对方法
  18. Flash数据读取和保存
  19. mysql漏洞补丁升级_mysql 5.7 高危漏洞及升级修复步骤
  20. 如何用Matlab在极坐标系下绘图并调整极坐标初始角位置

热门文章

  1. 基于springboot+vue的社区疫情防控系统(含源码+文档)
  2. python实现简单登录
  3. 阿里云服务器学生版无法远程
  4. 阿里巴巴开发手册 各层命名规范
  5. linux 查找文件夹命令_如何从命令行在Linux中查找文件,文件夹和目录?
  6. SQL语句(包含:求统计值、合格率、合格次数、保留两位小数等)
  7. 3. Java修饰符
  8. 深度学习笔记------现阶段的目标检测器结构解析(Neck[FPN,PANet,Bi-FPN],Head[rpn,yolo...])
  9. 自学虚幻引擎图文笔记:添加体积雾
  10. shiro并发登录人数控制