B站路飞学城学习笔记-Python爬虫-爬取电影分类排名-
一、过程分析
1、先打开douban电影排行榜,点击喜剧部分
2、用鼠标滚轮向下翻页,同时按f12进行检查,点击Network中的Headers
3、我们可以发现Headers中有很多信息,比如Request URL以及Content-Type中的json格式(意思是最后的数据类型是json格式),代码中需要用到
4、最下面的参数是所有页面共有的参数,代码中也需要用到
5、 上图中的User-Agent是UA伪装的必要部分,代码中也需要用
以上就是我们所需要的基本信息,下面给出代码
二、代码部分
1、import两个库
import requests
import json
2、在main函数中写出url和param字典,其中将第一部分中复制的Requests URL中问号后面的部分去掉,写在字典param里,这样方便我们设置参数,然后我们将start设置为1,limit设置为20,意思是从第二部电影开始,一直到100部电影后
if __name__=="__main__":url='https://movie.douban.com/j/chart/top_list?'param={'type':'4','interval_id':'100:90','action':'','start':'1',#从库中第几部电影开始'limit':'100',#一次取出的个数}
3、进行UA伪装,伪装自己为浏览器,从而访问该页面
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.120 Safari/537.36 Core/1.77.111.400 QQBrowser/10.9.4812.400'}
4、用response接收通过requests来get()的对象,同时创建一个list_data变量来接收requests.json()的数据
response=requests.get(url=url,params=param,headers=headers)list_data=response.json()#响应数据为json格式
5、文件存储,将其存放在本目录下
fp=open('./douban.json','w',encoding='utf-8')json.dump(list_data,fp=fp,ensure_ascii=False)
6、运行以后点击我们创建的douban.json,将其在网上的json在线识别库中解析后能发现我们的解析是成功的
三、总结
爬取网站的重要一点在于观察其网站的加载方式,然后进行对requests库和json库的结合使用。
B站路飞学城学习笔记-Python爬虫-爬取电影分类排名-相关推荐
- [python爬虫]爬取电影,电视剧
目录 影视作品存储格式 爬取方法 实际操作 影视作品存储格式 网页中的小视频往往以 <video src="#"></video>存在,拿到src中的视频地 ...
- Python爬虫-爬取电影《星际穿越》评论并提取关键词
我的个人博客:https://jmbaozi.top/ 这次选择了我最喜欢的电影<星际穿越>的短评,共爬取了500条评论,并且用jieba分词提取了100个关键词.程序文件点我查看 100 ...
- python爬虫爬取《斗破苍穹》小说全文
网络爬虫的入门学习:python爬虫爬取小说全文 python爬虫首先导入基本爬虫库requests:import requests,安装命令pip install requests,使用pychar ...
- python爬电影天堂_python爬虫爬取电影天堂电影
python爬虫爬取电影天堂电影?本项目实现一个简单的爬虫,通过requests和BeautifulSoup爬取电影天堂电影信息,包括片名.年代.产地.类别.语言.海报链接和视频链接等内容.pytho ...
- b站路飞学城python课梨视频项目代码
@b站路飞学城python课梨视频项目代码 # -*- coding:utf-8 -*- import requests from lxml import etree import random im ...
- 路飞学城的python课程怎么样_路飞学城系列:Python就业班课程入学须知整理
学习周期:[2020.8.1起,2020.8.2日整理] 1.专业视频有效期:2年. 2.导师服务有效期:6个月. 3.路飞学城相关消息:"路飞学城"微信公众号,包括系统通知.作业 ...
- Python 学习 02 —— Python如何爬取数据
文章目录 系列文章 二.Python 爬 虫 1.任务介绍 2.简介 3.基本流程 3.1.准备工作 3.1.1.分析页面 3.1.2.编码规范 3.1.3.导入模块 3.1.4.程序流程 3.2.获 ...
- 四小时学python爬虫爬取信息系列(第一天)
四小时学python爬虫爬取信息系列(第一天)(全是干货) 1.安装requests库(可以在电脑python,我是进入anaconda我建的虚拟环境) anaconda虚拟环境法流程: conda ...
- 使用python爬虫爬取蓝调口琴网乐谱
学习目标:使用python爬虫爬取蓝调口琴网乐谱 提示:这里可以添加学习目标 例如:一周掌握 Java 入门知识 学习内容: 使用爬虫爬取需要动态验证码(如手机短信验证码)登录的网站. 提示:这里可以 ...
最新文章
- python统计字母空格个数_python统计字母、空格、数字等字符个数的实例
- 借助阿里云数加,小小的美甲行业被美甲帮玩出了天价。
- 数据结构 — B+ 树
- jQuery的使用及关于框架造型(转)
- SVN提示:由于目标机器积极拒绝,无法连接 的解决方法
- linux 编译环境包,linux上war包编译环境搭建(示例代码)
- matlab语言 列车平稳性指标,铁道车辆平稳性分析报告.docx
- 记一个有趣的Java OOM!
- RocketMQ 分布式消息中间件 理论介绍
- Android 处理软键盘遮挡问题
- php管理后台,后台管理主页面 admin.php
- 如何设置父层DIV不动子层DIIV透明且随滚动条晃动或是不晃动
- python脚本之对文件进行哈希校验
- php年龄计算器,js+html实现周岁年龄计算器
- 矩阵分解在推荐系统中的应用及实践
- SSL/TLS部署最佳实践
- 大数据时代背景下的商标注册风险及应对方法
- Flash数据读取和保存
- mysql漏洞补丁升级_mysql 5.7 高危漏洞及升级修复步骤
- 如何用Matlab在极坐标系下绘图并调整极坐标初始角位置
热门文章
- 基于springboot+vue的社区疫情防控系统(含源码+文档)
- python实现简单登录
- 阿里云服务器学生版无法远程
- 阿里巴巴开发手册 各层命名规范
- linux 查找文件夹命令_如何从命令行在Linux中查找文件,文件夹和目录?
- SQL语句(包含:求统计值、合格率、合格次数、保留两位小数等)
- 3. Java修饰符
- 深度学习笔记------现阶段的目标检测器结构解析(Neck[FPN,PANet,Bi-FPN],Head[rpn,yolo...])
- 自学虚幻引擎图文笔记:添加体积雾
- shiro并发登录人数控制