如题,理解这一部分需要一定的Python基础,有些代码我不做详细解释了,但是用这个方法是确实可以爬到的。
此次用以下这个页面(可以用md5软件解密)
1476409DEDD7A55FE86915BC370A3ECD

爬取电影的详情数据

1. 在抓包⼯具中先定位到和浏览器地址栏的⽹址⼀样的数据包
①在页面中右击鼠标,点击检查,博主这里用的是Google浏览器
②在弹出来的页面中点击Network,然后再重新刷新一下网页
③在Name列表随意点击一项(单击即可)
④再按Ctrl+F调出搜索框,随意搜索一部列表中的电影,点击列表中的选项,此时搜索框右边的信息已经发生变化了,点击Headers即可定位到包含搜索数据的指定数据包。从指定数据包中就可以提取出url

继续把滚动条往下拉,拉到最底部,有一个User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.99 Safari/537.36
这个是反UA反爬机制的代码,这个也要用到,可以先准备好,并放在代码的最开始

2. 查看请求参数
此页面的请求⽅式为get请求参数:这一点可以在Headers查看到:

点击Payload可以查看请求参数,把这一段复制进你的代码里,但是需要把这里的limit的值改为100,这样才是前100的电影,如果想要前200,改成200即可

3. 获取相应数据

response = requests.get(url=url,headers=head,params=pram)

这里要把get的三个参数都写进来,因为都用得到

4. 建一个文件来存储爬到的信息

page_text = response.json()
fp = open("./douban.txt","w",encoding="utf8")

此处注意编码和解码的问题,如果没有encoding=“utf8”,可能会报错。

  1. 用循环来遍历前100个"title"和"score"字段
fp = open("./douban.txt","w",encoding="utf8")
for dic in page_text:title = dic['title']score = dic['score']fp.write(title+':'+score+'\n')

6. 源代码

import requests
head={#存放需要伪装的头信息"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.99 Safari/537.36"
}pram={#请求参数"type": "13","interval_id": "100:90","action": "","start": "0","limit": "100",
}url='https://movie.douban.com/j/chart/top_list'response = requests.get(url=url,headers=head,params=pram)
#获取响应数据
#json()可以将获取到的json格式的字符串进⾏反序列化page_text = response.json()
fp = open("./douban.txt","w",encoding="utf8")
for dic in page_text:title = dic['title']score = dic['score']fp.write(title+':'+score+'\n')
print(title,'爬⾍保存成功!')

7. 运行结果

手把手教你爬取网站信息相关推荐

  1. 【爬虫】Yhen手把手教你爬取表情包,让你成为斗图界最靓的仔!

    以下内容为本人原创,欢迎大家观看学习,禁止用于商业用途,转载请说明出处,谢谢合作! ·作者:@Yhen ·原文网站:CSDN ·原文链接:https://blog.csdn.net/Yhen1/art ...

  2. python 批量下载网页图片_手把手教你爬取天堂网1920*1080大图片(批量下载)——实战篇|python基础教程|python入门|python教程...

    https://www.xin3721.com/eschool/pythonxin3721/ /1 前言/ 上篇文章 手把手教你爬取天堂网1920*1080大图片(批量下载)--理论篇我们谈及了天堂网 ...

  3. 手把手教你爬取PC端『某酷视频』个人历史播放数据,并可视化展示

    大家好,我是阿辰,今天手把手教你爬取PC端『某酷视频』个人历史播放数据,并可视化展示 上次有粉丝说,那个是ios手机,安卓手机现在需要root权限才可以安装证书,那么今天就不以手机为例,以电脑PC端为 ...

  4. jsoup爬取网站信息之《冰与火之歌》

    使用jsoup爬取了下某个网站中的<冰与火之歌>信息,并将格式保存成了json格式到文本文件中. 具体执行的代码如下: public static void main(String[] a ...

  5. 手把手教你爬取清纯小姐姐私房照,小孩子写学

    手把手教你爬取清纯小姐姐私房照,小孩子写学 先上效果图 头文件: 因为爬虫需要用到请求网络部分,所以需要这两个包,没有的话自行下载即可.这个可以直接用pip安装.如果连pip都不懂,那就只能学习一下p ...

  6. 使用Python和selenium的Chromedriver模拟登陆爬取网站信息(beautifulsoup)

    爬取的信息很多,所以需要设置断点,在程序重启时能继续爬取.并且能在断掉之后自动重启. 1.setting.py 对爬取的常量进行设置 """ 基本信息设置 "& ...

  7. 四个步骤教你爬取网站图片,新手必学

    很多人学习Python很重要的一个原因是,可以很简单的把一个网站的数据爬下来. 尤其是做我们这一行,产品经理,电商行业. 领导:弄一个买卖游戏周边商品的交易APP出来. 我:行,那我们卖什么呀? 领导 ...

  8. python爬取app聊天信息_手把手教你爬取手机app中的信息

    使用工具:Fiddler+基础爬虫 Fiddler是一个抓包神器,用来检查电脑和互联网之间所有的通讯内容,而且比较简单容易上手,显示的格式也比较友好. 网页基本都会爬了,现在开始要想想如何去爬手机ap ...

  9. 以『公众号』为例,手把手教你爬取PC端数据

    之前教过大家如何爬取手机APP数据[以某乎为实战案例,教你用Python爬取手机App数据] 思路:主要是通过手机设置代理,然后在pc端开启抓包工具获取数据包,然后在编写python代码(get方式) ...

最新文章

  1. C++中的封装、继承、多态
  2. RTT设备与驱动之I2C:
  3. leetcode--70. 爬楼梯
  4. 那些年删过的库,跑过的路,你从中找到解决方法了吗?
  5. latex参考文献BibTeX的使用方法
  6. python socket模块作用_python之socket模块详解--小白博客
  7. 扫描文件PDF转换器
  8. 如何搜c语言考题答案,C语言考题答案.doc
  9. 64位 java 数据类型_java 数据类型
  10. Linux基础之计算机网络
  11. CSS特效(一):制作盒子荧光特效
  12. 安卓投屏助手(ARDC)最新版
  13. Nature:肠道细菌能够调节果蝇运动行为
  14. 切图教程,app切图命名总结
  15. 私域流量暗战,品牌如何主宰下半场?
  16. 计算机更改用户密码,教你怎么修改电脑开机密码
  17. 浅谈ASP脚本的解释
  18. 【图片浏览器 Objective-C语言】
  19. 上市早不如巧,深度剖析嘉楠“两个第一”的内涵
  20. 普元王文斌:微服务架构开发模式需要全栈团队

热门文章

  1. 《高等数学》学习笔记一:函数与极限
  2. 【转】UAP studio基础使用技巧
  3. 网速提升: 百度、阿里、114与运营商的DNS怎么选?
  4. Xcode info.plist各种key
  5. 云计算大数据时代IT管理的机遇和挑战
  6. python websocket 断线自动重连
  7. String字符串转JSON对象(JSON的依赖)
  8. Android updater-scripts(Edify Script)各函数详细说明【转】
  9. chrome始终显示版本过旧,无法自动更新,官网在线升级包失败的解决办法
  10. iscroll.js的使用