提示:最新Python爬虫资料/代码练习>>戳我直达


前言

抓取动态加载数据

话不多说,开练!

爬虫抓取动态加载数据

确定网站类型

首先要明确网站的类型,即是动态还是静态。检查方法:右键查看网页源码 —> 搜索“辛德勒的名单”关键字,如下图所示:

图1:分析网站类型

最终发现源码页中没有出现想要抓取的数据,只有一大堆的 JS 代码,由此确定该网站为动态网站。

影片详情信息

接下来,使用快捷键 F12 打开控制台进行抓包,点击NetWork选项卡 —>XHR选项 —> Preview选项卡 —> 刷新当前页面抓取数据包,如下图所示:


图2:抓取动态网站数据包

从图 2 可知,我们想要抓取的数据取全部包含在当前的数据包中。当我们向下滚动鼠标滑轮时,左侧栏内的数据包会实现自动加载,这是使用Ajax异步加载技术实现的。

通过查看数据 Headers 选项可以明确 url 地址、查询参数等信息,如下所示:


图3:分析Headers信息

从上图可以得知请求的基准 URL (由于还未拼接查询参数,所以称之为基准 URL),如下所示:

继续滚动鼠标滑轮可知查询参数具有如下规律:

type: 4  # 电影类型
interval_id: 100:90  #代表网页上滑动条的百分比(好于100%-90%的历史片)
action: ''  # 空
start: 0  # 每次加载电影的起始索引值 0 20 40 60
limit: 20 # 每次加载的电影数量,1为初始值,后续加载时20固定不变

注意:寻找规律时,后加载出来的数据包会排在最前面,除去第一个数据包外,其余数据包如下所示:


图4:寻找查询参数值的规律

影片总数量

注意:第一个数据包反映了每个类型中电影的总数量,其 url 与响应信息如下:

影片类型与类型码

影片的类型与类型码包含在电影排行榜的主界面中,如下所示:


图5:影片类型与类型码

分析上述页面结构,然后使用正则表达式来提取想要的数据,并定义选择菜单“menu”,代码如下所示:

import redef get_all_type_films(self):# 获取影片类型和类型码url = 'https://douban-dy网址/chart'headers = self.get_headers()html = requests.get(url=url, headers=headers).textre_bds = r'<a href=.*?type_name=(.*?)&type=(.*?)&.*?</a>'pattern = re.compile(re_bds, re.S)r_list = pattern.findall(html)# 存放所有类型和对应类型码大字典type_dict = {}# 定义一个选择电影类型的菜单menu = ''# r_list[{'剧情 , 11'},{},..]for r in r_list:type_dict[r[0].strip()] = r[1].strip()# 获取input的菜单,显示所有电影类型menu += r[0].strip() + '|'#返回类型字典以供后续函数调用,并返回输入菜单menu# {'剧情': '11', '喜剧': '24',...}return type_dict, menu

编写完整程序

完成上述分析后,下面开始编写 Python 爬虫程序,代码如下:

  • 阿星提醒:不做代码伸手党~仔细看看,主要是学习其中的方法
#coding:utf8
import requests
import time
import random
import re
import json
from ua_info import ua_listclass DoubanSpider(object):def __init__(self):self.url = 'https://douban-dy网址/j/chart/top_list?'self.i = 0# 获取随机headersdef get_headers(self):headers = {'User-Agent':random.choice(ua_list)}return headers# 获取页面def get_page(self,params):# 将json转换为 python 数据类型,并返回html = requests.get(url=self.url,params=params,headers=self.get_headers()).texthtml=json.loads(html)self.parse_page(html)# 解析并保存数据def parse_page(self,html):item = {}# html列表类型: [{电影1},{电影2},{电影3}...]for one in html:# 名称 + 评分item['name'] = one['title'].strip()item['score'] = float(one['score'].strip())print(item)self.i += 1# 获取电影总数def total_number(self,type_number):# F12抓包抓到的地址,type表示电影类型url = 'https://douban-dy网址/j/chart/top_list_count?type={}&interval_id=100%3A90'.format(type_number)headers = self.get_headers()html = requests.get(url=url,headers=headers).json()total = int(html['total'])return total# 获取所有电影的类型和对应type值def get_all_type_films(self):# 获取类型与类型码url = 'https://douban-dy网址/chart'headers = self.get_headers()html = requests.get(url=url,headers=headers).textre_bds = r'<a href=.*?type_name=(.*?)&type=(.*?)&.*?</a>'pattern = re.compile(re_bds,re.S)r_list = pattern.findall(html)# 存放所有类型和对应类型码大字典type_dict = {}#定义一个选择电影类型的菜单menu = ''for r in r_list:type_dict[r[0].strip()] = r[1].strip()# 获取input的菜单,显示所有电影类型menu += r[0].strip() + '|'return type_dict,menu# 主程序入口函数def main(self):# 获取type的值type_dict,menu = self.get_all_type_films()menu = menu + '\n你想了解什么类型电影:'name = input(menu)type_number = type_dict[name]# 获取电影总数total = self.total_number(type_number)for start in range(0,(total+1),20):#构建查询参数params = {'type' : type_number,'interval_id' : '100:90','action' : '','start' : str(start),'limit' : '20'}# 调用函数,传递params参数self.get_page(params)# 随机休眠1-3秒time.sleep(random.randint(1,3))print('电影总数量:%d部'%self.i )if __name__ == '__main__':spider = DoubanSpider()spider.main()

输出示例:


小结

最后我们对抓取动态网站数据做简单地总结:

  • 确定网站是否为动态网站,通过查看源码搜索相应的关键字即可确定。
  • 动态网站主要通过异步方式加载数据。触发数据加载的 JS 事件主要有滚动鼠标滑轮、鼠标点击、拉动滚动条等有关动作,也有一些网站通过局部更新的方式加载数据。

用爬虫抓取动态加载数据丨Python爬虫实战系列(6) 就到这啦,在学爬虫的老铁记得持续关注!阿星祝你早日修炼成为爬虫大佬!点我文末的名片【领取阿星精心准备的Python学习籽料~】

戳名片找我

用爬虫抓取动态加载数据丨Python爬虫实战系列(6)相关推荐

  1. 以小饭桌网站为例介绍抓取动态网页的数据【python爬虫入门进阶】(12)

    您好,我是码农飞哥,感谢您阅读本文,欢迎一键三连哦.

  2. python爬虫app步骤_Python爬虫抓取手机APP的传输数据,python爬虫抓取app

    Python爬虫抓取手机APP的传输数据,python爬虫抓取app 大多数APP里面返回的是json格式数据,或者一堆加密过的数据 .这里以超级课程表APP为例,抓取超级课程表里用户发的话题. 1. ...

  3. python爬虫之Ajax动态加载数据抓取--豆瓣电影/腾讯招聘

    动态加载数据抓取-Ajax 特点 1.右键 -> 查看网页源码中没有具体数据 2.滚动鼠标滑轮或其他动作时加载 抓取 1.F12打开控制台,页面动作抓取网络数据包 2.抓取json文件URL地址 ...

  4. 爬虫案例之爬取国家药监局化妆品生产许可明细(爬取动态加载数据)

    一.实验目的 爬取国家药监局(化妆品生产许可信息管理系统服务平台 (nmpa.gov.cn))化妆品生产明细(具体到每家企业的具体信息),当我们进入该网站首页时,发现其结构为每页15条的json类型数 ...

  5. python爬取js加载的数据_Python爬虫:爬取JS加载数据的网页

    比如简书: Paste_Image.png 我们来写个程序,爬取简书网站随便一个作者的所有文章,再对其所有文章进行分词统计 程序运行统计的结果见文章: 我统计了彭小六简书360篇文章中使用的词语 需要 ...

  6. 爬虫Spider 05 - 代理参数-proxies | 控制台抓包 | requests.post() | 动态加载数据抓取-Ajax

    文章目录 Spider 04回顾 requests.get()参数 常见的反爬机制及处理方式 Spider 05笔记 代理参数-proxies **控制台抓包** **requests.post()参 ...

  7. python 异步加载_Python学习笔记4——爬取异步加载数据

    一.什么是异步加载? 在之前的学习笔记中,爬取的网页是需要手动翻页的网址,但是一些网站是通过自动加载翻页的,如knewone网页.浏览knewone的官网就能发现,当下拉到网页最下端时,网站会自动加载 ...

  8. 用爬虫收集网站公开数据丨Python爬虫实战系列(5)

    提示:最新Python爬虫资料/代码练习>>戳我直达 文章目录 前言 用爬虫收集公开数据 编写程序流程分析 确定Xpath表达式 1) 确定基准表达式 2) 确定抓取信息的表达式 3) 提 ...

  9. python爬取js加载的数据_JS动态加载数据不会爬?老司机教你两个方法爬取想要的数据...

    学习Python的人绝大部分都是在用Python做爬虫,毕竟对于爬虫而言Python是不二选. 但是一般简单的静态页面网站还是很好爬取的,对于很多动态加载的网站就不知道怎么办了,今天小编就给大家介绍两 ...

最新文章

  1. 后端必备 Git 分支开发:规范指南
  2. CISCO 组播RPF 逆向路径转发 实验原理
  3. Java实现文件的RSA和DES加密算法
  4. gulp常用插件总结
  5. 矩阵论思维导图_矩阵求导与矩阵微分
  6. font和lineheight冲突。
  7. WIndows10下 MySQL 5.7(社区版)卸载
  8. C 标准库——cmath/math.h
  9. activity(工作流)初步学习记录
  10. 微信服务号/企业号防止AccessToken过期的操作指南深入浅出
  11. mysql workbench uml_Ubuntu 16.04下UML建模PowerDesigner的替代ERMaster和MySQL Workbench
  12. 《apue》 首次拜读完经典之作,两三记录
  13. 多功能科学计算机.,科学计算器多功能版
  14. WSO2安装使用的全过程详解
  15. 常用的前端JavaScript方法封装
  16. 爱奇艺校招map优先队列笔试题字符串的价值
  17. 导入三方库是出现NotFount
  18. 2012服务器系统配置DNS,win服务器2012配置dns
  19. [李宏毅机器学习笔记]
  20. 了解趋势 | 元宇宙、虚拟空间、人工智能、Web3…全球49位专家对2023最火爆科技的预测

热门文章

  1. Delphi XE下获取网页源码记录
  2. 2019年12月四六级百度云
  3. 爬虫练习(一)爬取Boss直聘的招聘信息
  4. HW及各大公司软侧面试题
  5. 新机到手,如何检查自己电脑的电池损耗情况(电池使用情况报告怎么查)
  6. 神州数码DCN交换机 端口功能配置-端口基本功能配置
  7. 牛!上半年跨境电商进出口增长28.6%;亚马逊日本站自动定价工具增加新功能;TikTok试点视频简历项目…|洞悉跨境
  8. 学python后还要学什么语言_除了 Python,为什么机器学习还需要一种新的编程语言?...
  9. 零基础Vlog教程!
  10. 计算机u盘使用记录在哪里,如何清除电脑系统中U盘使用记录(图文)