Q4:Python爬取的网页代码会有缺失的现象吗?

这个要看网页的数据是不是异步加载的,如果是异步加载的,就会有缺失现象,如果不是的话,就不会有缺失现象,下面我简单介绍一下非异步加载的数据和异步加载的数据这两种情况,实验环境win7+python3.6+pycharm5.0,主要介绍如下:

非异步加载的数据:这里的数据一般都是直接嵌套在网页源码中的,和HTML源码一起返回给浏览器,可以直接在网页源码中找到数据,不会存在缺失现象,大部分网页都是这样加载数据,下面以糗百为例,简单介绍一下:

1.这里我们假设要爬取作者的姓名、性别、内容、好笑数和评论数,内容如下:

2.对应到网页源码中,我们也可以找到对应的内容,如下,说明这些数据是非异步加载的,可以直接请求页面,进行爬取:

3.对应的代码如下,我们可以直接请求页面,解析数据,很简单:

程序运行截图如下,已经成功爬取到数据(由于时间原因,爬取数据和前面演示数据不一致,但本质一样):

异步加载数据:这里的数据只在加载页面时,才请求数据,网页源码中不会存在我们要爬取的数据,会存在缺失现象,需要进行抓包分析,才能找到真正的数据页面,解析出数据,这里以人人贷的数据为例,简单介绍一下:

1.假设我们要爬取年利率、借款标题、期限、金额等数据,内容截图如下:

2.在网页源码中,我们查找对应数据,会发现,根本不存在,如下:

这时,数据就是异步加载的,需要进行抓包分析,找到真正的数据文件的url地址,才能请求解析数据(一般是一个json文件,很容易解析),如下:

3.对应的代码如下,这里请求的地址是json文件的url地址,不是网页的url地址,不然请求不到数据,如下:

程序运行截图,已经成功打印出要爬取的数据:

至此,两种加载数据的方式都介绍完毕。总的来说,只要你注意注意,对应一下网页源码,很快就能发现数据是不是异步加载的,对应抓包分析一下,很快就能解析出数据,希望以上分享的内容能对你有所帮助吧。

python爬取网页的内层页_python爬取网页 下一页相关推荐

  1. python爬虫下一页_python爬虫怎么获取下一页的url

    如何用python实现爬虫抓取网页时自动翻页在你没有任何喜欢的人的时候,你过得是最轻松快乐的,尽管偶尔会觉得孤单了点. 小编把网页的第一篇内容抓取好了,但是用python怎么抓取后面的 又如何停止那天 ...

  2. python爬虫 点击下一页_python爬虫实现获取下一页代码

    我们首先来看下实例代码: from time import sleep import faker import requests from lxml import etree fake = faker ...

  3. python爬取微博评论超100页_python爬取新浪微博评论-Go语言中文社区

    简介 爬取微博m站评论.由于api限制只能爬取前100页,如果想要更全数据需爬pc端. 工具 python 3.5 requests库 re库 步骤 1. 登陆保存cookie 首先,打开m.weib ...

  4. python爬取微博非好友圈_python爬取微博好友圈信息

    自从改了'海边长大就喜欢浪'这个id后,就更加喜欢刷新浪微博了,于是乎爬一下新浪微博好友圈信息 通过提交cookie信息模拟登录移动端新浪微博(http://m.weibo.cn),爬取'好友圈'信息 ...

  5. python爬取高考各高校分数线_Python 爬取高校历年分数线

    最近一周一直在帮家里小弟看高考志愿,所以更新的没那么频繁了,请大家见谅. 在看各高校的往年分数时,忍不住手痒,想着能不能给它爬下来?哈哈,说干就干! 1 流程分析 之前无意中在这个网站发现有各个高校的 ...

  6. python爬取微博数据存入数据库_python爬取微博并且存入数据库

    由于平时喜欢刷微博,追星,所以写了想要写一个爬取微博的爬虫,在老师的建议下选择从移动端爬取,因为移动端页面元素简洁,易于爬取.在看微博时发现有比移动端更加简单的一个版本....老年机版?就是分页式的. ...

  7. python爬取淘宝商品信息_python爬取淘宝商品信息并加入购物车

    先说一下最终要达到的效果:谷歌浏览器登陆淘宝后,运行python项目,将任意任意淘宝商品的链接传入,并手动选择商品属性,输出其价格与剩余库存,然后选择购买数,自动加入购物车. 在开始爬取淘宝链接之前, ...

  8. python提取ajax异步加载数据_python爬取豆瓣电影分类排行榜引出的异步加载(AJAX)问题...

    1.背景 之前的文章中已经介绍过猫眼TOP100的电影信息爬取案例,网页每页有10条电影信息,通过翻页发现URL变化规律构造循环爬取10页100条全部电影信息.但是豆瓣电影分类排行榜的网页情况就所不同 ...

  9. python爬取微博数据存入数据库_Python爬取新浪微博评论数据,写入csv文件中

    因为新浪微博网页版爬虫比较困难,故采取用手机网页端爬取的方式 操作步骤如下: 1. 网页版登陆新浪微博 2.打开m.weibo.cn 3.查找自己感兴趣的话题,获取对应的数据接口链接 4.获取cook ...

  10. python可以爬取的内容有什么_Python爬取视频(其实是一篇福利)过程解析 Python爬虫可以爬取什么...

    如何用python爬取视频网站的数据 如何用python爬取js渲染加载的视频文件不是每个人都有资格说喜欢,也不是每个人都能选择伴你一生! 有哪位大神指导下,有些视频网站上的视频文件是通过 js 加载 ...

最新文章

  1. mysql 123456_$myconn=mysql_connect(192.168.1.xxx,root,123456);怎么连不上数据库啊?
  2. NLOPT ros下的使用
  3. 随想录(从开源的宝库中学习)
  4. 计算机VFP试题答案,计算机二级《VFP》试题及答案
  5. Unity IOS 软键盘输入框问题
  6. NLP(自然语言处理技术)
  7. 华为天才少年——稚晖君!
  8. 树莓派4+神经计算棒二代开发-环境搭建
  9. Microsoft Dynamics 365咨询服务研究报告-Microsoft Dynamics 365咨询服务生产基地、总部、竞争对手及市场地位
  10. 如何快速入门RTOS
  11. 计算机组装维修设置还原点,win10的还原点设定还原后安装的软件还在吗?
  12. 性能测试实战(七):数据驱动
  13. Unity打包后窗口在PC端不按照设置的大小显示
  14. python 艺术照片滤镜_[宜配屋]听图阁 - Python实现PS滤镜Fish lens图像扭曲效果示例...
  15. 全国信息竞赛语言有python吗_2019年全国信息学竞赛有哪些
  16. Matlab实现图像简单的几何校正
  17. 【官网文档】机器学习术语表
  18. 推广营销人员的秘密武器:太阳动态ip代理
  19. 基于SSM的售后故障报修服务管理系统(维修人员\售后人员\零单件\维修资料\顾客客户管理\故障量统计分析)javaweb/j2ee/php/asp.net/C#
  20. 一次消无声息的系统被***经历

热门文章

  1. 跨年烟花 html 代码汇总
  2. 48 款数据可视化分析工具大集合
  3. php经验之谈,php+mysql经验之谈
  4. HDU - 4622 Reincarnation
  5. python经纬度批量定位 绘制高清地图
  6. Linux tcp拥塞控制
  7. 汇编语言 大小比较 理解 ja jna jg jle
  8. 线性卷积和循环卷积(圆周卷积)
  9. 如何获取宝宝取名软件注册码
  10. 趣味ACM题 圣骑士的斩杀