总结

有些时候headers伪装什么的都做足了,可你还是不能如愿以偿的获得网页源码,要么缺,要么给你一堆毫不相关的东西,要么干脆让你红掉。
这说明要点不是伪不伪装的问题了,而是如何去解读网页的防爬机制从而推出解决方法,这就要求比较高的观察和分析能力了

就我目前遇到的主要有:

  • 随机校验码:网页生成随机码,并要求你将其提交才接受你的请求(多用在登录验证中)。——这种校验码通常藏在网页源码中,先取再交是策略。
  • 无序网址:网址后跟着一大串看不出规律的东西。——跟这种东西是没话说的,直接上selenium
  • 加密/杂乱的源码:你知道你要的东西就在那里,但是不知道怎样提取出来。——推理解谜,看脑子好不好使了。
  • 动态加载:需要和页面交互才能获取更多信息,但是爬虫没法和它交互啊。——直接上selenium/手动捉包分析出目标链接
  • ajax技术:异步加载,网页内容分次加载,用爬虫只能得到第一次发出的html,导致信息不全。——上selenium/手动捉包分析出目标连接

补充:
selenium模块,模拟浏览器,强是强但是缺点是慢。
其实动态加载是为了方便用户点哪看哪的,但这也加大了爬虫的难度,因为很多信息因此被隐藏了起来。

“21天好习惯”第一期- 11 反爬虫机制详解(3)相关推荐

  1. “21天好习惯“第一期--4

    "21天好习惯"-第四天 每天记录一点点 计算机的诞生与发展 冯·诺依曼体系 计算机系统作为一个能够自动地处理信息的智能化工具,必须解决好两个最基本的问题:①信息如何表示才能方便地 ...

  2. 某Boss招聘网站的反反爬机制详解

    近日出于学习的目的对某Boss网站的反爬机制进行了分析和逆向,终于完全搞定了,记录总结下方便日后学习! 本代码请仅用于 纯技术研究的 用途,请勿用于商业用途或 非法用途,如果因使用者非法使用造成的法律 ...

  3. “21天好习惯” 第一期 - 18

    今天进一步探究昨天学习的strcmp()函数:         昨天学习strcmp()函数时提到了,当两个字符串相同时,输出0,不相同时,输出非零,那么当两个字符串不同时,具体会输出什么非零值呢?于 ...

  4. “21天好习惯”第一期——21

    <计算机组成原理> 3.5.2 MIPS32架构CPU基本的组成部件 3. 单周期控制系统设计 (2)ALU控制单元      ALU控制单元接收两种输入:主控单元输出的m位aluop和指 ...

  5. “21天好习惯”第一期——16

    <计算机组成原理> 第一章 概论 1.1.2 存储程序工作方式 存储程序是计算机的核心内容,表明了计算机的工作方式,包含3个要点:事先编写程序,存储程序,自动.连续地执行程序. (1)根据 ...

  6. “21天好习惯”第一期- 4 简单的壁纸爬虫

    有时候我们不想让电脑桌面过于单调,于是琢磨着能不能让电脑每天自动获取网站上的图片然后更换为壁纸,这就需要一个壁纸爬虫了,这里以3G壁纸为例. 首先,还是喜闻乐见的导入模块,在这个爬虫中,我们需要以下模 ...

  7. “21天好习惯“第一期——2

    道友们好,今天是学习的第二天,经过一天的学习我又了解到了很多有关C语言的知识,我也会和大家继续分享我的学习笔记,以及在学习中遇到的问题. 请大家看看下面这个程序: 今天的学习就到此为止,希望大家可以向 ...

  8. “21天好习惯”第一期——2

    今天学习的内容是3.3.2--算术逻辑单元. 继续昨天的学习的内容进一步学习了ALU: ALU的外部特性与功能: ALU的标志位: ALU的EDA设计模式: 学习中遇到的问题主要是ALU的EDA设计模 ...

  9. “21天好习惯”第一期-第10天

    今天学会了一个猜数的程序,这个程序可以让计算机随机生成一个100以内的数,然后我们人来猜这个数是什么. #include<stdio.h> #include<stdlib.h> ...

  10. “21天好习惯“ 第九期—9:京东倒计时,淘宝倒计时

    "21天好习惯" 第九期 - 9 一.学习规划 1.计算机组成图谱绘画(应为知识导图)(10月25) 2.网络工程师备考(11月6) 3.信息知识竞赛(10月31) 二.所遇问题 ...

最新文章

  1. 苹果终于承认iOS日历应用发送垃圾广告 正紧急修复
  2. 利用SETFACL来设置文件或文件夹的访问控制列表ACL
  3. Python数据结构与算法(第六天)
  4. Google API 设计指南 - 前言
  5. python函数如何实现可变参数_【已解决】Python中实现可变参数的函数
  6. android 图片切割代码,Android用clip剪切图像资源
  7. 在hdfs文件系统中创建目录连接失败_分布式文件系统HDFS
  8. 深入理解Java 容器
  9. 高精度大数c++类模板 很好用
  10. sql 跨数据库 连表
  11. 墙裂推荐 iOS 资源大全
  12. Linux中级之lvs三个模式的图像补充(nat,dr,tun)
  13. 一些非常简单的Python代码
  14. 将强化学习应用到量化投资中实战篇(学习模块开发上)
  15. 太平洋服务器cpu型号,Intel正式发布:新一代6W的超低功耗平台CPU
  16. 集线器、交换机、网桥区别
  17. div网页布局(做一个简单网页界面为例)
  18. JSP解决:Attempt to clear a buffer that#39;s already been flushed错误(jsp:forward标签跳转空白)...
  19. 基于Go语言Echo+Vue+ElementUI的OA办公系统
  20. [转载] 真正可用的使用T5577卡复制4100卡_ID卡复制操作流程

热门文章

  1. 20190826——python对象实例搬家具
  2. 【机器学习基础】EM算法
  3. 支付宝是怎么炼成的?蚂蚁金融级研发效能实践解析
  4. 6岁女孩出口之乎者也 用《论语》典故批评妈妈
  5. 如何使用css动画做出剑客行走效果
  6. 热血江湖数据库MYSQL修改_手游服务端框架之配置与玩家数据库设计
  7. linux生成.so库,调用.so库函数
  8. Fresco使用详情
  9. 单片机中段程序_单片机程序延时方法详细介绍
  10. 惠州 菜鸟机器人_京东PK阿里谁怕谁?菜鸟称:智能机器人仓库已在广东惠阳投入使用...