爬虫与反爬虫与反反爬

爬虫的流程:

​ 1.请求网页,获取响应结果

​ 2.解析网页,提取数据

​ 3.数据持久化(写入存放位置)

反爬与反反爬

1.User-Agent:将爬虫伪装成浏览器。例如:豆瓣电影top250,职友集

2.文字反爬:将页面中重要信息使用符号进行隐藏。例如:猫眼,瓜子等

3.动态页面:使用selenium模块(自动化测试的模块),能够模拟人的行为,使用浏览器。

4.人机验证:九宫格选图片、选成语词语、图片+计算公式、字母数字验证码、滑块验证、短信验证等

​ 九宫格选图片–深度学习:https://cuiqingcai.com/36060.heml

​ 选成语词语–超级鹰

​ 图片+计算公式、字母数字验证码–光学文字识别(OCR):easyocr、百度飞桨、百度AI开发者平台等

​ 滑块验证:selenium,pyautogui --> 引入对应的物理原理。

​ 短信验证:等待、接码平台。

5.封IP:代理IP:极光代理,蘑菇代理,站大爷,芝麻代理等
6.检测selenium:滑块验证无法拖成功。–>1.加入屏蔽selenium代码。2.修改selenium驱动的底层代码。例如淘宝。
7.网页中的数据放到图片中:光学文字识别。
8.登录使用:例如:淘宝。可以在requests中传入对应的cookie信息,或者在selenium中传入cookie。或者使用selenium操作登录的输入框、按钮。

RPA–机器人流程自动化(影刀、八爪鱼、壁虎等)–>从selenium进行的演变

# 休眠 -以秒为单位
# uniform(a,b) 从(a,b)d 范围内随机取浮点数
time.sleep(random.uniform(1,2))

day 15爬虫与反爬虫与反反爬相关推荐

  1. 15行代码轻松绕过淘宝反爬虫机制

    最近学习网络爬虫关注了不少技术大牛,前两天看见崔庆才老师公众号发了一个绕过淘宝验证的新方法,今天我就按照那篇文章进行实践 之前大牛们写的文章进行淘宝抓取都是使用selenium 但我自己使用的时候经常 ...

  2. 【Python3爬虫】常见反爬虫措施及解决办法(二)...

    [Python3爬虫]常见反爬虫措施及解决办法(二) 这一篇博客,还是接着说那些常见的反爬虫措施以及我们的解决办法.同样的,如果对你有帮助的话,麻烦点一下推荐啦. 一.防盗链 这次我遇到的防盗链,除了 ...

  3. Python-爬取音悦台MV列表以及反爬虫方法

    这次比2345电影那个多了一个resource.py文件,里面包含UserAgents,PROXIES,这样我们在爬取时可以写一个函数,随机从这两项中选取,以此绕开反爬虫. 1.目标:音悦台-V榜-M ...

  4. svg text换行_5分钟看懂SVG反爬虫原理与绕过实战 | 知了干货分享

    SVG反爬虫不同于字体反爬虫,它巧妙的利用css 与 svg的关系,将字符映射到网页中,看起来虽然正常,但是却抓取不到有效内容.本文带你深入浅出,破了SVG反爬虫的套路,学会之后,可应用于某点评网. ...

  5. python 获取html js 变量_Python爬虫与反反爬虫实践

    因为要收集数据,所以打算自己撸一个爬虫,期间碰到网站的反爬措施,让我非常头疼,在此记录一下. 基础 爬虫的基础是不需要自己手动通过浏览器访问网页,而是通过程序构造网络请求,获取网站返回的结果.例如使用 ...

  6. 第7章 Scrapy突破反爬虫的限制

    7-1 爬虫和反爬的对抗过程以及策略 Ⅰ.爬虫和反爬虫基本概念 爬虫:自动获取网站数据的程序,关键是批量的获取. 反爬虫:使用技术手段防止爬虫程序的方法. 误伤:反爬虫技术将普通用户识别为爬虫,如果误 ...

  7. python3反爬虫原理与绕过实战 网盘_Python 3反爬虫原理与绕过实战

    第 1章 开发环境配置 1 1.1 操作系统的选择 1 1.1.1 Ubuntu 简介 1 1.1.2 VirtualBox 的安装 2 1.1.3 安装 Ubuntu 3 1.1.4 全屏设置 8 ...

  8. Downloader Middlewares反反爬虫【学习笔记04】

    反反爬虫相关机制 Some websites implement certain measures to prevent bots from crawling them, with varying d ...

  9. 反爬虫机制和破解方法汇总

    https://cloud.tencent.com/developer/article/1032918 什么是爬虫和反爬虫? 爬虫:使用任何技术手段,批量获取网站信息的一种方式. 反爬虫:使用任何技术 ...

最新文章

  1. 第十九章:集合视图(二十一)
  2. splunk 索引过程
  3. ABAP Development Tool前后台交互的原理
  4. html水调歌头实验总结,水调歌头明月几时有反思小结
  5. AnkhSVN的使用
  6. 如何修改订单金额实现 0.01 元买 iPhone X?
  7. Python量化交易基础讲堂-详解随机数的生成
  8. html5 移动端 Android和iOS手机 video自动播放
  9. gambit多面整合
  10. 聊聊那些知识管理软件
  11. 竞业限制了不能做任何行业的相关联岗位,合理吗?
  12. 【操作系统原理-2014年清华陈渝老师】索引
  13. HTML+CSS+JS雷霆战机
  14. 寒冰老师 计算机 山西,计算机科学与技术口号, 计算机培训小组口号
  15. 桌面应用开发技术对比
  16. Vue.js:从安装到快速创建脚手架项目,解决刚创建完出现的parsing error:No Bable config file detected报错
  17. Excel如何快速提取单元格括号内数据
  18. office PPT插件
  19. c++ includes
  20. 数据结构(Java)

热门文章

  1. 1030 Travel Plan(超级无敌详细注释+47行代码)
  2. 计算机科学与技术专业师范类,计算机科学与技术专业(师范)简介.PDF
  3. Excel中有多个表格,如何找到自己需要的表格并提出呢?
  4. 机器学习之人脸识别人像采集
  5. SMRT测序文献阅读笔记
  6. 基于腾讯x5开源库,提高webView开发效率
  7. 【二分】NEERC15 L Landscape Improved(2015-2016 ACM-ICPC)(Codeforces GYM 100851)
  8. 苹果11怎么查计算机记录,iPhone11充电次数怎么查 查询iPhone11充电次数的方法
  9. C语言把mac地址转为6字节数组,一种将mac地址转化为密码的c语言算法
  10. 开发一个看番app[樱花动漫移动端app]