话说

在很久很久以前

小明不小心发现了一个叫做

学习python的正确姿势

从此一发不可收拾

看到什么网站都想爬取

有一天

小明发现了一个小黄网

里面的小姐姐

一个比一个诱人

看了一会这个小黄网

小明不知道在倒腾什么

反正30秒之后小明虎躯一震

....

那天晚上

小明躺在床上

夜不能寐

脑子一直都停留在那个小黄网上

突然灵光一闪

我这不是刚学了爬虫技术么

我应该把那个网站上的小姐姐都爬取到自己的电脑啊

就算下次那个小黄网没了

自己也还有东西可看

真是佩服自己的机智啊

.....

第二天小明就开始爬取小黄网了

小明使用

python爬虫入门01:教你在 Chrome 浏览器轻松抓包

抓了一下数据的请求

然后用

python爬虫04 | 长江后浪推前浪,Requests库urllib库拍在沙滩上

开启一顿的骚操作

...

哎~

小明还是太年轻了

这时候网络运维人员看到了自己的服务器

“瓦里割草”

怎么突然被疯狂的请求?

赶紧看一下日志

妈的,都是同一个 IP

谁他妈闲着没事来搞我?

小伙再定睛一看

我去, user-agent 是 python 程序

把小伙子给气的啊

直接把对方的 ip 地址给封了(加入黑名单)

....

小明本来以为一切都能按自己计划行事

没想到突然中断了

小明重新运行了一下程序

发现完全无法连接了

以为是自己的网络断了

可是自己上百度是可以的啊

后来突然想到

好像之前 小帅b 说过

爬虫要学会伪装,要不然很容易被对方识破的

....

原来如此

小明使用了代理ip

把 user-agent 设置为 Chrome 浏览器

然后又开始一顿的爬取了

还特么开启了多线程

....

运维人员又发现不对劲

妈的

这数据不正常,这不正常

肯定有人又来搞事情了

然后就把网站设置为只有登录的人才可以获取数据

.....

小明发现了

觉得这是小意思

在这个网站注册了账号

然后设置了相应的cookie

继续爬!

....

没过多久

小明的手机突然响了

小明以为是自己的外卖到了

拿起电话就说:来了~

结果没想到的是

手机那边传来:wcnmlgb!你他妈再爬你看我不弄死你

吓得小明差点yw

挖槽

原来刚刚自己注册的是自己的手机号码

小明突然觉得自己太 sb 了

....

小明本来想就这样算了的

可是刚被骂的觉得很不爽

小明把自己的手机关机

然后自己注册了很多个账号

搞了多个 cookie 池

一起爬!!

....

这次运维人员慌了

没想到对方这么会搞事情

开始对那些频繁访问的ip给封了

然后给自己的网站加了验证码

谁他妈想要请求数据

都要先输入一次验证码才可以

这次看你怎么搞

....

小明这次真的是杠上了

机器学习识别验证码都搞上了

直接在程序自动识别验证码然后进行请求

这次小明完全不把小帅b放在眼里了

....

运维人员快要没办法了

突然看到了一些大量的请求都只是获取 HTML 数据

但是 js 和 css 这些都不请求的

不合理

于是把整个网站

都不直接返回 HTML 了

用 ajax 加载

.....

小明呵呵一笑

这能难倒我?

拿出最近小帅b说的

如果大家对Python感兴趣的话,可以加一下我的薇信哦:abb436574,免费领取一套学习资料和视频课程哟~

python爬虫09 | 上来,自己动!这就是 selenium 的牛逼之处

直接模仿人类操作

这还没完

听 小帅b 说还有一个叫做 phantomjs 的玩意

selenium + phantomjs 可以达到完全模拟浏览器操作

友情提示:小帅b 下篇推文会跟大家说怎么使用selenium + phantomjs

....

这下

运维人员真的没办法了

玩不动了

只能说一句

真的求求你们了,不要再来爬取了!

....

python爬虫! 网站维护人员:真的求求你们了,不要再来爬取了,受不了了!!相关推荐

  1. 零基础入门python爬虫之《青春有你2》选手信息爬取

    零基础入门python爬虫之<青春有你2>选手信息爬取 完成<青春有你2>选手图片爬取,生成选手图片的绝对路径并输出,统计爬取的图片总数量.使用工具:requests模块.Be ...

  2. Python爬虫学习第三章-4.3-使用xpath解析爬取全国城市名称

    Python爬虫学习第三章-4.3-使用xpath解析爬取全国城市名称   这一节主要是使用xpath解析爬取全国城市名称 这里使用的网址是:空气质量历史数据查询   这一个案例体现的点主要是xpat ...

  3. 【爬虫+数据可视化毕业设计:英雄联盟数据爬取及可视化分析,python爬虫可视化/数据分析/大数据/大数据屏/数据挖掘/数据爬取,程序开发-哔哩哔哩】

    [爬虫+数据可视化毕业设计:英雄联盟数据爬取及可视化分析,python爬虫可视化/数据分析/大数据/大数据屏/数据挖掘/数据爬取,程序开发-哔哩哔哩] https://b23.tv/TIoy6hj

  4. 【【数据可视化毕业设计:差旅数据可视化分析,python爬虫可视化/数据分析/大数据/大数据屏/数据挖掘/数据爬取,程序开发-哔哩哔哩】-哔哩哔哩】 https://b23.tv/iTt30QG

    [[数据可视化毕业设计:差旅数据可视化分析,python爬虫可视化/数据分析/大数据/大数据屏/数据挖掘/数据爬取,程序开发-哔哩哔哩]-哔哩哔哩] https://b23.tv/iTt30QG ht ...

  5. python爬虫你们最爱的YY小姐姐,这不爬取下来看看?

    本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理 ( 想要学习Python?Python学习交流群:1039649593,满足你的需 ...

  6. Python爬虫入门实例五之淘宝商品信息定向爬取(优化版)

    文章目录 写在前面 一.爬取原页面 二.编程思路 1.功能描述 2.程序的结构设计 三.编程过程 1.解决翻页问题 2.编写getHTMLText()函数 3.编写parsePage()函数 (1). ...

  7. Python爬虫入门【3】:美空网数据爬取

    美空网数据----简介 从今天开始,我们尝试用2篇博客的内容量,搞定一个网站叫做"美空网"网址为:http://www.moko.cc/, 这个网站我分析了一下,我们要爬取的图片在 ...

  8. python爬虫从入门到放弃(九)之 实例爬取上海高级人民法院网开庭公告数据

    通过前面的文章已经学习了基本的爬虫知识,通过这个例子进行一下练习,毕竟前面文章的知识点只是一个 一个单独的散知识点,需要通过实际的例子进行融合 分析网站 其实爬虫最重要的是前面的分析网站,只有对要爬取 ...

  9. python爬虫教程(五):解析库bs4及爬取实例

    大家好,今天分享的是解析库中的bs4,本文章的目的是让你知道如何使用bs4,并且附带爬取实例. 目录 一.bs4简介 二.安装及初始印象 1.安装 2.解析器 3.初始印象 三.选择元素的方法 1.方 ...

  10. python爬虫之Scrapy介绍八——Scrapy-分布式(以爬取京东读书为示例)

    Scrapy-分布式(scrapy-redis)介绍 1 Scrapy-分布式介绍 1.1 Scrapy-redis工作原理 1.2 Scrapy-redis 安装和基本使用 1.2.1 安装 1.2 ...

最新文章

  1. Java动态加载一个类的几种方法以及invoke
  2. 全面理解目标检测中的anchor
  3. MySQL Workbench 5.2.45 GA 发布
  4. 用NFS挂载root出现:NFS: failed to create MNT RPC client, status=-101(-110)
  5. Win2008 R2实战之只读域控制器部署(图)有修改
  6. springboot学习笔记(八)
  7. 微信小程序开发教程(基础篇)8-数据绑定下
  8. 52条实用经验,SQL优化不再难!
  9. 浅谈BPM和SOA架构下的电子政务系统
  10. mongodb 入门 启动mongodb 无法启动 问题 非正常关闭
  11. 图的储存方式,链式前向星最简单实现方式 (边集数组)
  12. PHP使用文件流下载文件方法(附:解决下载文件内容乱码问题)
  13. primefaces_使用WildFly 8.2.0.Final,Primefaces 5.1和MySQL 5的JDBC领域和基于表单的身份验证...
  14. 节省50%部署时间的5大KS8服务
  15. JS-内置对象-Boolean-Number-String-Math-Date-Array
  16. Ubuntu移除mysql后重新安装
  17. SpringBoot笔记7:使用JavaMail结合RabbitMQ发送邮件
  18. 高会职称计算机课程,2017高会《职称计算机》模块精讲:Windows Media Player(一)...
  19. matlab遗传算法tsp程序,遗传算法解TSP问题的程序
  20. 有些公司的年会,还不如《天龙八部》的万仙大会

热门文章

  1. 错误处理(二)—— Exception from HRESULT: 0x800A03EC
  2. 能攻心则反侧自消,从古知兵非好战;不审势即宽严皆误,后来治蜀要深思
  3. windows2000 sp4下载
  4. pnpm 源码结构及调试指南
  5. JavaMail 收邮件 草稿箱 发件箱 IMAP 技巧
  6. infoq中一些好文章
  7. 2.文件的打开及创建_open函数_creat函数
  8. labvIEW 2011~2015各个版本的安装包及其模块
  9. Unity 批量修改场景预制体,删除空Animation组件
  10. 为什么百度只收录一个首页?