在互联网上进行自动数据采集(抓取)这件事和互联网存在的时间差不多一样长。今天大众好像更倾向于用“网络数据采集”,有时会把网络数据采集程序称为网络机器人(bots)。最常用的方法是写一个自动化程序向网络服务器请求数据(通常是用 HTML 表单或其他网页文件),然后对数据进行解析,提取需要的信息。

在采集网站的时会遇到一些比数据显示在浏览器上却抓取不出来更令人沮丧的事情。也许是向服务器提交自认为已经处理得很好的表单却被拒绝,也许是自己的 IP 地址不知道什么原因直接被网站封杀,无法继续访问。 那是因为很多网站有反爬虫机制,简单地说就是识别你的爬虫是个人还是个机器。我们下面讲到的就是如何把我们的爬虫伪装成一个人。

对于简单的静态HTML可以用python的爬虫库scrapy,或者使用更简单的urllib2来爬取,用beautiful来解析。

不会总是动态的,为了功能的需求,里面会有一些动态加载来满足动态需求,如果你用爬到的静态HTML解析后消失掉了一部分网页内容,那么,没错,这部分可能就是动态加载的。另外,为了保护数据,网站总是会设计一些奇奇怪怪的要求让你的爬虫不能得逞,只能让实实在在的人才能顺利的使用。下面的几条就是让你的爬虫看起来更像个人。

1.构造合适的请求头,里面放的的请求人的资料,特别是要修改修改User-Agent,使用python的requests包,修改其中的headers参数。 2.如果网站需要你登录怎么办呢?设置cookie,保证在同一个网站保持登录状态,使用Selenium结合Phantom JS 的deletecookie()、addcookie()和deleteallcookies()方法。 3.对于动态加载的问题, 用Selenium结合Phantom JS可以模拟人操作网页行为,完成网页JS的加载,解决动态网页不能被直接爬取的问题。 4.如果网站监测到你的爬虫可能会封掉你的IP,这时候要更换IP, 使用工具Tor,来将IP地址匿名。

这是一个范例,还是有一些十分简单的方法,可以让你的网络机器人看起来更像人类访问用户。下期再聊。

更多精彩内容可以进入www.dongnaoedu.com/python.html

转载于:https://juejin.im/post/5a179947f265da432d27c756

如何让你的python爬虫“拟人化”, 突破60秒不被ban,绝地求生!相关推荐

  1. 通过Python爬虫,发现60%女装大佬游走在cosplay领域…

    用 Python 爬取 2000 张女装大佬图片,发现 60% 都游走在 cosplay 边缘. 本文来自作者 -- 蓝桥云课作者「梦想橡皮擦」的投稿. 目标数据源分析 本次待抓取的目标地址为: ht ...

  2. Python趣味打怪:60秒学会一个例子,147段简单代码助你从入门到大师 | 中文资源...

    鱼羊 发自 凹非寺 量子位 报道 | 公众号 QbitAI 人生苦短,编程苦手,不妨学起Python,感受一飞冲天的快乐. 不要害怕学习的过程枯燥无味,这里有程序员jackzhenguo打造的一份中文 ...

  3. python写传奇脚本,Python趣味打怪:60秒学会一个例子,147段简单代码助你从入门到大师 | 中文资源...

    (点击上方快速关注并设置为星标,一起学Python) 鱼羊 发自 凹非寺 量子位 报道 | 公众号 QbitAI 人生苦短,编程苦手,不妨学起Python,感受一飞冲天的快乐. 不要害怕学习的过程枯燥 ...

  4. 洗礼灵魂,修炼python(41)--巩固篇—从游戏《绝地求生-大逃杀》中回顾面向对象编程...

    声明:本篇文章仅仅以游戏<绝地求生>作为一个参考话题来介绍面向对象编程,只是作为学术引用,其制作的非常简易的程序也不会作为商业用途,与蓝洞公司无关. <绝地求生>最近很火,笼络 ...

  5. Python趣味打怪:60秒学会一个例子,147段简单代码助你从入门到大师 | 中文资源

    人生苦短,编程苦手,不妨学起Python,感受一飞冲天的快乐. 不要害怕学习的过程枯燥无味,这里有程序员jackzhenguo打造的一份中文Python"糖果包":147个代码小样 ...

  6. 通过Python爬虫,发现60%女装大佬游走在cosplay领域

    橡皮擦,一个逗趣的互联网高级网虫. 上一篇博客抽奖公布 上一篇博客,我们设置了抽奖环节,恭喜 m0_58026795,抓紧联系擦姐吧. 以后爬虫 120 例每篇文章,只要评论超过50,我们就进行一轮评 ...

  7. python科技限制_Python爬虫怎么突破限制?经常遇到这四种限制突破方法

    Python爬虫常常用于搜索引擎,也可以进行数据的采集,现在很多企业都需要通过爬虫进行数据的采集,来分析市场的变化,同行的情况,还可以进行价格的对比等等.但是你的同行并不想让你获得这些信息,会在网站上 ...

  8. 学会Python+爬虫,从此和996 Say goodbye~

    996 一直是互联网老生常谈的话题了,我们工作越来越繁琐冗杂,几乎每日都要收集数以万计的表格数据.图表图片.各类邮件与资讯,做无数次的商业分析...面对繁杂的工作,大家一直在期待有一个解放生产力的好工 ...

  9. 趣味python教程_Python趣味打怪:60秒学会一个例子,147段简单代码助你从入门到大师 | 中文资源...

    原标题:Python趣味打怪:60秒学会一个例子,147段简单代码助你从入门到大师 | 中文资源 鱼羊 发自 凹非寺 量子位 报道 | 公众号 QbitAI 人生苦短,编程苦手,不妨学起Python, ...

最新文章

  1. 贪心算法-跳跃游戏——b
  2. Memcache存储大数据的问题
  3. 使用BusyBox制作根文件系统的理论分析
  4. Linux系统管理——账号管理与权限及归属管理实例
  5. Win10磁盘的分区与合并傻瓜教程
  6. 【小白写代码之九九乘法表,用C/C++来实现】
  7. 环丙沙星大鼠血清白蛋白纳米粒|甲硝唑小麦麦清白蛋白纳米粒|雷替曲塞乳清白蛋白纳米粒(科研级)
  8. 论文阅读:Reducing Transformer Depth On Demand With Structured Dropout
  9. 微信小程序来了,整理微信小程序学习教程网站
  10. 【技能教学】如何通过FFMPEG编码推RTSP视频直播流到EasyDarwin开源平台时叠加时间水印?
  11. 云主机概念的简单介绍
  12. 上计算机课的日记100字,电脑课_作文100字_小学六年级作文_第一范文网
  13. 小白编程笔记——JavaScript中两种把表单内容传递给Controller的方法
  14. DevCloud -开发平台
  15. python 使用selenium 批量获取url的cookies
  16. 计算机远程桌面相关服务,win7打开远程桌面服务,win7计算机无法远程访问
  17. 河南省天一大联考2021高考成绩查询,河南省2019天一大联考高三五联H成绩新鲜出炉,本科分数线公布!...
  18. 构建中小企业的信息系统(一):致中小企业管理者
  19. 损失函数改进之Large-Margin Softmax Loss
  20. 图片如何裁剪出想要的大小?这几种裁剪方法分享给大家

热门文章

  1. 翻译app的开发全过程---编码+打包+上架
  2. 《Hands-On Machine Learning with Scikit-Learn TensorFlow》读书笔记(一):机器学习概述
  3. fscan工具的使用
  4. 【区块链】Tendermint——概述、PoS共识算法与架构
  5. python设置次坐标_Python中Matplotlib如何添加次坐标轴,添加多个图例
  6. Android---SpringBoot实现前后端数据交互
  7. 图灵头像印上50英镑新钞,取代蒸汽机之父瓦特,赶在图灵生日之际发行
  8. 知物由学 | 内容安全小技巧:如何辨认人工智能生成的虚假头像
  9. Nginx的IO模型详解
  10. 关键路径算法以及实现