爬虫有时会遭遇两种情况,导致无法正常爬取
(1)IP封锁,(貌似美团会出现)
(2)禁止机器人爬取,(比如Amazon)

解决方法:
我们以下面文章里的爬虫代码为例
http://blog.csdn.net/co_zy/article/details/77150544
其中的getHTMLText()函数,更改如下,添加fakeHeaders ,proxies
这里的可以通过ip测试网站进行验证是否成功使用了代理 http://ip.chinaz.com/

def getHTMLText(self,url):fakeHeaders = {'user-agent':'Mozilla/5.0'}proxies = { "http": "http://10.10.1.10:3128", "https": "http://10.10.1.10:1080", }   try:r = requests.get(url,headers = fakeHeaders , proxies=proxies,timeout=30)r.raise_for_status()r.encoding = r.apparent_encodingreturn r.textexcept:return ""

Python -bs4反爬虫解决方法相关推荐

  1. python反爬虫破解_python中绕过反爬虫的方法总结

    我们在登山的途中,有不同的路线可以到达终点.因为选择的路线不同,上山的难度也有区别.就像最近几天教大家获取数据的时候,断断续续的讲过header.地址ip等一些的方法.具体的爬取方法相信大家已经掌握住 ...

  2. python反爬虫与绕过_python中绕过反爬虫的方法总结

    我们在登山的途中,有不同的路线可以到达终点.因为选择的路线不同,上山的难度也有区别.就像最近几天教大家获取数据的时候,断断续续的讲过header.地址ip等一些的方法.具体的爬取方法相信大家已经掌握住 ...

  3. python战反爬虫:爬取猫眼电影数据 (一)(Requests, BeautifulSoup, MySQLdb,re等库)

    姓名:隋顺意 博客:Sui_da_xia 微信名:世界上的霸主 本篇文章未涉及猫眼反爬,主要介绍爬取无反爬内容,战反爬内容请去 python战反爬虫:爬取猫眼电影数据 (二)(Requests, Be ...

  4. python战反爬虫:爬取猫眼电影数据 (一)

    非常荣幸邀请到 赛迪人工智能大赛(简称AI世青赛)全球总决赛银奖的获得者 隋顺意 小朋友为本公众号投稿,隋小朋友虽然小小年纪,但编程能力已经比大多数大学生强非常多了,欢迎大家关注,捧场. 姓名:隋顺意 ...

  5. Python线程安全问题及解决方法

    Python线程安全问题及解决方法 Python多线程是通过threading模块来实现的. 参考: https://mp.csdn.net/postedit/91069618 一.多线程共享全局变量 ...

  6. 通过pip下载python包缓慢的解决方法

    通过pip下载python包缓慢的解决方法 参考文章: (1)通过pip下载python包缓慢的解决方法 (2)https://www.cnblogs.com/ambitious-to-49/p/11 ...

  7. VScode Python no module的解决方法

    VScode Python no module的解决方法 参考文章: (1)VScode Python no module的解决方法 (2)https://www.cnblogs.com/andy-0 ...

  8. python战反爬虫:爬取猫眼电影数据 (二)(Requests, BeautifulSoup, MySQLdb,re等库)

    姓名:隋顺意 博客:Sui_da_xia 微信名:世界上的霸主 本文主要介绍破解反爬,可以先去上一篇观看爬取无反爬内容 python战反爬虫:爬取猫眼电影数据 (一)(Requests, Beauti ...

  9. pycharm未识别python工具库的解决方法

    pycharm未识别python工具库的解决方法 本人遇到了已经安装了python工具库,但pycharm没有识别到的情况.后来发现,原来是我设置的运行环境没有选对.我的工具库安装在conda创建的新 ...

最新文章

  1. 关于:为什么在 Real Producer 10 Plus 里面找不到 RealAudio 10 with aacPlus的解答
  2. python检索地址_35.leetcode题目讲解(Python): 搜索插入位置
  3. Oacle 开窗函数 分析函数
  4. 【web开发学习笔记】Structs2 Result学习笔记(三)带參数的结果集
  5. 动态链接(指向运行时常量池的方法引用)
  6. html5 svg组态图,绘制SVG内容到Canvas的HTML5应用
  7. mysql 聚合函数求积_Oracle聚合求和和聚合求积(顺便解决BOM展开的问题)
  8. 信息学奥赛一本通(1321:【例6.3】删数问题(Noip1994))
  9. 寻找新冠“解药”:在 10^60 化合物分子空间,他们用 AI 挖掘潜在药物
  10. [转]SSH框架搭建
  11. c语言上机作业题及答案,华为C语言上机试题及答案
  12. 利用Xstream注解生成和解析xml
  13. 免费的Access数据库员工管理系统下载-IT技术网站 企业人员管理系统源码
  14. 开拓者队医当选年度最佳 球迷:罗伊情何以堪
  15. Android 查询设备信息c/c++常用方法
  16. optuna-自动化调参利器
  17. 修改系统默认的音频设备
  18. 资深前端开发工程师是什么职位
  19. 【报告分享】2021年小红书内容营销趋势洞察-千瓜(附下载)
  20. C++ 之 linux环境下路径操作

热门文章

  1. qpython3l手机版怎么用_qpython怎么用
  2. 服务器操作系统策略,Windows操作系统组策略应用全攻略(2)服务器教程 -电脑资料...
  3. B - 数据结构实验之查找二:平衡二叉树
  4. C++之static关键字
  5. 【自动驾驶】25.激光雷达 标定 相机
  6. 模式识别的评价方法:ROC曲线, DET曲线, FPPW, FPPI
  7. Java中通过JDBC操作MySQL数据库
  8. Day 29:编写你的第一个 Google Chrome 扩展程序
  9. matlab中的containers.Map()
  10. openssl+poly1305+sm4实现