• Python爬虫基础——HTML、CSS、JavaScript、JQuery网页前端技术
  • Python爬虫基础——正则表达式
  • Python爬虫基础——re模块的提取、匹配和替换
  • Python爬虫基础——XPath语法的学习与lxml模块的使用【CSDN】
  • Python爬虫进阶——JsonPath使用案例
  • Python爬虫进阶——urllib模块使用案例【淘宝】
  • Python爬虫进阶——Request对象之Get请求与URL编码【英雄联盟吧】
  • Python爬虫进阶——Request对象之post请求案例分析【百度翻译】
  • Python爬虫实战—— Request对象之header伪装策略
  • Python爬虫实战——反爬策略之代理IP【无忧代理】
  • Python爬虫实战——反爬策略之模拟登录【CSDN】
  • Python爬虫实战——反爬机制的解决策略【阿里】
  • Python爬虫总结——常见的报错、问题及解决方案

在爬虫开发时,我们时常会遇到各种BUG各种问题,下面是我初步汇总的一些报错和解决方案。
在以后的学习中,如果遇到其他问题,我也会在这里进行更新。
各位如有什么补充,欢迎评论区留言~~~


问题:

IP被封,或者因访问频率太高被拦截???

解决方案之一:

使用代理IP即可。


问题:

正确使用XPath之后并没有输出???

解决方案之一:

XPath只能提取未注释的代码,改用正则表达式即可。


问题:

容易被反爬搞死???

解决方案之一:

headers中都要带上User-Agent,而Cookie能不带则不带。


报错:


类型错误:需要类似字节的对象,而不是字符串???

解决方案之一:

str通过encode()方法可以编码为指定的bytes;

PS:反过来,如果我们从网络或磁盘上读取了字节流,那么读到的数据就是bytes。要把bytes变为str,就需要用decode()方法。


报错:


UTF-8不能处理字节???

解决方案之一:

在headers中加入Cookie即可输出正常的HTML。


报错:


‘ gbk ’不能处理‘ \xa0 ’ ???

解决方案之一:
with open('%s.html' % title, 'w', encoding='utf-8') as f:f.write(rep)

问题:


输出结果是字节类型,json对象无法正常显示???

解决方案之一:

使用json.loads方法即可。


问题:
url = 'https://tieba.baidu.com/f?kw=%E8%8B%B1%E9%9B%84%E8%81%94%E7%9B%9F&ie=utf-8&pn=0'

网址复制到py文件中,却变成了“乱码”???

解决方案之一:

调用urllib.parse.unquote进行URL解码即可。


问题:


URL地址不规范???

解决方案之一:

分析URL时,我们一般从第二页开始分析,而不是第一页。


问题:

不想Cookie中携带自身账号内容???

解决方案之一:

利用浏览器的无痕窗口功能,进入网页再取Cookie即可。


报错:
解决方案之一:

报错:
解决方案之一:

未完待续哦~~~~


为我心爱的女孩~~

Python爬虫总结——常见的报错、问题及解决方案相关推荐

  1. python爬虫解决使用代理报错ssl问题

    在使用requests爬虫抓取某电商网站的时候,不使用代理ip则正常,使用代理ip就报这个异常 requests.exceptions.SSLError: HTTPSConnectionPool(ho ...

  2. linux 编译报错 not a directory,Linux常见英文报错中文翻译

    Linux常见英文报错中文翻译(菜鸟必知) 1.command not found 命令没有找到 2.No such file or directory 没有这个文件或目录 3.Permission ...

  3. vue-cli打包构建时常见的报错解决方案

    vue-cli打包构建时常见的报错解决方案 参考文章: (1)vue-cli打包构建时常见的报错解决方案 (2)https://www.cnblogs.com/bester-ace/articles/ ...

  4. Python发送邮件smtplib.SMTP各报错问题的解决方法

    Python发送邮件smtplib.SMTP各报错问题的解决方法 参考文章: (1)Python发送邮件smtplib.SMTP各报错问题的解决方法 (2)https://www.cnblogs.co ...

  5. python 3.8.0 编译报错 Could not import runpy module 解决方案

    环境 CentOS 7 Gcc 4.8.5 Python 3.8.0 相关报错 make build_all CFLAGS_NODIST=" -fprofile-use -fprofile- ...

  6. python:SyntaxError: invalid syntax报错

    python:SyntaxError: invalid syntax报错 大多数时间都是因为括号不成对造成的.快去检测一下是否少括号吧.

  7. [python爬虫] Selenium常见元素定位方法和操作的学习介绍(转载)

    转载地址:[python爬虫] Selenium常见元素定位方法和操作的学习介绍 一. 定位元素方法 官网地址:http://selenium-python.readthedocs.org/locat ...

  8. Linux常见英文报错中文翻译(菜鸟必知)

    Linux常见英文报错中文翻译(菜鸟必知) 1.command not found 命令没有找到 2.No such file or directory 没有这个文件或目录 3.Permission ...

  9. python的moviepy库 打包 报错: ‘moviepy.audio.fx.all‘ has no attribute ‘audio_fade 的解决办法

    本篇文章主要讲解python的moviepy库 打包 报错: 'moviepy.audio.fx.all' has no attribute 'audio_fade 的解决办法 日期:2022年3月9 ...

最新文章

  1. 从机器学习谈起(机器学习简介)
  2. C++编程常见问题—error: passing 'const std::map]' discards qualifiers或pass-by-reference-to-const-map导致的“d
  3. 基于OpenCL的mean filter性能
  4. mysql 数据库复制软件_mysql 快速复制数据库
  5. 使用with语句:记录时间检查路径
  6. 概率论与数理统计 第四版 课后习题解析
  7. icon图标制作与使用
  8. 计算机前置usb应用,usb前面不能用,详细教您解决电脑前置USB接口不能使用
  9. PTA实验4-1-3 找出最小值 (20分) 本题要求编写程序,找出给定一系列整数中的最小值。
  10. 微软公司软件测试工程师,【其它微软中国(Microsoft)工资】软件测试工程师待遇-看准网...
  11. 公务员行测常识积累(持续更新中)
  12. STM32F407的时钟
  13. 关于如何修复移动热点无网络(无互联网连接)的问题
  14. NTC转0-10V/0-5V热敏电阻转模拟信号温度变送器/温度变送器Cu50 PT100热电阻K型S型电偶NTC转4-20mA 0-10V模拟量NTC热敏电阻转电压10K NTC转0-5V0-10V
  15. 程序员容易读错的IT专业术语词典
  16. Anaconda环境下安装opencv
  17. 21英里法则_一英里的跑道将带您到任何地方
  18. Deep Belief Networks (DBNs)
  19. 护卫神mysql无法启动_MySQL降权:MySQL以Guests帐户启动设置方法_护卫神
  20. HTML和CSS------太极图

热门文章

  1. msvcp120 mysql_MySql压缩版安装及避免1055错误和msvcp120.dll丢失
  2. MFC ODBC 学生成绩管理系统 示例
  3. python教学小说04 写python必懂的潜规则:冒号和缩进
  4. Tableau——超市销售额数据分析可视化
  5. AIMD 为什么收敛(tcp reno/cubic 为什么好)
  6. 如何高效查看 Docker 日志
  7. 前端 js 邮箱正则判断 (支持多个邮箱判断)
  8. 常用python爬虫框架
  9. for(;;)和while(1)两种死循环的区别
  10. Zotero 6插件兼容设置 Quicklook插件安装