Python爬虫总结——常见的报错、问题及解决方案
- Python爬虫基础——HTML、CSS、JavaScript、JQuery网页前端技术
- Python爬虫基础——正则表达式
- Python爬虫基础——re模块的提取、匹配和替换
- Python爬虫基础——XPath语法的学习与lxml模块的使用【CSDN】
- Python爬虫进阶——JsonPath使用案例
- Python爬虫进阶——urllib模块使用案例【淘宝】
- Python爬虫进阶——Request对象之Get请求与URL编码【英雄联盟吧】
- Python爬虫进阶——Request对象之post请求案例分析【百度翻译】
- Python爬虫实战—— Request对象之header伪装策略
- Python爬虫实战——反爬策略之代理IP【无忧代理】
- Python爬虫实战——反爬策略之模拟登录【CSDN】
- Python爬虫实战——反爬机制的解决策略【阿里】
- Python爬虫总结——常见的报错、问题及解决方案
在爬虫开发时,我们时常会遇到各种BUG各种问题,下面是我初步汇总的一些报错和解决方案。
在以后的学习中,如果遇到其他问题,我也会在这里进行更新。
各位如有什么补充,欢迎评论区留言~~~
问题:
IP被封,或者因访问频率太高被拦截???
解决方案之一:
使用代理IP即可。
问题:
正确使用XPath之后并没有输出???
解决方案之一:
XPath只能提取未注释的代码,改用正则表达式即可。
问题:
容易被反爬搞死???
解决方案之一:
headers中都要带上User-Agent,而Cookie能不带则不带。
报错:
类型错误:需要类似字节的对象,而不是字符串???
解决方案之一:
str通过encode()方法可以编码为指定的bytes;
PS:反过来,如果我们从网络或磁盘上读取了字节流,那么读到的数据就是bytes。要把bytes变为str,就需要用decode()方法。
报错:
UTF-8不能处理字节???
解决方案之一:
在headers中加入Cookie即可输出正常的HTML。
报错:
‘ gbk ’不能处理‘ \xa0 ’ ???
解决方案之一:
with open('%s.html' % title, 'w', encoding='utf-8') as f:f.write(rep)
问题:
输出结果是字节类型,json对象无法正常显示???
解决方案之一:
使用json.loads
方法即可。
问题:
url = 'https://tieba.baidu.com/f?kw=%E8%8B%B1%E9%9B%84%E8%81%94%E7%9B%9F&ie=utf-8&pn=0'
网址复制到py文件中,却变成了“乱码”???
解决方案之一:
调用urllib.parse.unquote
进行URL解码即可。
问题:
URL地址不规范???
解决方案之一:
分析URL时,我们一般从第二页开始分析,而不是第一页。
问题:
不想Cookie中携带自身账号内容???
解决方案之一:
利用浏览器的无痕窗口功能,进入网页再取Cookie即可。
报错:
解决方案之一:
报错:
解决方案之一:
未完待续哦~~~~
为我心爱的女孩~~
Python爬虫总结——常见的报错、问题及解决方案相关推荐
- python爬虫解决使用代理报错ssl问题
在使用requests爬虫抓取某电商网站的时候,不使用代理ip则正常,使用代理ip就报这个异常 requests.exceptions.SSLError: HTTPSConnectionPool(ho ...
- linux 编译报错 not a directory,Linux常见英文报错中文翻译
Linux常见英文报错中文翻译(菜鸟必知) 1.command not found 命令没有找到 2.No such file or directory 没有这个文件或目录 3.Permission ...
- vue-cli打包构建时常见的报错解决方案
vue-cli打包构建时常见的报错解决方案 参考文章: (1)vue-cli打包构建时常见的报错解决方案 (2)https://www.cnblogs.com/bester-ace/articles/ ...
- Python发送邮件smtplib.SMTP各报错问题的解决方法
Python发送邮件smtplib.SMTP各报错问题的解决方法 参考文章: (1)Python发送邮件smtplib.SMTP各报错问题的解决方法 (2)https://www.cnblogs.co ...
- python 3.8.0 编译报错 Could not import runpy module 解决方案
环境 CentOS 7 Gcc 4.8.5 Python 3.8.0 相关报错 make build_all CFLAGS_NODIST=" -fprofile-use -fprofile- ...
- python:SyntaxError: invalid syntax报错
python:SyntaxError: invalid syntax报错 大多数时间都是因为括号不成对造成的.快去检测一下是否少括号吧.
- [python爬虫] Selenium常见元素定位方法和操作的学习介绍(转载)
转载地址:[python爬虫] Selenium常见元素定位方法和操作的学习介绍 一. 定位元素方法 官网地址:http://selenium-python.readthedocs.org/locat ...
- Linux常见英文报错中文翻译(菜鸟必知)
Linux常见英文报错中文翻译(菜鸟必知) 1.command not found 命令没有找到 2.No such file or directory 没有这个文件或目录 3.Permission ...
- python的moviepy库 打包 报错: ‘moviepy.audio.fx.all‘ has no attribute ‘audio_fade 的解决办法
本篇文章主要讲解python的moviepy库 打包 报错: 'moviepy.audio.fx.all' has no attribute 'audio_fade 的解决办法 日期:2022年3月9 ...
最新文章
- 从机器学习谈起(机器学习简介)
- C++编程常见问题—error: passing 'const std::map]' discards qualifiers或pass-by-reference-to-const-map导致的“d
- 基于OpenCL的mean filter性能
- mysql 数据库复制软件_mysql 快速复制数据库
- 使用with语句:记录时间检查路径
- 概率论与数理统计 第四版 课后习题解析
- icon图标制作与使用
- 计算机前置usb应用,usb前面不能用,详细教您解决电脑前置USB接口不能使用
- PTA实验4-1-3 找出最小值 (20分) 本题要求编写程序,找出给定一系列整数中的最小值。
- 微软公司软件测试工程师,【其它微软中国(Microsoft)工资】软件测试工程师待遇-看准网...
- 公务员行测常识积累(持续更新中)
- STM32F407的时钟
- 关于如何修复移动热点无网络(无互联网连接)的问题
- NTC转0-10V/0-5V热敏电阻转模拟信号温度变送器/温度变送器Cu50 PT100热电阻K型S型电偶NTC转4-20mA 0-10V模拟量NTC热敏电阻转电压10K NTC转0-5V0-10V
- 程序员容易读错的IT专业术语词典
- Anaconda环境下安装opencv
- 21英里法则_一英里的跑道将带您到任何地方
- Deep Belief Networks (DBNs)
- 护卫神mysql无法启动_MySQL降权:MySQL以Guests帐户启动设置方法_护卫神
- HTML和CSS------太极图
热门文章
- msvcp120 mysql_MySql压缩版安装及避免1055错误和msvcp120.dll丢失
- MFC ODBC 学生成绩管理系统 示例
- python教学小说04 写python必懂的潜规则:冒号和缩进
- Tableau——超市销售额数据分析可视化
- AIMD 为什么收敛(tcp reno/cubic 为什么好)
- 如何高效查看 Docker 日志
- 前端 js 邮箱正则判断 (支持多个邮箱判断)
- 常用python爬虫框架
- for(;;)和while(1)两种死循环的区别
- Zotero 6插件兼容设置 Quicklook插件安装