python 3 爬虫小白PyCharm爬取简单网页信息控制台错误
# -*- coding:utf-8 -*- import urllib.request import io import sysclass spider:''' 创建一个爬虫类 ''' def down_lode_page(self): #sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding='gb18030') my_url = "http://www.budejie.com/text/1" headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) ' 'Chrome/51.0.2704.63 Safari/537.36'}req = urllib.request.Request(url=my_url, headers=headers)res = urllib.request.urlopen(req)html = res.read()my_html = html.decode('utf-8')print(my_html)if __name__ == "__main__":my_spider = spider()my_spider.down_lode_page()
报错显示如下:
UnicodeEncodeError: 'gbk' codec can't encode character '\u200b' in position 105930: illegal multibyte sequence
E:\JetBrains\PyCharm\Neihanduanzi\duanzi_spider\venv\Scripts\python.exe E:/JetBrains/PyCharm/Neihanduanzi/duanzi_spider/budejie_spider.py
Traceback (most recent call last):
File "E:/JetBrains/PyCharm/Neihanduanzi/duanzi_spider/budejie_spider.py", line 23, in <module>
my_spider.down_lode_page()
File "E:/JetBrains/PyCharm/Neihanduanzi/duanzi_spider/budejie_spider.py", line 19, in down_lode_page
print(my_html)
UnicodeEncodeError: 'gbk' codec can't encode character '\u200b' in position 105930: illegal multibyte sequence
Process finished with exit code 1
关键是python 3 编译时默认编码不是'utf-8'
尽管我将获取的网页信息转换编码
my_html = html.decode('utf-8')
依然如此。
今天意外的看到一篇博客解决了这个问题
只要加一句
sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding='gb18030')
完美解决,谢谢这位博主。
原博主链接
python 3 爬虫小白PyCharm爬取简单网页信息控制台错误相关推荐
- python爬虫使用selenium爬取动态网页信息——以智联招聘网站为例
python版本3.6 #导入两个模块 from selenium import webdriver import time from openpyxl import Workbook import ...
- Python爬虫入门(爬取豆瓣电影信息小结)
Python爬虫入门(爬取豆瓣电影信息小结) 1.爬虫概念 网络爬虫,是一种按照一定规则,自动抓取互联网信息的程序或脚本.爬虫的本质是模拟浏览器打开网页,获取网页中我们想要的那部分数据. 2.基本流程 ...
- [Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(四) —— 应对反爬技术(选取 User-Agent、添加 IP代理池以及Cookies池 )
上一篇:[Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(三) -- 数据的持久化--使用MongoDB存储爬取的数据 最近项目有些忙,很多需求紧急上线,所以一直没能完善< 使用 ...
- [Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(二) —— 编写一个基本的 Spider 爬取微博用户信息
上一篇:[Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(一) -- 新建爬虫项目 在上一篇我们新建了一个 sina_scrapy 的项目,这一节我们开始正式编写爬虫的代码. 选择目标 ...
- [Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(三) —— 数据的持久化——使用MongoDB存储爬取的数据
上一篇:[Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(二) -- 编写一个基本的 Spider 爬取微博用户信息 在上一篇博客中,我们已经新建了一个爬虫应用,并简单实现了爬取一位微 ...
- [day4]python网络爬虫实战:爬取美女写真图片(Scrapy版)
l> 我的新书<Android App开发入门与实战>已于2020年8月由人民邮电出版社出版,欢迎购买.点击进入详情 文章目录 1.开发环境 2.第三方库 3.Scrapy简介 4. ...
- [day1]python网络爬虫实战:爬取美女写真图片
l> 我的新书<Android App开发入门与实战>已于2020年8月由人民邮电出版社出版,欢迎购买.点击进入详情 文章目录 1.开发环境 2.第三方库 3.实现 1.分析url格 ...
- [day2]python网络爬虫实战:爬取美女写真图片(增强版)
l> 我的新书<Android App开发入门与实战>已于2020年8月由人民邮电出版社出版,欢迎购买.点击进入详情 文章目录 1.开发环境 2.第三方库 3.实现 1.分析url格 ...
- Python 网络爬虫实战:爬取知乎回答中的全部图片
平时逛知乎的时候,经常能看到很多很棒的图片,精美的壁纸,搞笑的表情包,有趣的截图等等,总有想全部保存下来的冲动. 于是在一个小老弟的拜托之下,我把之前的知乎爬虫改造了一下,改装成了一个可以下载知乎回答 ...
最新文章
- HtmlUnit、httpclient、jsoup爬取网页信息并解析
- 链接器相关的一些基本问题
- [每天一个知识点]27-职业生涯-饿了不能吃石头所以吃沙子
- 【纪中集训2019.3.25】礼物
- matconvnet在MATLAB2013配置过程中遇到的问题
- 银行科技岗位 笔试 专业方向重点 + 面试一般问题
- html调用rpst 源码_前段播放 流媒体(RTMP,RTSP,HLS)
- oracle数据存储层级
- js,JQ 图片转换base64 base64转换为file对象,blob对象
- 华为S5700交换机升级记录
- GUI提示功控件,LVGL『Label标签控件』介绍
- python 获取qq群成员信息_用Python编写工具获取QQ群成员的昵称和号码,使用,及,小...
- 斐波那契数列与数列求和
- 【gnuplot】gnuplot安装与简易使用
- Docker 的数据持久化项目实战
- VM虚拟机双网卡配置
- jQuery之属性操作
- SCU 4437 Carries 想法题
- 【java笔记】Map,HashMap,Collections
- 新一代游戏服务端框架,该是什么样的?
热门文章
- C3P0,Proxool等连接池的断开自动重联功能
- 编程实现根据公式π/4=1-(1/3)+(1/5)-(1/7)...计算π的值
- 微信小程序 云开发表数据一键清空
- 将PHP与Identi.ca一起使用,第2部分
- css 设置MP4 video视频背景色透明
- matlab源知识库,MATLAB產生隨機數
- Beyond Compare 4秘钥
- C语言 键盘输入年月日,计算该年第几天
- 机器学习 | 调参 Part1
- 第三章 流程控制语句