python 3 爬虫小白PyCharm爬取简单网页信息控制台错误

# -*- coding:utf-8 -*-
import urllib.request
import io
import sysclass spider:'''
    创建一个爬虫类
    '''
    def down_lode_page(self):
#sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding='gb18030')
        my_url = "http://www.budejie.com/text/1"
        headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) '
                        'Chrome/51.0.2704.63 Safari/537.36'}req = urllib.request.Request(url=my_url, headers=headers)res = urllib.request.urlopen(req)html = res.read()my_html = html.decode('utf-8')print(my_html)if __name__ == "__main__":my_spider = spider()my_spider.down_lode_page()

报错显示如下：

UnicodeEncodeError: 'gbk' codec can't encode character '\u200b' in position 105930: illegal multibyte sequence

E:\JetBrains\PyCharm\Neihanduanzi\duanzi_spider\venv\Scripts\python.exe E:/JetBrains/PyCharm/Neihanduanzi/duanzi_spider/budejie_spider.py

Traceback (most recent call last):
File "E:/JetBrains/PyCharm/Neihanduanzi/duanzi_spider/budejie_spider.py", line 23, in <module>
my_spider.down_lode_page()
File "E:/JetBrains/PyCharm/Neihanduanzi/duanzi_spider/budejie_spider.py", line 19, in down_lode_page
print(my_html)
UnicodeEncodeError: 'gbk' codec can't encode character '\u200b' in position 105930: illegal multibyte sequence

Process finished with exit code 1

关键是python 3 编译时默认编码不是'utf-8'

尽管我将获取的网页信息转换编码

my_html = html.decode('utf-8')

依然如此。

今天意外的看到一篇博客解决了这个问题

只要加一句

sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding='gb18030')

完美解决，谢谢这位博主。

原博主链接

python 3 爬虫小白PyCharm爬取简单网页信息控制台错误相关推荐

python爬虫使用selenium爬取动态网页信息——以智联招聘网站为例
python版本3.6 #导入两个模块 from selenium import webdriver import time from openpyxl import Workbook import ...
Python爬虫入门（爬取豆瓣电影信息小结）
Python爬虫入门(爬取豆瓣电影信息小结) 1.爬虫概念网络爬虫,是一种按照一定规则,自动抓取互联网信息的程序或脚本.爬虫的本质是模拟浏览器打开网页,获取网页中我们想要的那部分数据. 2.基本流程 ...
[Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息（四） —— 应对反爬技术（选取 User-Agent、添加 IP代理池以及Cookies池）
上一篇:[Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(三) -- 数据的持久化--使用MongoDB存储爬取的数据最近项目有些忙,很多需求紧急上线,所以一直没能完善< 使用 ...
[Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息（二） —— 编写一个基本的 Spider 爬取微博用户信息
上一篇:[Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(一) -- 新建爬虫项目在上一篇我们新建了一个 sina_scrapy 的项目,这一节我们开始正式编写爬虫的代码. 选择目标 ...
[Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息（三） —— 数据的持久化——使用MongoDB存储爬取的数据
上一篇:[Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(二) -- 编写一个基本的 Spider 爬取微博用户信息在上一篇博客中,我们已经新建了一个爬虫应用,并简单实现了爬取一位微 ...
[day4]python网络爬虫实战：爬取美女写真图片(Scrapy版)
l> 我的新书<Android App开发入门与实战>已于2020年8月由人民邮电出版社出版,欢迎购买.点击进入详情文章目录 1.开发环境 2.第三方库 3.Scrapy简介 4. ...
[day1]python网络爬虫实战：爬取美女写真图片
l> 我的新书<Android App开发入门与实战>已于2020年8月由人民邮电出版社出版,欢迎购买.点击进入详情文章目录 1.开发环境 2.第三方库 3.实现 1.分析url格 ...
[day2]python网络爬虫实战：爬取美女写真图片(增强版)
l> 我的新书<Android App开发入门与实战>已于2020年8月由人民邮电出版社出版,欢迎购买.点击进入详情文章目录 1.开发环境 2.第三方库 3.实现 1.分析url格 ...
Python 网络爬虫实战：爬取知乎回答中的全部图片
平时逛知乎的时候,经常能看到很多很棒的图片,精美的壁纸,搞笑的表情包,有趣的截图等等,总有想全部保存下来的冲动. 于是在一个小老弟的拜托之下,我把之前的知乎爬虫改造了一下,改装成了一个可以下载知乎回答 ...

python 3 爬虫小白PyCharm爬取简单网页信息控制台错误

python 3 爬虫小白PyCharm爬取简单网页信息控制台错误相关推荐

最新文章

热门文章