# -*- coding:utf-8 -*-
import urllib.request
import io
import sysclass spider:'''
    创建一个爬虫类
    '''
    def down_lode_page(self):
#sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding='gb18030')
        my_url = "http://www.budejie.com/text/1"
        headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) '
                        'Chrome/51.0.2704.63 Safari/537.36'}req = urllib.request.Request(url=my_url, headers=headers)res = urllib.request.urlopen(req)html = res.read()my_html = html.decode('utf-8')print(my_html)if __name__ == "__main__":my_spider = spider()my_spider.down_lode_page()

报错显示如下:

UnicodeEncodeError: 'gbk' codec can't encode character '\u200b' in position 105930: illegal multibyte sequence

E:\JetBrains\PyCharm\Neihanduanzi\duanzi_spider\venv\Scripts\python.exe E:/JetBrains/PyCharm/Neihanduanzi/duanzi_spider/budejie_spider.py

Traceback (most recent call last):
  File "E:/JetBrains/PyCharm/Neihanduanzi/duanzi_spider/budejie_spider.py", line 23, in <module>
    my_spider.down_lode_page()
  File "E:/JetBrains/PyCharm/Neihanduanzi/duanzi_spider/budejie_spider.py", line 19, in down_lode_page
    print(my_html)
UnicodeEncodeError: 'gbk' codec can't encode character '\u200b' in position 105930: illegal multibyte sequence

Process finished with exit code 1

关键是python 3 编译时默认编码不是'utf-8'

尽管我将获取的网页信息转换编码

my_html = html.decode('utf-8')

依然如此。

今天意外的看到一篇博客解决了这个问题

只要加一句

sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding='gb18030')

完美解决,谢谢这位博主。

原博主链接

python 3 爬虫小白PyCharm爬取简单网页信息控制台错误相关推荐

  1. python爬虫使用selenium爬取动态网页信息——以智联招聘网站为例

    python版本3.6 #导入两个模块 from selenium import webdriver import time from openpyxl import Workbook import ...

  2. Python爬虫入门(爬取豆瓣电影信息小结)

    Python爬虫入门(爬取豆瓣电影信息小结) 1.爬虫概念 网络爬虫,是一种按照一定规则,自动抓取互联网信息的程序或脚本.爬虫的本质是模拟浏览器打开网页,获取网页中我们想要的那部分数据. 2.基本流程 ...

  3. [Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(四) —— 应对反爬技术(选取 User-Agent、添加 IP代理池以及Cookies池 )

    上一篇:[Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(三) -- 数据的持久化--使用MongoDB存储爬取的数据 最近项目有些忙,很多需求紧急上线,所以一直没能完善< 使用 ...

  4. [Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(二) —— 编写一个基本的 Spider 爬取微博用户信息

    上一篇:[Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(一) -- 新建爬虫项目 在上一篇我们新建了一个 sina_scrapy 的项目,这一节我们开始正式编写爬虫的代码. 选择目标 ...

  5. [Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(三) —— 数据的持久化——使用MongoDB存储爬取的数据

    上一篇:[Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(二) -- 编写一个基本的 Spider 爬取微博用户信息 在上一篇博客中,我们已经新建了一个爬虫应用,并简单实现了爬取一位微 ...

  6. [day4]python网络爬虫实战:爬取美女写真图片(Scrapy版)

    l> 我的新书<Android App开发入门与实战>已于2020年8月由人民邮电出版社出版,欢迎购买.点击进入详情 文章目录 1.开发环境 2.第三方库 3.Scrapy简介 4. ...

  7. [day1]python网络爬虫实战:爬取美女写真图片

    l> 我的新书<Android App开发入门与实战>已于2020年8月由人民邮电出版社出版,欢迎购买.点击进入详情 文章目录 1.开发环境 2.第三方库 3.实现 1.分析url格 ...

  8. [day2]python网络爬虫实战:爬取美女写真图片(增强版)

    l> 我的新书<Android App开发入门与实战>已于2020年8月由人民邮电出版社出版,欢迎购买.点击进入详情 文章目录 1.开发环境 2.第三方库 3.实现 1.分析url格 ...

  9. Python 网络爬虫实战:爬取知乎回答中的全部图片

    平时逛知乎的时候,经常能看到很多很棒的图片,精美的壁纸,搞笑的表情包,有趣的截图等等,总有想全部保存下来的冲动. 于是在一个小老弟的拜托之下,我把之前的知乎爬虫改造了一下,改装成了一个可以下载知乎回答 ...

最新文章

  1. HtmlUnit、httpclient、jsoup爬取网页信息并解析
  2. 链接器相关的一些基本问题
  3. [每天一个知识点]27-职业生涯-饿了不能吃石头所以吃沙子
  4. 【纪中集训2019.3.25】礼物
  5. matconvnet在MATLAB2013配置过程中遇到的问题
  6. 银行科技岗位 笔试 专业方向重点 + 面试一般问题
  7. html调用rpst 源码_前段播放 流媒体(RTMP,RTSP,HLS)
  8. oracle数据存储层级
  9. js,JQ 图片转换base64 base64转换为file对象,blob对象
  10. 华为S5700交换机升级记录
  11. GUI提示功控件,LVGL『Label标签控件』介绍
  12. python 获取qq群成员信息_用Python编写工具获取QQ群成员的昵称和号码,使用,及,小...
  13. 斐波那契数列与数列求和
  14. 【gnuplot】gnuplot安装与简易使用
  15. Docker 的数据持久化项目实战
  16. VM虚拟机双网卡配置
  17. jQuery之属性操作
  18. SCU 4437 Carries 想法题
  19. 【java笔记】Map,HashMap,Collections
  20. 新一代游戏服务端框架,该是什么样的?

热门文章

  1. C3P0,Proxool等连接池的断开自动重联功能
  2. 编程实现根据公式π/4=1-(1/3)+(1/5)-(1/7)...计算π的值
  3. 微信小程序 云开发表数据一键清空
  4. 将PHP与Identi.ca一起使用,第2部分
  5. css 设置MP4 video视频背景色透明
  6. matlab源知识库,MATLAB產生隨機數
  7. Beyond Compare 4秘钥
  8. C语言 键盘输入年月日,计算该年第几天
  9. 机器学习 | 调参 Part1
  10. 第三章 流程控制语句