python新手强烈推荐教程:爬虫入门 https://www.bilibili.com/video/av19954075
昨天在B站上看了这个爬虫入门视频,在实践中遇到了2个问题。
下面是我爬取小说时遇到问题的url
url=‘https://www.miaoshuwu.com/25/25599/459529589.html’

网址的源代码里面有小说的内容:

<div class="content"><h1>第一百五十三章 见面</h1><div class="link"><span>妙书屋小说推荐阅读:<a href="https://www.miaoshuwu.com/0/682/" target="_blank">吻安,小娇妻!</a>、<a href="https://www.miaoshuwu.com/17/17413/" target="_blank">霸道老公放肆爱</a>、<a href="https://www.miaoshuwu.com/7/7168/" target="_blank">元尊</a>、<a href="https://www.miaoshuwu.com/0/5/" target="_blank">恰似寒光遇骄阳</a>、<a href="https://www.miaoshuwu.com/0/1/" target="_blank">尸命</a>、<a href="https://www.miaoshuwu.com/14/14974/" target="_blank">名门隐婚:枭爷娇宠妻</a>、<a href="https://www.miaoshuwu.com/7/7336/" target="_blank">惹上妖孽冷殿下</a>、<a href="https://www.miaoshuwu.com/14/14054/" target="_blank">跑出我人生</a>、<a href="https://www.miaoshuwu.com/5/5582/" target="_blank">漫漫婚路</a>、<a href="https://www.miaoshuwu.com/5/5566/" target="_blank">侯门弃女:妖孽丞相赖上门</a></span></div>
<script>read2();</script><div id="content" class="showtxt"><script>app2();</script><br />  这狼鱼罐头的味道真的刺激……不仅臭,而且恶心……简直就是生化毒气啊!克莱恩蹲在角落里,缓了十几秒才恢复正常。
<br /><br />  之前那个瞬间,他对狼鱼罐头的气味太过低估,没能及时做出最有效的应对,没有当场使用“纸人替身”或制造无形的空气管,假装自己在进行水下呼吸。
<br /><br />  现在,他终于深切体会到不能于公众场合开狼鱼罐头的决定有多么的明智!
<br /><br />  呼……克莱恩吐了口气,缓慢站起,提上行李,一步步向码头外面行去。
<br /><br />  他对这座叫拿斯的城市第一印象是房屋多为白色,广泛应用石制材料,第二是位置不算太偏北,但气温相当寒冷,哪怕现在已经是四月份,依旧只有几摄氏度,第三是捕鲸屋众多,庞大的白鲸在里面被肢解为皮、肉、脂肪、骨头和“灰琥珀”。
<br /><br />  后两者一是可以用来做宴会长裙的裙撑,一是顶级香料,无论当熏香,还是加入香水,都属于贵族富豪们才能享用的奢侈品。
<br /><br />  至于白鲸的皮、肉和脂肪,同样有自己的用处,分别可以制作衣服,成为食物,炼制油类。在拿斯,在加尔加斯群岛,白鲸的烹饪已经形成了独特的文化,有各种各样的手法和名声在外的餐厅。
<br /><br />  克莱恩路过一座座捕鲸屋,看见剥离出来的众多脂肪被运货马车载着,驶向了不远处冒着黑烟的工厂,那是极具加尔加斯特色的炼油厂,白鲸的脂肪将在那里被炼制成鲸油,

但是我用PyCharm运行后抓取的没有小说内容下面是我抓取的:

<div class="content"><h1>第一百五十三章 见面</h1><div class="link"><span>妙书屋小说推荐阅读:<a href="https://www.miaoshuwu.com/0/682/" target="_blank">吻安,小娇妻!</a>、<a href="https://www.miaoshuwu.com/17/17413/" target="_blank">霸道老公放肆爱</a>、<a href="https://www.miaoshuwu.com/7/7168/" target="_blank">元尊</a>、<a href="https://www.miaoshuwu.com/0/5/" target="_blank">恰似寒光遇骄阳</a>、<a href="https://www.miaoshuwu.com/0/1/" target="_blank">尸命</a>、<a href="https://www.miaoshuwu.com/14/14974/" target="_blank">名门隐婚:枭爷娇宠妻</a>、<a href="https://www.miaoshuwu.com/7/7336/" target="_blank">惹上妖孽冷殿下</a>、<a href="https://www.miaoshuwu.com/14/14054/" target="_blank">跑出我人生</a>、<a href="https://www.miaoshuwu.com/5/5582/" target="_blank">漫漫婚路</a>、<a href="https://www.miaoshuwu.com/5/5566/" target="_blank">侯门弃女:妖孽丞相赖上门</a></span></div>
<script>read2();</script>
<br /><br />  “我们什么时候出发?”<br /><script>app2();</script><br /><br /> 

我试着用 urlretrieve 下载整个页面:

from urllib import request
url='https://www.miaoshuwu.com/25/25599/459529589.html'
request.urlretrieve(url,'小说.html')

然后打开下载的’小说.html’后发现小说内容是有的.
我又试着直接写入txt里面

response=requests.get(url,headers=headers)
response.encoding='gbk'
html=response.text
print(html)
保存=open('F:\zidong\爬虫小说/133.txt','w')
保存.write(html)
保存.close()

提示

保存.write(html)
UnicodeEncodeError: ‘gbk’ codec can’t encode character ‘\ufffd’ in position 4788: illegal multibyte sequence`

百度‘\ufffd’ 后发现是字体错误,小说内容里面有 �0� ,gbk解析不了,所有的教程都是教怎么改字体编码.但目标网站的编码就是gbk,改成utf-8 就其他中文乱码了
<meta http-equiv="Content-Type" content="text/html; charset=gbk" />

抓狂了半个小时用来到处翻教程,还有其他遇到这个问题的其他小伙伴的提问…无果…
继续自己想辙,实验
直到我新建了一个TXT文本,把�0�复制粘贴进去点击保存后 提示:

看到这句保存为ANSI编码的文本文件时,该字符【丢失】
…丢失????

我默默的在代码中加上了一行

html = html.replace('�0�', '')

是的,问题解决了…
得不到你,我就不要你!

爬取小说时遇到的问题='gbk' codec can't encode character '\ufffd'、内容为空相关推荐

  1. 【python基础知识】python输出时出错,UnicodeEncodeError: 'gbk' codec can't encode character '\ue4bf.....

    python的print()函数默认好像打印GBK编码的格式,所以需要打印的字符串需要改变编码格式. 查找到一个有用的办法,看原文: --------------------------------- ...

  2. 解决python UnicodeEncodeError: ‘gbk‘ codec can‘t encode character ‘\xb5‘ in position 255: illegal mult

    UnicodeEncodeError: 'gbk' codec can't encode character '\ufffd' in position 373: illegal multibyte s ...

  3. python多线程爬虫数据顺序_多线程爬取小说时如何保证章节的顺序

    前言 爬取小说时,以每一个章节为一个线程进行爬取,如果不加以控制的话,保存的时候各个章节之间的顺序会乱掉. 当然,这里说的是一本小说保存为单个txt文件,如果以每个章节为一个txt文件,自然不会存在这 ...

  4. 爬虫问题小记 --- UnicodeEncodeError: 'gbk' codec can't encode character '\xa9' in position 25703: illegal

    问题: 今天在做爬虫的时候遇到如下问题,提示gbk编码方式无法对字符'\xa9'进行编码. UnicodeEncodeError: 'gbk' codec can't encode character ...

  5. Python爬虫初学:报错1:UnicodeEncodeError: 'gbk' codec can't encode character '\xbb'……

    大家好,我是庞老板咩,一名浙江大学动力工程20级推免生,最近开始自学Python.这是我的第一篇博客,很高兴可以在CSDN这个平台和大家分享交流^ ^ 首先,这是一段我初学爬虫时的代码: import ...

  6. UnicodeEncodeError: ‘gbk‘ codec can‘t encode character ‘\xbb‘ in position 61547 解决办法

    UnicodeEncodeError: 'gbk' codec can't encode character '\xbb' in position 61547: illegal multibyte s ...

  7. Python3 解决编码问题: `UnicodeEncodeError: 'gbk' codec can't encode character '\xa0' in position 10: ille

    Python3 解决编码问题: UnicodeEncodeError: 'gbk' codec can't encode character '\xa0' in position 10: illega ...

  8. 数据存储在.csv文件乱码,数据写入才一部分就报错'gbk' codec can't encode character '\xee' in position 45: illegal multibyte

    使用python爬虫爬取规则数据后转化成来List格式,将其存储在.csv 文件中 使用Python写文件的时候,或者将网络数据流写入到本地文件的时候,大部分情况下会遇到:UnicodeEncodeE ...

  9. 【Python-ERROR】‘gbk‘ codec can‘t encode character ‘\xa0‘ or ‘\u2003‘ in position XXX

    Python在print输出时解码报错 1. 遇到的错误 2. 解决办法 3. 参考文章 1. 遇到的错误 在通过Python爬取网页时,通过print函数输出内容进行调试,但是总会遇到解码不了的字符 ...

最新文章

  1. 数据中台解决的三大问题
  2. c#排序算法(待续)
  3. 5 Jedis 操作
  4. Django——2 路由分配设置 re_path正则匹配 include总路由 url传参 name使用 模板渲染render方法 模板渲染方法...
  5. 高考能否决定一个人的命运?抱歉,真的可以!
  6. Flink : Could not resolve substitution to a value: ${akka.stream.materializer}
  7. WPF 凭证分录控件
  8. Windows 的开发好痛苦
  9. 二极管计算机原理,二极管的原理
  10. 生日蛋糕(noi99)
  11. 基于Ace的Markdown编辑器
  12. WindowsServer2012 R2配置远程服务器并使用域名访问(非 IIS)
  13. 极客时间 算法训练营 第一周总结
  14. 基于Unity简单绘图系统
  15. ESP32+dht11/sht30测温湿度(arduino编程)
  16. 基于stm32mini开发板的简易函数发生器和简易示波器
  17. 企业数据仪表盘设计思路,如何设计自己的BI产品
  18. 2020年全球光伏逆变器市值将超过71亿美元
  19. 中小学必背的208篇古诗文
  20. 携程亲子园被曝教师欺虐幼童;腾讯再次收购Snap股票;Uber与NASA签订合作协议丨价值早报

热门文章

  1. linux putty 访问网址,puTTY、xshell链接Linux
  2. 牛客网[编程题] DNA合成(Java实现)
  3. 关于百度编辑器设置默认行间距段间距
  4. 大型云平台建设的技术方案思考
  5. tar压缩或者解压文件(包含当前文件夹 不包含当前文件夹 两种情况)
  6. HTML5和CSS3基本知识
  7. Google's BBR TCP拥塞控制算法的四个变速引擎
  8. 数据增强:水平与垂直翻转
  9. python tkinter canvas上删除图形与撤销删除的操作
  10. python图形界面代码_python tkinter图形界面代码统计工具(更新)