参考链接:
(1)https://www.cnblogs.com/HANYI7399/p/6080070.html
(2)https://blog.csdn.net/weixin_30780649/article/details/99231980

写爬虫的时候,反复遇到这个问题(其实是个warning):Some characters could not be decoded, and were replaced with REPLACEMENT CHARACTER.
这是什么东东?


问题其实出现在这一句(from_encoding一句是后来加上去的,一般是from_encoding="iso-8859-1"或者from_encoding="gbk"或者from_encoding="utf-8"或者from_encoding=“gb2312”)


也就是说在使用BeautifulSoup解析爬取的网页时,出现了一些非utf-8或其他的字符,导致解析的时候warning(就是上述提及的错误)。

参考链接的解释:在极少数情况下(通常当UTF-8文档包含以完全不同的编码编写的文本时),获取Unicode的唯一方法是使用特殊的Unicode字符“REPLACEMENT CHARACTER”(U + FFFD)替换某些字符。 如果是Unicode,Dammit需要这样做,它将在UnicodeDammit或BeautifulSoup对象上将.contains_replacement_characters属性设置为True。 这让您知道Unicode表示不是原始的精确表示 - 一些数据丢失。 如果文档包含 ,但是.contains_replacement_characters为False,那么您将知道 原来是存在的,并且不代表缺少的数据。

解决:soup=BeautifulSoup(urllib.request.urlopen(url_path),"“html.parser”,from_encoding=“iso-8859-1”)

python 问题Some characters could not be decoded, and were replaced with REPLACEMENT CHARACTER.相关推荐

  1. python ValueError: No JSON object could be decoded

    前提 不带BOM的utf-8编码格式 转换成ANSI编码时,空白区域不能出现乱码,如下图所示,空白区域应该用制表符\t替换 问题原因: 用`notepad++`打开json文件,并且使用`ANSI`编 ...

  2. iOS和iPad OS 14 Beta 4发行说明

    iOS和iPad OS 14 Beta 4发行说明 更新您的应用程序以使用新功能,并针对API更改测试您的应用程序. 总览 iOS&iPadOS 14 SDK支持开发运行iOS&iPa ...

  3. 爬虫python怎么下载_在网上下了一个 python 爬虫程序,怎么运行?

    第 1 条附言 · 2016-07-02 18:51:15 +08:00 我换 linux 环境现在可以运行了,运行$ python doubanSpider.py 后一直在下载,是什么意思额? /u ...

  4. python 网络小说爬取3

    /* 网络小说:[secret] */ #coding:utf-8 import re import sys from bs4 import BeautifulSoup import urllib.r ...

  5. 【爬虫笔记】关于Beautiful Soup 4

    再使用Beautiful Soup 4时遇到了一些问题,找到了解决方法,通过本博文将遇到的问题和解决方法记录下来,方便回顾也希望能帮助大家解决类似问题. 1. 遇到"Some charact ...

  6. python基础之数据类型与变量

    阅读目录 一.变量 二.数据类型 2.1 什么是数据类型及数据类型分类 2.2 标准数据类型: 2.2.1 数字 2.2.1.1 整型: 2.2.1.2 长整型long: 2.2.1.3 布尔bool ...

  7. Python数据类型之字符串

    一.基本数据类型 整数:int 字符串:str(注:\t等于一个tab键) 布尔值: bool 列表:list 列表用[] 元祖:tuple 元祖用() 字典:dict 注:所有的数据类型都存在想对应 ...

  8. python之列表、字典、集合

    列表 name = ["Alex","Eenglan","Eric"] print(name[0]) print(name[1]) prin ...

  9. python的内置函数功能[翻译]

    Python 解释器内置了许多始终可用的函数和类型.它们按字母顺序列在这里.   内置功能     abs() dict() help() min() setattr() all() dir() he ...

最新文章

  1. Ubuntu virtualbox
  2. 《从Excel到R 数据分析进阶指南》一3.4 更改数据格式
  3. 【 Vivado 】输入延迟约束实例
  4. hihoCoder #1954 : 压缩树(虚树)
  5. html网页语言是什么,HTML是什么?
  6. 在ASP.NET MVC3项目中,自定义404错误页面
  7. C#实现软键盘的几个关键技术实现方法
  8. uml 类图聚合与组合
  9. 用sniffer技术盗取电话银行密码
  10. 【Java】获取目录及其子目录文件的相关事宜
  11. 前端学习(2527):功能展示
  12. C++奇特的递归模板式
  13. Visual Studio中创建混合移动应用程序解决方案Xamarin Portable Razor
  14. tensorboard的安装与使用
  15. 基于NoSQL的租房(链家)信息数据分析(附代码)
  16. HTML如何剪切图片,css如何截取图片?
  17. 单片机- >网络模块(WIFI or 4G)->logstash->kafka->写入服务->es->grafana
  18. 网络wifi已连接显示不可上网的解决方法教程
  19. 智能车摄像头组怎么在OLED屏画出中线
  20. Linux(Ubuntu)入门——2.Linux基础命令

热门文章

  1. 实习日记——Day36
  2. asmr刷新失败无法连接上服务器_月圆之夜连接服务器失败 连接不上网络怎么办...
  3. (课程笔记)| 林轩田机器学习基石入门(一)
  4. 学习CSS的background属性及其取值(实践)
  5. 护眼灯国a和国aa的区别有哪些?2022如何选择真正能护眼的台灯
  6. 小车自动往返工作原理_自动往返小汽车
  7. 大学四年,我把私藏「B站」 20 个学习 UP 主贡献出来!
  8. 战列舰机械计算机,问个事,二战时期的战列舰可以装备垂直稳定仪么?
  9. OpenAtom XuperChain开发者夏季论坛落幕,多位行业大咖共话开源区块链前景
  10. 水下传感器网络研究——第5章 路由协议