转自:https://www.cnblogs.com/BlackStorm/p/6359005.html

处理方法 str.replace(u'\xa0', u' ')

最近用 scrapy 爬某网站,发现拿到的内容里面含有 \xa0 、 \u3000 这样的字符,起初还以为是编码不对,搜了一下才知道是见识太少 233 。

\xa0 是不间断空白符

我们通常所用的空格是 \x20 ,是在标准ASCII可见字符 0x20~0x7e 范围内。

而 \xa0 属于 latin1 (ISO/IEC_8859-1)中的扩展字符集字符,代表空白符nbsp(non-breaking space)。

latin1 字符集向下兼容 ASCII ( 0x20~0x7e )。通常我们见到的字符多数是 latin1 的,比如在 MySQL 数据库中。

\u3000 是全角的空白符

根据Unicode编码标准及其基本多语言面的定义, \u3000 属于CJK字符的CJK标点符号区块内,是空白字符之一。它的名字是 Ideographic Space ,有人译作表意字空格、象形字空格等。顾名思义,就是全角的 CJK 空格。它跟 nbsp 不一样,是可以被换行间断的。常用于制造缩进, wiki 还说用于抬头,但没见过。

这里还有一个 Unicode.org 上关于 CJK 标点符号块的字符代码表。

转自https://www.cnblogs.com/my8100/p/7709371.html

0.目录

1.参考

2.问题定位

不间断空格的unicode表示为 u\xa0',超出gbk编码范围?

3.如何处理

.extract_first().replace(u'\xa0', u' ').strip().encode('utf-8','replace')

1.参考

详细解释

unicodedata.normalize('NFKD',string) 实际作用???

>>> selector.xpath(u'''

... //p[normalize-space()]

... [not(contains(normalize-space(), "\u00a0"))]

normalize-space() 实际作用???

In [244]: sel.css('.content')

Out[244]: [

python爬取内容剔除nbsp_python 爬虫爬取内容时, \xa0 、 \u3000 的含义与处理方法...相关推荐

  1. 在linux下python爬虫进程发生异常时自动重启直至正常结束的方法

    在linux下python爬虫进程发生异常时自动重启直至正常结束的方法 参考文章: (1)在linux下python爬虫进程发生异常时自动重启直至正常结束的方法 (2)https://www.cnbl ...

  2. python爬取微博文本_Python爬虫爬取新浪微博内容示例【基于代理IP】

    本文实例讲述了Python爬虫爬取新浪微博内容.分享给大家供大家参考,具体如下: 用Python编写爬虫,爬取微博大V的微博内容,本文以女神的微博为例(爬新浪m站:https://m.weibo.cn ...

  3. python爬取微博指定内容_python3.5爬虫-爬取微博某博主微博内容

    想要爬取某个博主的微博数据.在网络上寻找了很多关于爬取微博内容的教程,发现有些教程比较老旧了,已经无法再用,有些教程在我这里出现一些问题,比如爬取移动端的微博需要获取登陆cookie,而我的谷歌浏览器 ...

  4. python爬取学校新闻_python爬虫爬取新闻的简单实现

    我们通常是使用爬虫爬取网站信息,其实网络爬虫是一种应用于搜索引擎的程序.使用python爬虫可以将一个网站的所有内容与链接进行阅读.例如我们每日都要获取新闻信息,利用python爬虫就可以帮助我们爬取 ...

  5. python爬取bilibili弹幕_Python爬虫爬取Bilibili弹幕过程解析

    先来思考一个问题,B站一个视频的弹幕最多会有多少? 比较多的会有2000条吧,这么多数据,B站肯定是不会直接把弹幕和这个视频绑在一起的. 也就是说,有一个视频地址为https://www.bilibi ...

  6. python爬图代码实例_Python爬虫爬取煎蛋网图片代码实例

    这篇文章主要介绍了Python爬虫爬取煎蛋网图片代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 今天,试着爬取了煎蛋网的图片. 用到的包: ...

  7. python爬取豆瓣短评_爬虫-爬取豆瓣短评

    爬虫-爬取豆瓣短评 啥是爬虫? ​按照一定的规则,自动地抓取互联网信息的程序. 为啥要用爬虫? ​可以利用爬虫自动地采集互联网中的信息,采集回来后进行相应的存储或处理,在需要检索某些信息的时候,只需在 ...

  8. python爬取数据步骤_Python爬虫爬取数据的步骤

    爬虫: 网络爬虫是捜索引擎抓取系统(Baidu.Google等)的重要组成部分.主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份. 步骤: 第一步:获取网页链接 1.观察需要爬取的多 ...

  9. python爬取豆瓣电影top250_Python爬虫——爬取豆瓣电影Top250代码实例

    利用python爬取豆瓣电影Top250的相关信息,包括电影详情链接,图片链接,影片中文名,影片外国名,评分,评价数,概况,导演,主演,年份,地区,类别这12项内容,然后将爬取的信息写入Excel表中 ...

最新文章

  1. R语言dplyr包对数据进行超前或者之后处理(lead、lag)实战
  2. IntelliJ IDEA 使用随笔
  3. Matplotlib 绘图秘籍
  4. Session 工作原理
  5. python实现图片拼接长图_python 多张图片拼接为一张长图
  6. LCD显示屏加入百叶窗特效显示BMP图片
  7. Elasticsearch关闭index的自动日期检测
  8. 22个常用Python包,相信你一定用的到!
  9. PP实施经验分享(4)——SAP中BOM应用
  10. 【数智化人物展】网智天元莫倩:“感、联、知、控”,四步方可打造企业数智化转型升级路径...
  11. win10投影到此电脑显示灰色解决办法
  12. 晶联讯LCD(JLX128128G-610-PC)使用教程
  13. 「Python条件结构」嵌套if:实现奖学金评定
  14. OpenSSL编译说明:Linux结合libcurl库编程实现人脸识别和车牌识别
  15. 如何将网站上传到服务器空间,如何使用FTP工具将网站上传到虚拟主机空间
  16. Red Hat Enterprise Linux 7 正式版发布
  17. js43刀片服务器内存位置,IBM Power服务器简介(ppt 43页)-精.ppt
  18. 友善之臂linux内核移植步骤,友善之臂 madplayer 移植过程补充
  19. 特别总账SGL特别总账科目配置和实操【FBKP/OBXR/OBYR】
  20. CentOS 7 搭建 Keepalived+LVS NAT模式 高可用集群

热门文章

  1. 设计灵感|C4D卡通角色设计作品,你想要的模型集设都有
  2. 网页排版规则:你需要知道的
  3. 想要学习UI动效设计?从这些软件入手
  4. UI设计需要学习什么软件?
  5. 知云文献阅读器_知云文献翻译
  6. 记一次pthread_cancel_init段错误分析(bpftrace)
  7. 网站主机 技术+类型
  8. 浅析 Bash 中的 {花括号} | Linux 中国
  9. OSI参考模型和TCP/IP参考模型
  10. activity绑定service