Unicode, dammit! (靠!)

编码自动检测 功能可以在Beautiful Soup以外使用,检测某段未知编码时,可以使用这个方法:

from bs4 import UnicodeDammit
dammit = UnicodeDammit("Sacr\xc3\xa9 bleu!")
print(dammit.unicode_markup)
# Sacré bleu!
dammit.original_encoding
# 'utf-8'

如果Python中安装了 chardet 或 cchardet 那么编码检测功能的准确率将大大提高.输入的字符越多,检测结果越精确,如果事先猜测到一些可能编码,那么可以将猜测的编码作为参数,这样将优先检测这些编码:

dammit = UnicodeDammit("Sacr\xe9 bleu!", ["latin-1", "iso-8859-1"])
print(dammit.unicode_markup)
# Sacré bleu!
dammit.original_encoding
# 'latin-1'

编码自动检测 功能中有2项功能是Beautiful Soup库中用不到的

转载于:https://my.oschina.net/u/3244782/blog/910710

dammit! (靠!)相关推荐

  1. Java is Pass-by-Value, Dammit! 我靠!Java就是值传递!

    Java is Pass-by-Value, Dammit! 我靠!Java就是值传递! 原文地址:http://javadude.com/articles/passbyvalue.htm 关键点 形 ...

  2. Java is Pass-by-Value, Dammit!

    2019独角兽企业重金招聘Python工程师标准>>> Java is Pass-by-Value, Dammit! Serbo-Croation Translation Avail ...

  3. Python教程WEB安全篇

    lxj616 · 2014/07/21 11:20 0x00 概述 本文从实例代码出发,讲解了Python在WEB安全分析中的作用,以最基础的示例向读者展示了Python如何解析.获取.以及处理各种类 ...

  4. 2019-11-23 Modern Family Scripts (01 “Pilot”)

    You can download Modern Family Scripts here 01 "Pilot" Claire : Kids, breakfast! Kids? Phi ...

  5. html自定义标记,HTML模板(自定义)标记

    我知道使用自定义html标记由于各种原因是不合适的,但我想运行一个特定的情况,可能需要自定义html标记,并希望得到其他方面的信息,或者可能更好实现我的目标的方式.HTML模板(自定义)标记 在我的代 ...

  6. 传值类型_Java内存管理:Stackoverflow问答-Java是传值还是传引用(十一)

    勿在流沙筑高台,出来混迟早要还的. 做一个积极的人 编码.改bug.提升自己 我有一个乐园,面向编程,春暖花开! 本文导图: 一.由一个提问引发的思考 在Stack Overflow 看到这样一个问题 ...

  7. 最全面超大规模数据集下载链接汇总(转)

    大数据   大数据 1. https://delicious.com/pskomoroch/dataset 2.http://stackoverflow.com/questions/10843892/ ...

  8. 01-windows下python爬取网页上的图片

    1.首先下载python,安装环境 pycharm.anaconda的下载与安装 移步各个主页下载,一键式安装. - pycharm: http://www.jetbrains.com/pycharm ...

  9. Linux 2.6.39-rc3的一个插曲

    2019独角兽企业重金招聘Python工程师标准>>> 011年4月12日,Linux 2.6.39-rc3发布了,Linus Torvalds写了一个发布邮件,其中包含了一个长长的 ...

最新文章

  1. acl审计软件_什么是IT审计员?风险评估的重要角色
  2. SendMessage
  3. 第四十三篇 面向对象进阶2
  4. Python递归打印函数
  5. JS 获取随机颜色值
  6. Java编程解密-Dubbo负载均衡与集群容错机制
  7. 关于Mac能连上Wi-Fi但无法上网的问题?方法来啦
  8. c语言文件名错误的是,C语言程序错误,不能正常读写文件,求解啊
  9. Maven 环境变量配置
  10. 基于私钥生成jwt令牌
  11. 使用ESP32连接腾讯云实现远程控制方法
  12. NNabla:索尼开源的一款神经网络框架
  13. Linux:试管中的生命
  14. R语言入门(15)_读取文件(read)
  15. 什么是自底向上/自上而下的显著性目标检测?
  16. 激光测距仪工作模式及维保——TFN BKD系列双目激光测距仪
  17. 如何把照片做成视频?抖音爆款的图片视频切换教程,快速上手!
  18. 2017年12月英语六级翻译洞庭湖
  19. 手撸一个在线学习在线教育小程序
  20. 如何获取UnrealEngine虚幻引擎的WebUI插件

热门文章

  1. 市场调研-全球与中国沉鱼饲料市场现状及未来发展趋势
  2. 前两天搞的东西 象棋棋谱字符转换
  3. springboot集成配置swaggerUI
  4. css+html创建一个大风车
  5. 外设驱动库开发笔记40:AT25xxx外部存储器驱动
  6. 网络爬虫学习1 - 使用 requests.get(url) 抓取网页
  7. idea不区分大小写提示
  8. MySQL与PostgreSQL抓取慢sql的方法
  9. Linux高级应用(十)控制蜂鸣器的应用程序
  10. rs232读取智能电表_跟大家聊一聊智能电表上的铭牌认识,和电表的防窃电。