环境:Win7_x64 + python3.4.3

需要先下载chardet并进行安装,下载地址:https://pypi.python.org/packages/source/c/chardet/chardet-2.3.0.tar.gz

安装:进入解压后的目录,在命令窗口执行: python setup.py install

写个测试的python脚本吧(DetectURLCoding.py):

#coding:utf-8
'''python 3.x'''
import sys
import urllib.request
import chardet
# 将data写入文件fname
def writeFile(fname, data):
f = open(fname, "wb")
if f:
f.write(data)
f.close()
def blog_detect(blogurl):
'''检测编码方式'''
try:
fp = urllib.request.urlopen(blogurl)
except Exception as e:
print(e)
print('download exception-[%s]' %blogurl)
return 0
blog = fp.read()   # python3.x read the html as html code bytearray
fp.close()
#writeFile("t.html", blog)
# get encoding string
codedetect = chardet.detect(blog)['encoding']
print('%s <- %s' %(blogurl, codedetect))
return 1
if __name__=='__main__':
if len(sys.argv) == 1:
print('''usage:
python DetectURLCoding.py http://xxx.com''')
else:
v = blog_detect(sys.argv[1])
print(v)

运行结果:

D:\profile\Desktop>PYTHON de.py http://www.baidu.com
http://www.baidu.com <- utf-8
1
D:\profile\Desktop>PYTHON de.py http://photo.cankaoxiaoxi.com/roll10/2015/0318/709734.shtml
http://photo.cankaoxiaoxi.com/roll10/2015/0318/709734.shtml <- utf-8
1

[python3.x] 利用chardet检测网页编码相关推荐

  1. python 检测文件编码_[常用] 在Python中检测网页编码

    [常用] 在Python中检测网页编码 在使用Python抓取网页并进行分析时出现这个错误: UnicodeDecodeError: 'utf8' codec can't decode byte 0x ...

  2. 【爬虫】获取网页编码、chardet库、Python的字符编码

    目录 1.常用网页编码有 2.怎么知道一个网页的编码? 我们知道可以从审查元素(F12)通过查看元素获得. 那么有没有一种方法可以通过代码获取到编码呢? 3.chardet库 1.安装 2.chard ...

  3. python 测试字符串类型_【教程】如何用Python中的chardet去检测字符编码类型

    [背景] 之前已经使用过chardet了,也算用了不少次了. 之前也写过和chardet相关的: 但是没写教程,举例说明如何使用. 现在去举例解释解释. [python示例代码演示如何用chardet ...

  4. wpf esc key 检测不到_爬虫笔记之requests检测网站编码方式(zozo.jp)(碎碎念) - CC11001100...

    发现有些网站的编码方式比较特殊,使用requests直接请求拿是得不到正确的文本的,比如这个网站: 当使用requests访问网站,使用方式取响应文本的时候,会发现得到的是奇怪的内容: #!/usr/ ...

  5. python字符串成熟编码_python字符串转公式两种方法获取网页编码python版

    在web开发的时候我们经常会遇到网页抓取和分析,各种语言都可以完成这个功能.我喜欢用python实现,因为python提供了很多成熟的模块,可以很方便的实现网页抓取. 但是在抓取过程中会遇到编码的问题 ...

  6. 探索移动Web网页编码设计

    如果你正准备为你的网站制作一个移动设备版本,那这篇文章将会对你相当有用,在本文中,将探索移动Web网页编码设计的各种技巧和注意事项: 为了移动设备上的用户体验可以被接受,代码得怎么设计. Mobile ...

  7. java 网页编码_JAVA如何判断网页编码

    前言 最近做一个搜索项目,需要爬取很多网站获取需要的信息.在爬取网页的时候,需要获得该网页的编码,不然的话会发现爬取下来的网页有很多都是乱码. 分析 一般情况下,网页头信息会指定编码,可以解析head ...

  8. 小白必看、手把手教你利用爬虫爬网页

    接下来从网络爬虫的概念.用处与价值和结构等三个方面,让大家对网络爬虫有一个基本的了解. 网络爬虫及其应用 随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战, ...

  9. php判断网页编码,python判断网页编码的方法

    在web开发的时候我们经常会遇到网页抓取和分析,各种语言都可以完成这个功能.我喜欢用python实现,因为python提供了很多成熟的模块,可以很方便的实现网页抓取. 但是在抓取过程中会遇到编码的问题 ...

最新文章

  1. 计算机应用基础电子演示文稿系统行考作业,最新电大计算机应用基础形考PowerPoint答案...
  2. 2020《图像分割》从入坑到出坑指南
  3. 数据蒋堂 | Hadoop - 一把杀鸡用的牛刀
  4. memset、memcpy、strcpy、HeapAlloc
  5. MongoDB架构图解
  6. P3980 NOI2008志愿者招募
  7. 弗林的计算机体系结构分类
  8. Windows平台下Go语言的安装和环境变量设置
  9. 第九届河南理工大学算法程序设计大赛 正式赛(部分题解)
  10. c语言函数调用--素数
  11. PLC通讯智能网关-不用PLC编程,实现西门子PLC与罗克韦尔(AB)PLC之间数据通讯
  12. 视觉SLAM十四讲学习记录 第三讲
  13. 基于企鹅优化算法的航空调度问题(Matlab代码实现)
  14. qt 元对象 和moc原理
  15. 转载:Transferring Login Credentials Securely
  16. CSS 3D动态立体图形
  17. 微信小程序——简单计算器
  18. 微型计算机48MHz辐射超,造成EMC辐射超标原因有哪些(精彩案例分析)
  19. Git强拉远程代码覆盖本地代码
  20. visualGDB配合VS2015使用,出现函数内部局部变量无法跳转到定义的解决方法。

热门文章

  1. VSFTP配置详解+虚拟用户的支持
  2. leetcode 852. 山脉数组的峰顶索引(二分查找)
  3. leetcode 435. 无重叠区间
  4. cloudwatch监控_Amazon CloudWatch:无服务器日志记录和监控基础
  5. 构建持续交付_如何使交付成为您的重点将如何帮助您构建高质量的应用程序
  6. 如何使用TensorFlow对象检测API播放Quidditch
  7. tomcat中设置Java 客户端程序的http(https)访问代理
  8. Vmware 安装虚拟工具 (二)
  9. @ResponseBody//该注解会将返回值转为json格式并放到响应体中返回到前台
  10. SqlServer 备份还原教程