NCrawler爬取中文网页时乱码问题的解决方法

在使用.NET下的NCrawler爬取网页信息时，如果网页以GBK或GB2312进行编码，则下载的内容会出现乱码。

查找原因，发现在NCrawler.HtmlProcessor项目下HtmlDocumentProcessor.cs中的Process()方法使用htmlDoc.DetectEncoding(reader)进行页面编码检测，出现中文乱码情况。

改用HttpWebResponse中返回的CharacterSet进行编码判断，发现部分网页的Header中未定义CharacterSet，会出现乱码。调试发现这类网页的HttpWebResponse中返回的CharacterSet被统一设置为ISO-8859-1。查阅MSDN发现CharacterSet的缺省设置为ISO-8859-1。

修改Process()，使用以下方法可以有效解决乱码问题：

Encoding documentEncoding = Encoding.GetEncoding(propertyBag.CharacterSet);
if (propertyBag.CharacterSet == "ISO-8859-1")
{
　　documentEncoding = htmlDoc.DetectEncoding(reader);
}

转载于:https://www.cnblogs.com/leoyoungblog/p/5075847.html

NCrawler爬取中文网页时乱码问题的解决方法相关推荐

requests爬取中文网页时中文字符变英文的解决方法
在使用python requests库爬取网页时,源代码中的中文字符在爬取下来后变成了英文字符例如: import requests r = requests.get('http://apps.we ...
关于Centos中在线解压文件名中有中文字符出现乱码的终极解决方法 unar 我的压缩文件.zip
本帖最后由 hsxnet 于 2018-2-4 16:14 编辑关于Centos中在线解压文件名中有中文字符出现乱码的终极解决方法(亲测总结): 记录一下我测试的笨办法,以备自己日后查询: 一.从C ...
Python:爬取数据出现response.status_code为403解决方法
目录前言 1. 原理 2. 代码前言出现403的返回结果主要是有些服务器为了防止访问量过大,承受服务器的压力,或者是拒绝你的访问.服务器接收到这个信息,理应返回了这个403的信息在前一块的代 ...
scrapy 爬取https网页时出现ssl错误
还有好多错误代码没有保存下来,错误发生在Openssl/SSL.py中: AttributeError:'NoneType'object has no attribute '_app_data' 1 ...
【爬虫】Selenium爬取动态网页的base64图片
文章简介 Selenium爬取动态网页的base64图片,并解决页面完整加载缓慢,base64字符串的获取和格式转码,一些页面不存在,部分照片无法加载等问题.后附源码. 目录 1,需求 2,环境和使用 ...
requests.get()爬去中文网页乱码解决方法
requests.get()爬去中文网页乱码解决方法当我们使用requests.get()爬取百度首页时会发现,返回的html代码中的中文发生乱码. import requestsheaders = ...
解决Scrapy抓取中文网页保存为json文件时中文不显示而是显示unicode的问题
注意:此方法跟之前保存成json文件的写法有少许不同之处,注意区分情境再现: 使用scrapy抓取中文网页,得到的数据类型是unicode,在控制台输出的话也是显示unicode,如下所示 {'au ...
利用img请求一个html页面,爬虫学习笔记——爬取单个网页里的所有图片（入门）...
最近闲着,想学一下爬虫 (^-^)V --[手动比耶]先从简单的练习开始吧~ 爬取单个网页里的所有图片,这个没有什么难点,因为不需要翻页哈哈哈哈. 我很喜欢一些文章中的配图,比如这篇,里面就会有很多电 ...
Python爬虫练习笔记——爬取单个网页里的所有图片（入门）
最近闲着,想学一下爬虫 (^-^)V --[手动比耶] 先从简单的练习开始吧~ 爬取单个网页里的所有图片,这个没有什么难点,因为不需要翻页哈哈哈哈. 我很喜欢一些文章中的配图,比如这篇,里面就会有很多 ...

NCrawler爬取中文网页时乱码问题的解决方法

NCrawler爬取中文网页时乱码问题的解决方法相关推荐

最新文章

热门文章