requests爬取中文网页时中文字符变英文的解决方法

在使用python requests库爬取网页时，源代码中的中文字符在爬取下来后变成了英文字符

例如：

import requests

r = requests.get('http://apps.webofknowledge.com', headers = {'User-Agent': 'Mozilla/5.0'})

print(r.text[:1000])

结果为：

'<!DOCTYPE html> <html> <head><link rel="icon" href="http://images.webofknowledge.com/WOKRS5272R3/images/wok_favicon.ico" type="image/x-icon"/><title>Web of Science [v.5.27.2] - All Databases Home </title><link rel="stylesheet" href="http://images.webofknowledge.com/WOKRS5272R3/css/WoKcommon.css" type="text/css" /><link rel="stylesheet" href="http://images.webofknowledge.com/WOKRS5272R3/css/WoKcomponents.css" type="text/css" /><link rel="stylesheet" h'

而网页源代码确是这样的：

显然，源代码中的中文字符“所有数据库主页”在爬下来后变成了英文“All Databases Home”

解决方法：

在请求头headers中添加‘Accept-Language':'zh-CN'，即请求代码变为：

import requests

r = requests.get('http://apps.webofknowledge.com', headers = {'User-Agent': 'Mozilla/5.0', 'Accept-Language':'zh-CN'})

print(r.text[:1000])

结果就OK了：

'<!DOCTYPE html> <html> <head><link rel="icon" href="http://images.webofknowledge.com/WOKRS5272R3/images/zh_CN/wok_favicon.ico" type="image/x-icon"/><title>Web of Science [v.5.27.2] - 所有数据库主页 </title><link rel="stylesheet" href="http://images.webofknowledge.com/WOKRS5272R3/css/WoKcommon.css" type="text/css" /><link rel="stylesheet" href="http://images.webofknowledge.com/WOKRS5272R3/css/WoKcomponents.css" type="text/css" /><link rel="stylesheet" href="'

requests爬取中文网页时中文字符变英文的解决方法相关推荐

scrapy 爬取https网页时出现ssl错误
还有好多错误代码没有保存下来,错误发生在Openssl/SSL.py中: AttributeError:'NoneType'object has no attribute '_app_data' 1 ...
做网页时遇到的一些问题和解决方法
创建word文档: 在创建word文档时,如果此时Microsoft office word正处于打开状态,此时,是不能向word文档中写入数据的,但是可以创建word文档. 创建word文档时,创建 ...
打开网页时出现DA AddrBar icon的解决方法
解决方法1:装了迅雷7后地址栏后面有个迅雷的标志,点一下关闭即可! 解决方法2:打开迅雷设置,取消迅雷下载助手,然后点修复浏览器关联,重启浏览器就可以了!
python3.x+requests 爬取网站遇到中文乱码的解决方案
正常情况下,遇见问题上google找答案能甩百度100条街,但是这个问题是个例外······人家老外就没有乱码的问题.言归正传,首先建议大家看一下python3.x+requests 爬取网站遇到中文 ...
lxml xpath 爬取并正常显示中文内容
在使用python爬虫提取中文网页的内容,为了能正确显示中文的内容,在转为字符串时一定要声明编码为utf-8,否则无法正常显示中文,而是显示原编码的字符,并没有正确转换.比如下面这个简单的爬取百度页面 ...
python3 requests+bs4爬取某网页MM图片
python3 requests+bs4爬取某网页MM图片原理: 将所要抓取的首页分标题及地址保存到字典,遍历字典,对每一个标题下的所有分页进行抓取 import requests from bs4 ...
python爬去音乐_Python爬虫——分析酷我音乐网站，并爬取歌曲-Go语言中文社区
前言: 爬取数据,我们都先必须了解开发者工具的使用和网页的源代码,即Python导入第三方库的步骤. 开发者工具使用步骤: 使用F12或者Ctrl+Shirt+i打开开发者工具说明: 1)先检查HT ...
Python网页爬虫练习：requests库Beautiful爬取bilibili网页信息
我是卢本伟! import requests from bs4 import BeautifulSoup import bs4 def get_blibli_vedio():#获取bilibili实时 ...
Python爬虫爬取静态网页基本方法介绍
爬取静态网页的技术数据请求模块一.Requests库发送GET请求发送POST请求 get请求和post请求两者之间的区别处理响应定制请求头验证Cookie 保持会话二.urllib库 ...

requests爬取中文网页时中文字符变英文的解决方法

解决方法：

requests爬取中文网页时中文字符变英文的解决方法相关推荐

最新文章

热门文章