在使用python requests库爬取网页时,源代码中的中文字符在爬取下来后变成了英文字符
例如:
import requests
r = requests.get('http://apps.webofknowledge.com', headers = {'User-Agent': 'Mozilla/5.0'})
print(r.text[:1000])
结果为:
'<!DOCTYPE html>                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                    <html>                                         <head><link rel="icon" href="http://images.webofknowledge.com/WOKRS5272R3/images/wok_favicon.ico" type="image/x-icon"/><title>Web of Science [v.5.27.2]  -      All Databases Home  </title><link rel="stylesheet" href="http://images.webofknowledge.com/WOKRS5272R3/css/WoKcommon.css" type="text/css" /><link rel="stylesheet" href="http://images.webofknowledge.com/WOKRS5272R3/css/WoKcomponents.css" type="text/css" /><link rel="stylesheet" h'
而网页源代码确是这样的:
显然,源代码中的中文字符“所有数据库主页”在爬下来后变成了英文“All Databases Home”

解决方法:

在请求头headers中添加‘Accept-Language':'zh-CN',即请求代码变为:
import requests
 r = requests.get('http://apps.webofknowledge.com', headers = {'User-Agent': 'Mozilla/5.0', 'Accept-Language':'zh-CN'})
print(r.text[:1000])
结果就OK了:
'<!DOCTYPE html>                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                    <html>                                         <head><link rel="icon" href="http://images.webofknowledge.com/WOKRS5272R3/images/zh_CN/wok_favicon.ico" type="image/x-icon"/><title>Web of Science [v.5.27.2]  -      所有数据库主页  </title><link rel="stylesheet" href="http://images.webofknowledge.com/WOKRS5272R3/css/WoKcommon.css" type="text/css" /><link rel="stylesheet" href="http://images.webofknowledge.com/WOKRS5272R3/css/WoKcomponents.css" type="text/css" /><link rel="stylesheet" href="'

requests爬取中文网页时中文字符变英文的解决方法相关推荐

  1. scrapy 爬取https网页时出现ssl错误

    还有好多错误代码没有保存下来,错误发生在Openssl/SSL.py中: AttributeError:'NoneType'object has no attribute '_app_data' 1 ...

  2. 做网页时遇到的一些问题和解决方法

    创建word文档: 在创建word文档时,如果此时Microsoft office word正处于打开状态,此时,是不能向word文档中写入数据的,但是可以创建word文档. 创建word文档时,创建 ...

  3. 打开网页时出现DA AddrBar icon的解决方法

    解决方法1:装了迅雷7后地址栏后面有个迅雷的标志,点一下关闭即可! 解决方法2:打开迅雷设置,取消迅雷下载助手,然后点修复浏览器关联,重启浏览器就可以了!

  4. python3.x+requests 爬取网站遇到中文乱码的解决方案

    正常情况下,遇见问题上google找答案能甩百度100条街,但是这个问题是个例外······人家老外就没有乱码的问题.言归正传,首先建议大家看一下python3.x+requests 爬取网站遇到中文 ...

  5. lxml xpath 爬取并正常显示中文内容

    在使用python爬虫提取中文网页的内容,为了能正确显示中文的内容,在转为字符串时一定要声明编码为utf-8,否则无法正常显示中文,而是显示原编码的字符,并没有正确转换.比如下面这个简单的爬取百度页面 ...

  6. python3 requests+bs4爬取某网页MM图片

    python3 requests+bs4爬取某网页MM图片 原理: 将所要抓取的首页分标题及地址保存到字典,遍历字典,对每一个标题下的所有分页进行抓取 import requests from bs4 ...

  7. python爬去音乐_Python爬虫——分析酷我音乐网站,并爬取歌曲-Go语言中文社区

    前言: 爬取数据,我们都先必须了解开发者工具的使用和网页的源代码,即Python导入第三方库的步骤. 开发者工具使用步骤: 使用F12或者Ctrl+Shirt+i打开开发者工具 说明: 1)先检查HT ...

  8. Python网页爬虫练习:requests库Beautiful爬取bilibili网页信息

    我是卢本伟! import requests from bs4 import BeautifulSoup import bs4 def get_blibli_vedio():#获取bilibili实时 ...

  9. Python爬虫爬取静态网页基本方法介绍

    爬取静态网页的技术 数据请求模块 一.Requests库 发送GET请求 发送POST请求 get请求和post请求两者之间的区别 处理响应 定制请求头 验证Cookie 保持会话 二.urllib库 ...

最新文章

  1. linux驱动:TI+DM8127+GPIO(一)之应用——报警输入输出
  2. 我们与Datawhale的故事!
  3. POJ 2104 划分树
  4. javascript date utc
  5. 关于Linux内核vmlinuz、initrd.img和System.map
  6. c++ stl源码-我理解的空间配置器
  7. 数据结构-二叉树的定义、创建和周游(前序、中序、后序和层序)
  8. c语言数组文曲星猜数游戏编程,关于文曲星上猜数字游戏的c编程方法
  9. python基础--del操作
  10. 《操作系统真象还原》——0.25 指令集、体系结构、微架构、编程语言
  11. APP爬虫|frida-某资讯app逆向过程,带你一起使用 frida 进行完整逆向
  12. 二级计算机c语言解题技巧,2010年全国计算机等级考试二级C语言考试题型解题技巧...
  13. html和css实现透明div上的div不透明,也可说父div透明,子div不透明
  14. 解决:SCRIPT5011: Can't execute code from a freed script
  15. 用 HTML5 造个有诚意的 23D 招聘稿
  16. 计算机科学与技术寒假社会实践,计算机科学与技术专业寒假社会实践报告.doc...
  17. 代码签名证书过期,Mozilla数百万Firefox用户遭遇扩展禁用
  18. Android摄影App,10个安卓手机必备的摄影App!你肯定能找到自己心仪的一款
  19. Beef加载msf插件---metasploit对IE浏览器的极光漏洞进行渗透利用
  20. pythonturtle画小丸子_【二次元stylus解放css】用stylus画可爱的小丸子

热门文章

  1. Android接入支付宝和微信支付
  2. axios发送post请求返回400状态码
  3. ffmpeg 查询设备_ffmpeg 命令
  4. 正则表达式筛出多余符号、只留英文字母
  5. 论文查重会涉及专利和文献吗?
  6. 技术详解:实现互动直播全过程
  7. matlab两轮自平衡小车,两轮自平衡小车(全部设计资料+设计分析)
  8. 安骑士主机日志实时分析功能
  9. 阿里云服务器安骑士高危漏洞
  10. linux篡改url命令,linux 使用curl命令访问url并模拟cookie