python爬虫中文不能正常显示问题的解决
最近作业要用到网站(http://nba.sports.sina.com.cn/players.php)中的数据,初次爬取,中文不能正常显示。查找了很多资料,参考了很多例子。理论没了解很多,但最终实现效果了。直接贴项目中实现的代码:
import requests import urllib.request from lxml import etree #要抓取的页面链接 url='http://nba.sports.sina.com.cn/players.php' r=requests.get(url) r.encoding='gb2312'#解决中文不能正常显示 s=etree.HTML(r.text) result=etree.tostring(s) file=s.xpath('//a/text()') print(file)
上面是一段完整的代码,网上很多时候给出了关键代码,但个人认为一些库的使用还是挺重要的。
本程序解决中文不能正常显示问题重要用到r.encoding,本项目涉及的网站编码方式为“gb2312”(可通过查看源页面的charset属性获取),故该处参数设置为“gb2312”,经过尝试设置为“gbk”也可以,查找资料发现“gbk”包含全部中文字符在国家标准“gb2312”基础上向后兼容“gb2312”的标准。但是,又想到“utf-8”包含全世界所有国家需要用到的字符,又尝试修改为“utf-8”,中文依旧没能正常显示,目前还没弄懂原因,可能还是对编码知识了解不够多,希望大神们能够多多指教~
注:“gbk”收入21886个汉字和图形符号;“gb2312”标准共收录6763个汉字。
python爬虫中文不能正常显示问题的解决相关推荐
- python爬虫中文乱码解决方法
python爬虫中文乱码解决方法 参考文章: (1)python爬虫中文乱码解决方法 (2)https://www.cnblogs.com/surecheun/p/9694052.html 备忘一下.
- 【Python爬虫:唯美girl,charles解决反调试】
Python爬虫:唯美girl,charles解决反调试 Python爬虫:唯美girl,不让F12,我就要! 前言 1.目标简要说明 2.解决无法打开浏览器开发者工具 2.1解决思路 2.2思路具体 ...
- 什么是定向爬取技术,Python爬虫的定向爬取技术需解决哪些问题?
一.什么是爬虫的定向爬取技术 通俗来说,爬虫的定向爬取技术就是根据设置的主题,对要爬取的网址或者网页中的内容进行筛选.比如我们可以使用正则表达式进行筛选等,筛选之后,再爬取对应的网址中的内容,并可以根 ...
- Python 爬虫 中文乱码一文通
如果经常使用Python编程或者是其他语言编程,或者在前面的文章中已经多次使用Python练习网络爬虫技术,就不可避免地会遇到中文乱码的问题.中文乱码问题经常难以理解,或者治标不治本,本文就是来解决这 ...
- python爬虫中文乱码_解决Python爬虫处理文件时候中文名称出现乱码问题
当下如果需要批量处理文件,爬虫网页和图片的时候使用Python是最为简单和高效的.但是在处理过程中还是有一些细节问题,比如在爬虫中文名称和处理中文文件URL的时候会出现乱码.实际上就是因为编码的问题. ...
- 永久解决python matplotlib 中文字体的显示乱码-Windows系统
在python中使用matplotlib绘图时,新手通常会遇到中文字体无法显示或显示乱码的问题,这是因为matplotlib中默认没有中文字体.windows系统下的永久解决方法如下: 1.确定当前p ...
- Python爬虫中文乱码问题(爬虫乱码)
在输出内容时,出现如下图的情况: 解决爬虫中文乱码的步骤 网址编码为gbk 查看网页源代码的head部分的编码: <meta http-equiv="Content-Type" ...
- python 读中文乱码_python字符乱码的解决小结
引言 无论学习什么程序语言,字符串这种数据类型总是着有非常重要.然而最近在学习python这门语言,想要显示中文,总是出现各种乱码.于是在网上查了很多资料,各说纷纭,我也尝试了许多的方法,有时候可以正 ...
- python爬虫中文乱码_Python 爬虫过程中的中文乱码问题
python+mongodb 在爬虫的过程中,抓到一个中文字段,encode和decode都无法正确显示 注:以下print均是在mongodb中截图显示的,在pythonshell中可能会有所不同 ...
最新文章
- mysql获取当前时间_MYSQL proxysql 在深入 信息获取和信息输出
- 华为交换机端口组配置实例
- h2 mysql 兼容_H2内存数据库对sql语句的支持问题 sql放到mysql数据库中能跑
- “陪护机器人”研报:距离真正“陪护”还差那么一点
- 顺序三元组 java_hihocoder-1550-顺序三元组
- Linux中w r x数学代码,Linux bc命令实现数学计算器
- matlab std函数_MATLAB金融工具箱:11:根据基准优化投资组合
- 51Nod-1003 阶乘后面0的数量【分析思维】
- 140.单词拆分II
- 计算机主机技术标准规范,数据中心机房建设,需要依据哪些国家标准和行业标准或规范?...
- Qt 5.14.2安装教程
- EPLAN 2.7 WIN 10 X64安装说明
- python词云图详细教程
- 服务器虚拟机迁移的6个步骤,vmware 虚拟机迁移
- zip压缩大于4g文件linux,linux下解压大于4G文件提示error: Zip file too big错误的解决办法...
- Win11系统怎么更新显卡驱动 手动更新显卡驱动程序的方法
- 随机迷宫生成算法整理分析
- 宝剑配英雄,玫瑰赠伊人!(祝全天下静姝妇女节快乐!)
- 关于双非本科2020秋招,我想说的
- 电脑开机无限重启,到了欢迎界面就黑屏重启
热门文章
- uni-app设置页面的背景图片
- Android Studio导入工程项目一直处于gradle....而且一直卡在这个页面
- 获取Golang环境变量的三种方式
- 修改 input checkbox(复选框) 选中的背景颜色 _@jie
- 如何通过Java实现485通信
- 携手漫威超级英雄,华米科技开启智能穿戴新时代
- Android 实现HTTPS自签名证书(非常详细)
- 斗战神单机版正在连接服务器,斗战神登录卡在这里,又不提示登录失败或者连接超时什......
- html值改变频率,频率赫兹与时间的关系 赫兹(Hz)和秒怎样转换?
- Gradient Descent and NSCA