最近作业要用到网站(http://nba.sports.sina.com.cn/players.php)中的数据,初次爬取,中文不能正常显示。查找了很多资料,参考了很多例子。理论没了解很多,但最终实现效果了。直接贴项目中实现的代码:

import requests
import urllib.request
from lxml import etree
#要抓取的页面链接
url='http://nba.sports.sina.com.cn/players.php'
r=requests.get(url)
r.encoding='gb2312'#解决中文不能正常显示
s=etree.HTML(r.text)
result=etree.tostring(s)
file=s.xpath('//a/text()')
print(file)

上面是一段完整的代码,网上很多时候给出了关键代码,但个人认为一些库的使用还是挺重要的。

本程序解决中文不能正常显示问题重要用到r.encoding,本项目涉及的网站编码方式为“gb2312”(可通过查看源页面的charset属性获取),故该处参数设置为“gb2312”,经过尝试设置为“gbk”也可以,查找资料发现“gbk”包含全部中文字符在国家标准“gb2312”基础上向后兼容“gb2312”的标准。但是,又想到“utf-8”包含全世界所有国家需要用到的字符,又尝试修改为“utf-8”,中文依旧没能正常显示,目前还没弄懂原因,可能还是对编码知识了解不够多,希望大神们能够多多指教~

注:“gbk”收入21886个汉字和图形符号;“gb2312”标准共收录6763个汉字。

python爬虫中文不能正常显示问题的解决相关推荐

  1. python爬虫中文乱码解决方法

    python爬虫中文乱码解决方法 参考文章: (1)python爬虫中文乱码解决方法 (2)https://www.cnblogs.com/surecheun/p/9694052.html 备忘一下.

  2. 【Python爬虫:唯美girl,charles解决反调试】

    Python爬虫:唯美girl,charles解决反调试 Python爬虫:唯美girl,不让F12,我就要! 前言 1.目标简要说明 2.解决无法打开浏览器开发者工具 2.1解决思路 2.2思路具体 ...

  3. 什么是定向爬取技术,Python爬虫的定向爬取技术需解决哪些问题?

    一.什么是爬虫的定向爬取技术 通俗来说,爬虫的定向爬取技术就是根据设置的主题,对要爬取的网址或者网页中的内容进行筛选.比如我们可以使用正则表达式进行筛选等,筛选之后,再爬取对应的网址中的内容,并可以根 ...

  4. Python 爬虫 中文乱码一文通

    如果经常使用Python编程或者是其他语言编程,或者在前面的文章中已经多次使用Python练习网络爬虫技术,就不可避免地会遇到中文乱码的问题.中文乱码问题经常难以理解,或者治标不治本,本文就是来解决这 ...

  5. python爬虫中文乱码_解决Python爬虫处理文件时候中文名称出现乱码问题

    当下如果需要批量处理文件,爬虫网页和图片的时候使用Python是最为简单和高效的.但是在处理过程中还是有一些细节问题,比如在爬虫中文名称和处理中文文件URL的时候会出现乱码.实际上就是因为编码的问题. ...

  6. 永久解决python matplotlib 中文字体的显示乱码-Windows系统

    在python中使用matplotlib绘图时,新手通常会遇到中文字体无法显示或显示乱码的问题,这是因为matplotlib中默认没有中文字体.windows系统下的永久解决方法如下: 1.确定当前p ...

  7. Python爬虫中文乱码问题(爬虫乱码)

    在输出内容时,出现如下图的情况: 解决爬虫中文乱码的步骤 网址编码为gbk 查看网页源代码的head部分的编码: <meta http-equiv="Content-Type" ...

  8. python 读中文乱码_python字符乱码的解决小结

    引言 无论学习什么程序语言,字符串这种数据类型总是着有非常重要.然而最近在学习python这门语言,想要显示中文,总是出现各种乱码.于是在网上查了很多资料,各说纷纭,我也尝试了许多的方法,有时候可以正 ...

  9. python爬虫中文乱码_Python 爬虫过程中的中文乱码问题

    python+mongodb 在爬虫的过程中,抓到一个中文字段,encode和decode都无法正确显示 注:以下print均是在mongodb中截图显示的,在pythonshell中可能会有所不同 ...

最新文章

  1. mysql获取当前时间_MYSQL proxysql 在深入 信息获取和信息输出
  2. 华为交换机端口组配置实例
  3. h2 mysql 兼容_H2内存数据库对sql语句的支持问题 sql放到mysql数据库中能跑
  4. “陪护机器人”研报:距离真正“陪护”还差那么一点
  5. 顺序三元组 java_hihocoder-1550-顺序三元组
  6. Linux中w r x数学代码,Linux bc命令实现数学计算器
  7. matlab std函数_MATLAB金融工具箱:11:根据基准优化投资组合
  8. 51Nod-1003 阶乘后面0的数量【分析思维】
  9. 140.单词拆分II
  10. 计算机主机技术标准规范,数据中心机房建设,需要依据哪些国家标准和行业标准或规范?...
  11. Qt 5.14.2安装教程
  12. EPLAN 2.7 WIN 10 X64安装说明
  13. python词云图详细教程
  14. 服务器虚拟机迁移的6个步骤,vmware 虚拟机迁移
  15. zip压缩大于4g文件linux,linux下解压大于4G文件提示error: Zip file too big错误的解决办法...
  16. Win11系统怎么更新显卡驱动 手动更新显卡驱动程序的方法
  17. 随机迷宫生成算法整理分析
  18. 宝剑配英雄,玫瑰赠伊人!(祝全天下静姝妇女节快乐!)
  19. 关于双非本科2020秋招,我想说的
  20. 电脑开机无限重启,到了欢迎界面就黑屏重启

热门文章

  1. uni-app设置页面的背景图片
  2. Android Studio导入工程项目一直处于gradle....而且一直卡在这个页面
  3. 获取Golang环境变量的三种方式
  4. 修改 input checkbox(复选框) 选中的背景颜色 _@jie
  5. 如何通过Java实现485通信
  6. 携手漫威超级英雄,华米科技开启智能穿戴新时代
  7. Android 实现HTTPS自签名证书(非常详细)
  8. 斗战神单机版正在连接服务器,斗战神登录卡在这里,又不提示登录失败或者连接超时什......
  9. html值改变频率,频率赫兹与时间的关系 赫兹(Hz)和秒怎样转换?
  10. Gradient Descent and NSCA