当下如果需要批量处理文件,爬虫网页和图片的时候使用Python是最为简单和高效的。但是在处理过程中还是有一些细节问题,比如在爬虫中文名称和处理中文文件URL的时候会出现乱码。实际上就是因为编码的问题。我们在使用的Python3版本默认编码是utf-8。爬虫到的所有的数据他都会以utf-8进行编码。

这样的话,Python3处理文件的时候会将目标网站爬取进行utf-8编码,如果我们爬取的目标网站是GB2312编码,这样编码不同就会造成乱码。那我们如何处理呢?

第一种、授予编码

import requests

req= requests.get("http://example.com")

req_text=req.text.encode("latin1").decode("GBK")

print(req_text)

第二种、添加字体

参考:https://www.ywowl.com/prolan/python/2018/03/550.html

上传字体simhei.ttf到:

/opt/python3.5/lib/python3.5/site-packages/matplotlib/mpl-data/fonts/ttf

然后修改matplotlibrc配置:

/opt/python3.5/lib/python3.5/site-packages/matplotlib/mpl-data/matplotlibrc

然后将backend的TkAgg换成Agg、注释掉font.family : sans-serif,添加font.sans-serif : SimHei。最后清理清除~/.cache/matplotlib目录缓存。解决图片中文乱码问题的。

python爬虫中文乱码_解决Python爬虫处理文件时候中文名称出现乱码问题相关推荐

  1. python画图显示中文乱码_解决Python pandas plot输出图形中显示中文乱码问题

    解决方式一: import matplotlib #1. 获取matplotlibrc文件所在路径 matplotlib.matplotlib_fname() #Out[3]: u'd:\\Anaco ...

  2. python打开中文文件名_解决python打开中文文件名乱码的问题

    解决python打开中文文件名乱码的问题 发布时间:2020-07-27 11:20:22 来源:亿速云 阅读:162 作者:清晨 小编给大家分享一下解决python打开中文文件名乱码的问题,相信大部 ...

  3. python读excel乱码_解决Python2.7读写文件中的中文乱码问题

    Python2.7对于中文编码的问题处理的并不好,这几天在爬数据的时候经常会遇到中文的编码问题.但是本人对编码原理不了解,也没时间深究其中的原理.在此仅从应用的角度做一下总结, 1.设置默认编码 在P ...

  4. python django mysql写入中文乱码_解决django 向mysql中写入中文字符出错的问题

    之前使用django+mysql建立的一个站点,发现向数据库中写入中文字符时总会报错,尝试了修改settings文件和更改数据表的字符集后仍不起作用.最后发现,在更改mysql的字符集后,需要重建数据 ...

  5. python输出到文件乱码_解决python解析文件时输出乱码

    首先获取到json模块,encoding指定文件编码utf-8,errors报错时忽略错误,print()输出结果看看是否有问题. # -*- coding: utf-8 -*- import jso ...

  6. python字体变方格_解决Python数据可视化中文部分显示方块问题

    一.问题 代码如下,发现标题的中文显示的是方块 import matplotlib import matplotlib.pyplot as plt fig = plt.figure() ax = fi ...

  7. python连接数据库mysql失败_解决python连接mysql报错问题

    解决python连接mysql报错问题 最近跑python脚本时遇到一个问题,当sql语句中有中文时,执行python脚本报以下错误: Traceback (most recent call last ...

  8. pip安装了 但是python找不到_解决python明明pip安装成功却找不到包的问题

    解决python明明pip安装成功却找不到包的问题 如下所示: 原因1:版本不对,如用环境变量设置的python3.7路径,那么用的就是3.7的pip.exe安装了包.却用的是2.7的python运行 ...

  9. python画指数函数图像_解决python中的幂函数、指数函数问题

    最近在调代码,碰到幂函数.指数函数,总是提示 ValueError: math domain error ValueError: negative number cannot be raised to ...

  10. python sub 不区分大小写_解决Python列表字符不区分大小写的问题

    有时候,我们需要检测一个元素是否已经存在列表中,并且不区分大小写,如:列表已有元素Mary,那我们想认为MARY也已经被占用.这个例子在实际编程中会用到很多,比如保证网站注册用户独一无二.邮件姓名独一 ...

最新文章

  1. python excel合并_Python把多个Excel合并成一个Excel
  2. datasg中数据的存储结构
  3. MVC Controllers和Forms验证
  4. eclipse光标变成黑块变粗解决办法
  5. php 合并两个数组并去重,合并两个数组 以KEY 作为键
  6. Python字典values()方法与示例
  7. da---tlc5615._CD-DA的完整形式是什么?
  8. uwsgi+django在ubuntu下命令部署亲测ok
  9. Python的内置函数的学习笔记
  10. 2021大二实训part02
  11. 手机远程控制电脑方法(TeamViewer vs 向日葵)
  12. 清华conda源下不了torch_使用清华镜像源安装Pytorch
  13. 实时竞价RTB广告平台_传漾科技_中国领先的智能数字营销引擎
  14. 最后一天购书优惠!好书必买,不容错过!
  15. 【算法】DFS与BFS
  16. 常用链接ssh服务器的工具(推荐)
  17. 直播预告 | Kubernetes 上的图数据库——本周四晚八点
  18. 光伏储能联合运行的直流微电网matlab/simulink 光伏+MPPT控制 储能系统双向DCDC充放电控制
  19. GJB 5000B二级-VV验证与确认
  20. 单片机WIFI信号强度扫描器C8051F020-ESP8266WIFI模块

热门文章

  1. 连接查询_左连接/右连接/全连接的区别
  2. 【剑指offer】面试题35:复杂链表的复制(Java)
  3. 北理计算机教案,北理工版三年级信息技术教案重点.docx
  4. android图片文件的路径地址与uri的相互转换,android图片文件的路径地址与Uri的相互转换...
  5. mysql 启动 修改密码_基础的启动/停止/重启/密码修改MySQL
  6. 多个if用什么设计模式_抽丝剥茧——单例设计模式
  7. python输出子列表_python利用递归函数输出嵌套列表的每个元素
  8. python函数type的用意_python中type()是什么意思
  9. Pyinstaller打包Django项目
  10. 微服务架构设计模式~为应用程序定义微服务架构