Python解决乱码万能方法以及一些个人思路_一蓑烟雨任平生
文章目录
- 前言
- 一、乱码是什么
- 二、解决方法
- 1.第一种:
- 2.第二种:
- 第一步:查看网页编码
- 第二步:转换编码
- 总结
前言
最近粉丝在爬取文章时,总遇到乱码,而不知道该如何下手,这里就总结一下应对乱码的方法
一、乱码是什么
乱码,指的是由于本地计算机在用文本编辑器打开源文件时,使用了不相应字符集而造成部分或所有字符无法被阅读的一系列字符。造成其结果的原因是多种多样的。
二、解决方法
1.第一种:
乱码的产生可能是因为
全部搞成utf-8格式,然后忽略别的所有格式格式
具体操作就不写了,请看我的另外一篇文章
编码解码解决
2.第二种:
这里拿猫眼电影来举例
https://maoyan.com/board/4
抓取这个网址
可以看到这里出现了很多看不懂的乱码
第一步:查看网页编码
思路:
我们可以利用apparent_encoding函数进行查看网页支持的编码格式
然后用encoding查看网页返回给我们的编码格式,进行转换即可
我们可以看到,这里支持的编码格式是utf-8
而网页返回我们的却是ISO-8859-1
第二步:转换编码
利用encode编码(这里是网页返给我们的编码),然后利用decode解码(我们想要的支持的编码)
解码成功,其实很简单,了解返回的编码格式,然后找到支持的编码格式,利用解码 和 编码 进行格式转换
总结
文章不算很长,需要自己慢慢体会,今天就到这里啦,下次博客见哈
感觉不错,可以关注下哈
Python解决乱码万能方法以及一些个人思路_一蓑烟雨任平生相关推荐
- 解决python中文乱码的方法
解决python中文乱码的方法 参考文章: (1)解决python中文乱码的方法 (2)https://www.cnblogs.com/bobodeboke/p/11935876.html 备忘一下.
- 解决乱码的方法(转)
出现乱码怎么办,解决乱码的方法一,出现乱码的原因分析 1,保存文件时候,文件有自己的文件编码,就是汉字,或者其他国语言,以什么编码来存储 2,输出的时候,要给内容指定编码,如以网页的形势输入时< ...
- 2021-11-6完整linux内网渗透实战笔记(域/非域对于linux其实区别不大+宝塔后台渗透+稻壳DocCMSsql注入+交互式shell用python解决乱码问题)
欢迎大家一起来Hacking水友攻防实验室学习,渗透测试,代码审计,免杀逆向,实战分享,靶场靶机,求关注 启明yyds,我第一次觉得自己选对了公司,hvv估计有望了 外网打点发现web服务器有: Do ...
- 2018年4月10日--python解决乱码和作业
python2的乱码问题 方法一: ''' 原有编码 -> unicode编码 -> 目的编码 decode("utf-8") 解码 -> unicode -&g ...
- Python 解决warining的方法FutureWarning: warnings.warn(CV_WARNING, FutureWarning)
错误情况 错误出在 1978行 E:\python3.7.3\lib\site-packages\sklearn\model_selection\_split.py:1978: FutureWarn ...
- Python文件运行说明书以及解决的过程_一蓑烟雨任平生
文章目录 前言 一.安装Python环境 1-安装Python解析器 2-安装所需要的包 第一步: 第二步 二.运行Python文件 1.修改数据库连接 2.舆情和特色 添加定时器方法如下 第一: 第 ...
- 以下构成python循环结构的方法中正确的是_关于Python循环结构,以下选项中描述错误的是...
[填空题(主观)]热继电器是利用 [填空(1)] 来切断电路的一种 [填空(2)] 电器,它用作电动机的 [填空(3)] 保护,不宜作为 [填空(4)] 保护.热继电器热元件的整定电流一般情况下取 [ ...
- 使用python解决codewar中问题,个人答题思路及代码总结(1)
Codewar 7kyu Two to One Take 2 strings s1 and s2 including only letters from a to z. Return a new so ...
- 使用python解决codewar中问题,个人答题思路及代码总结(2)
7kyu Strings: starts with Challenge: Given two null-terminated strings in the arguments "string ...
最新文章
- 让你提升命令行效率的 Bash 快捷键
- linux dns 添加mx,linux dns配置
- [学习笔记]电磁场与电磁波专业课程
- 小度智能音箱维修点_智能音箱哪个好?小度 小爱 天猫 评测
- php如何连接wsdl,PHP如何调用wsdl
- DCMTK:测试框架内容Frame Content FG类
- 如何表示数组所有数都不等于一个数_每日算法系列【LeetCode 330】按要求补齐数组...
- java静态代码块的作用域_java基础之面向对象
- 数据结构---邻接矩阵的DFS
- vc++出现warningC4819的处理方法
- JAVA与DOM解析器基础 学习笔记
- bada项目在真机上调试
- docker nginx tomcat mysql_使用docker部署nginx+tomcat架构(2):访问mysql数据库
- 如何用 Nginx 禁止国外 IP 访问网站 ?
- Arduino笔记四电子指南针罗盘HMC5883L
- Ubuntu16.04安装网易云音乐后无法打开
- 【教程】如何批量将记事本文件或word文本转换成简体/繁体中文,下面教你方法
- CSS 单词换行 word-break属性
- 鸿蒙生态箐英班,华为联合西北工业大学开设 “鸿蒙生态菁英班”: 50 人左右,锁定终端软件领域...
- 在TITAN RTX 2080Ti 上安装 Ubuntu18.04+Nvidia-430显卡驱动+配置深度学习环境(1)