python爬虫 导出/乱码/中英文夹杂问题解决
做作业爬数据,对一个网页进行了简单爬虫。各种bug频出,泪洒键盘,遂记之。
DataFrame输出文件
1、地址数据的逗号分隔符引发的问题
跑完代码,发现偶尔会出现一些不听话的,如图:
首先,第三个对象的address、price、type数据均存在(说明抓取过程没有问题)
由于csv文件的默认分隔方式为逗号“,” ,第三个对象的地址存在多个逗号,被csv误认为要分隔开来
(但是为什么大部分对象不会出现这个问题呢?暂时无解)
遂放弃了csv格式,选择了导出为xlsx,结果就正常了:
2、乱码问题
由于爬的内容含有繁体字+英文,导出文件的时候写了如下代码:
df.to_excel(save_path + os.sep + str(ticker) + '_' + str(amount) + '.xlsx')
结果导致输出的繁体字全部是乱码的
解决方式:增加一个encoding就完事了,简体繁体用utf-8都是可以滴:
df.to_excel(save_path + os.sep + str(ticker) + '_' + str(amount) + '.xlsx',encoding = 'utf-8-sig')
python爬虫 导出/乱码/中英文夹杂问题解决相关推荐
- python爬虫中文乱码解决方法
python爬虫中文乱码解决方法 参考文章: (1)python爬虫中文乱码解决方法 (2)https://www.cnblogs.com/surecheun/p/9694052.html 备忘一下.
- Python 爬虫 中文乱码一文通
如果经常使用Python编程或者是其他语言编程,或者在前面的文章中已经多次使用Python练习网络爬虫技术,就不可避免地会遇到中文乱码的问题.中文乱码问题经常难以理解,或者治标不治本,本文就是来解决这 ...
- Python爬虫中文乱码问题(爬虫乱码)
在输出内容时,出现如下图的情况: 解决爬虫中文乱码的步骤 网址编码为gbk 查看网页源代码的head部分的编码: <meta http-equiv="Content-Type" ...
- python爬虫中文乱码_解决Python爬虫处理文件时候中文名称出现乱码问题
当下如果需要批量处理文件,爬虫网页和图片的时候使用Python是最为简单和高效的.但是在处理过程中还是有一些细节问题,比如在爬虫中文名称和处理中文文件URL的时候会出现乱码.实际上就是因为编码的问题. ...
- 盘点3种Python爬虫 中文乱码 的处理方法
人生苦短,快学Python! 给大家祭出网络爬虫过程中三种中文乱码的处理方案,希望对大家的学习有所帮助. 前言 前几天有个粉丝在Python交流群里问了一道关于使用Python网络爬虫过程中中文乱码的 ...
- Python爬虫_乱码、转码
文章目录 乱码问题描述 利用encode和decode解决乱码问题 转码--bytes与str之间的互转 乱码问题描述 在爬取网页时,出现中文乱码情况,如下图: 原因:源网页编码和爬取下来后的编码格式 ...
- python爬虫中文乱码_Python爬虫处理抓取数据中文乱码问题
原博文 2013-12-17 17:15 − 乱码原因:因为你的文件声明为utf-8,并且也应该是用utf-8的编码保存的源文件.但是windows的本地默认编码是cp936,也就是gbk编码,所以在 ...
- python爬虫中文乱码_Python 爬虫过程中的中文乱码问题
python+mongodb 在爬虫的过程中,抓到一个中文字段,encode和decode都无法正确显示 注:以下print均是在mongodb中截图显示的,在pythonshell中可能会有所不同 ...
- Python爬虫汉字乱码问题
最简单的爬虫,使用requests库进行爬取百度网页,会发现汉字打印结果可能出现乱码问题,代码如下: import requests a=requests.get('http://www.baidu. ...
- 《学习笔记56》—— python爬虫显示乱码 b‘\x1f\x8b\x08\x00\x00\x00\x00\x00\...‘
当我们使用python爬取网页时,运行以下代码: import urllib.request baseURL = "https://www.bilibili.com/anime/index/ ...
最新文章
- padding在css中是什么意思,CSS里的padding是什么意思?
- springboot整合websocket实现一对一消息推送和广播消息推送
- net-tools和ifconfig
- mac mysql my.cnf_mac 增加 my.cnf
- 【每日SQL打卡】​​​​​​​​​​​​​​​DAY 8丨平面上的最近距离【难度中等】
- 一个完全摆脱findViewById的自动绑定库
- Ubuntu21.04 查看 GNOME 版本
- 安装Fiddler后无法上网的问题
- Cygwin ssh
- ibm刀片服务器如何装系统,详细分析如何安装和配置IBM刀片服务器
- 约瑟夫环c语言程序完整版,约瑟夫环的c语言实现(代码已实现)
- 别再白瞎去花钱购买高精度卫星地图,一文教你解决精度与下载问题
- W25QXX FLASH介绍
- 新品推荐∣平行光源OPT-PL系列
- 计算机如何驱动无线网络,电脑如何安装全民WiFi驱动
- mac电脑软件卸载不掉 如何用CleanMyMac X彻底删除?
- 【代码质量】-阿里巴巴java开发手册(代码质量提升神器)学习笔记
- Android任务栈的理解
- Hadoop---Google MapReduce(转)
- 多模态机器学习入门——文献阅读(一)Multimodal Machine Learning: A Survey and Taxonomy