做作业爬数据,对一个网页进行了简单爬虫。各种bug频出,泪洒键盘,遂记之。

DataFrame输出文件

1、地址数据的逗号分隔符引发的问题
跑完代码,发现偶尔会出现一些不听话的,如图:

首先,第三个对象的address、price、type数据均存在(说明抓取过程没有问题)
由于csv文件的默认分隔方式为逗号“,” ,第三个对象的地址存在多个逗号,被csv误认为要分隔开来
(但是为什么大部分对象不会出现这个问题呢?暂时无解)

遂放弃了csv格式,选择了导出为xlsx,结果就正常了:

2、乱码问题
由于爬的内容含有繁体字+英文,导出文件的时候写了如下代码:

df.to_excel(save_path + os.sep + str(ticker) + '_' + str(amount) + '.xlsx')

结果导致输出的繁体字全部是乱码的
解决方式:增加一个encoding就完事了,简体繁体用utf-8都是可以滴:

df.to_excel(save_path + os.sep + str(ticker) + '_' + str(amount) + '.xlsx',encoding = 'utf-8-sig')

python爬虫 导出/乱码/中英文夹杂问题解决相关推荐

  1. python爬虫中文乱码解决方法

    python爬虫中文乱码解决方法 参考文章: (1)python爬虫中文乱码解决方法 (2)https://www.cnblogs.com/surecheun/p/9694052.html 备忘一下.

  2. Python 爬虫 中文乱码一文通

    如果经常使用Python编程或者是其他语言编程,或者在前面的文章中已经多次使用Python练习网络爬虫技术,就不可避免地会遇到中文乱码的问题.中文乱码问题经常难以理解,或者治标不治本,本文就是来解决这 ...

  3. Python爬虫中文乱码问题(爬虫乱码)

    在输出内容时,出现如下图的情况: 解决爬虫中文乱码的步骤 网址编码为gbk 查看网页源代码的head部分的编码: <meta http-equiv="Content-Type" ...

  4. python爬虫中文乱码_解决Python爬虫处理文件时候中文名称出现乱码问题

    当下如果需要批量处理文件,爬虫网页和图片的时候使用Python是最为简单和高效的.但是在处理过程中还是有一些细节问题,比如在爬虫中文名称和处理中文文件URL的时候会出现乱码.实际上就是因为编码的问题. ...

  5. 盘点3种Python爬虫 中文乱码 的处理方法

    人生苦短,快学Python! 给大家祭出网络爬虫过程中三种中文乱码的处理方案,希望对大家的学习有所帮助. 前言 前几天有个粉丝在Python交流群里问了一道关于使用Python网络爬虫过程中中文乱码的 ...

  6. Python爬虫_乱码、转码

    文章目录 乱码问题描述 利用encode和decode解决乱码问题 转码--bytes与str之间的互转 乱码问题描述 在爬取网页时,出现中文乱码情况,如下图: 原因:源网页编码和爬取下来后的编码格式 ...

  7. python爬虫中文乱码_Python爬虫处理抓取数据中文乱码问题

    原博文 2013-12-17 17:15 − 乱码原因:因为你的文件声明为utf-8,并且也应该是用utf-8的编码保存的源文件.但是windows的本地默认编码是cp936,也就是gbk编码,所以在 ...

  8. python爬虫中文乱码_Python 爬虫过程中的中文乱码问题

    python+mongodb 在爬虫的过程中,抓到一个中文字段,encode和decode都无法正确显示 注:以下print均是在mongodb中截图显示的,在pythonshell中可能会有所不同 ...

  9. Python爬虫汉字乱码问题

    最简单的爬虫,使用requests库进行爬取百度网页,会发现汉字打印结果可能出现乱码问题,代码如下: import requests a=requests.get('http://www.baidu. ...

  10. 《学习笔记56》—— python爬虫显示乱码 b‘\x1f\x8b\x08\x00\x00\x00\x00\x00\...‘

    当我们使用python爬取网页时,运行以下代码: import urllib.request baseURL = "https://www.bilibili.com/anime/index/ ...

最新文章

  1. padding在css中是什么意思,CSS里的padding是什么意思?
  2. springboot整合websocket实现一对一消息推送和广播消息推送
  3. net-tools和ifconfig
  4. mac mysql my.cnf_mac 增加 my.cnf
  5. 【每日SQL打卡】​​​​​​​​​​​​​​​DAY 8丨平面上的最近距离【难度中等】
  6. 一个完全摆脱findViewById的自动绑定库
  7. Ubuntu21.04 查看 GNOME 版本
  8. 安装Fiddler后无法上网的问题
  9. Cygwin ssh
  10. ibm刀片服务器如何装系统,详细分析如何安装和配置IBM刀片服务器
  11. 约瑟夫环c语言程序完整版,约瑟夫环的c语言实现(代码已实现)
  12. 别再白瞎去花钱购买高精度卫星地图,一文教你解决精度与下载问题
  13. W25QXX FLASH介绍
  14. 新品推荐∣平行光源OPT-PL系列
  15. 计算机如何驱动无线网络,电脑如何安装全民WiFi驱动
  16. mac电脑软件卸载不掉 如何用CleanMyMac X彻底删除?
  17. 【代码质量】-阿里巴巴java开发手册(代码质量提升神器)学习笔记
  18. Android任务栈的理解
  19. Hadoop---Google MapReduce(转)
  20. 多模态机器学习入门——文献阅读(一)Multimodal Machine Learning: A Survey and Taxonomy

热门文章

  1. 目前国内汉语自动分词系统的研究现状
  2. ubuntu16.04多GPU风扇转速调整
  3. Android 日志自动分析,Android 自动化测试(monkeytest)异常日志分析
  4. 扫雷游戏(实现了网页版的扫雷游戏的所有逻辑)
  5. P2P(对等网络)、 PT 下载与 BT 下载
  6. 手动实现JSON.stringify
  7. Dalamud:FFXIV插件框架和API-源码
  8. 宏杉科技:存储创新之路需要决心与耐心
  9. 微信内置浏览器直接下载APK的解决方法
  10. css字体向下来电,css系列之关于字体的事