Python爬取当当网图书数据

前言:前段时间一直在帮人爬取当当网图书数据。由于技术有限,折腾了挺久的,也在网上借鉴了些经验,一开始一直拿不到自己想要的内容,后来发现了另外一个案例,拿到手后,修改了一些代码, 终于实现了目标,在此分享给想爬取当当网图书数据的童鞋。特别感谢前面的作者,给了我思路,代码头有原作者的代号!

直接上代码吧!

前面部分代码如上图,稍微解释一下(虽然我也很垃圾):这里是用Excel储存的,7-15行代码的作用是打开了一个Excel活动表,并命名了活动表的名称,设置了表头(注:时间是出版时间),第二十行是本人搜索的图书类型,只爬取前面4页的数据,根据自己需求,搜索图书类型或者其他,找到URL规律换上自己的就行了。

这部分代码就是提取及储存的代码了,可以自己研究下应用到别的网站,部分被注释的代码是作者用txt储存的代码,也可以在去掉注释后用csv储存也是可以的,一起送上代码吧!

前面的都一样,把openpyxl换成csv,就行了。注意表头的顺序,如果你要改变顺序,代码也是要调换一下的。

当当当,这就是最后的结果,灰常满意!
有不懂的代码,欢迎留言,一起交流交流!
第一次发表文章,请多多指教,共同进步!

源码链接:
当当案例

Python爬取当当网图书数据相关推荐

  1. 在当当买了python怎么下载源代码-Python爬取当当网APP数据

    本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理 以下文章来源于AirPython ,作者星安果 目标 场景:有时候通过传统的方法去 ...

  2. Python爬取当当网APP数据

    目标 场景:有时候通过传统的方法去爬一些 Web 网页或者 APP,受限于对方的反爬方案,很难爬到想要的数据,这个时候可以考虑使用「Appium」结合「mitmproxy」的方式去爬取数据. 其中,A ...

  3. 请用Python写一个爬虫程序,爬取当当网图书畅销榜数据

    好的,下面是一个简单的 Python 爬虫代码,可以爬取当当网图书畅销榜数据: import requests from bs4 import BeautifulSoupurl = "htt ...

  4. 在当当买了python怎么下载源代码-Python爬取当当网最受欢迎的 500 本书

    想看好书?想知道哪些书比较多人推荐,最好的方式就是看数据,接下来用 Python 爬取当当网五星图书榜 TOP500 的书籍,或许能给我们参考参考! Python爬取目标 爬取当当网前500本受欢迎的 ...

  5. scrapy框架的简单使用——爬取当当网图书信息

    ** Scrapy爬取当当网图书信息实例 --以警察局办案为类比 ** 使用Scrapy进行信息爬取的过程看起来十分的复杂,但是他的操作方式与警局办案十分的相似,那么接下来我们就以故事的形式开始Scr ...

  6. python爬取当当网商品评论

    python爬取当当网商品评论 本案例获取某鞋评论作为例 案例目的: 通过爬取当当网商品评价,介绍通过结合jsonpath和正则表达式获取目标数据的方法. 代码功能: 输入爬取的页数,自动下载保存每页 ...

  7. Scrapy爬取当当网图书销售前100

    scrapy爬取当当网图书畅销榜 一.采集任务 爬取当当网图书畅销榜信息,获取热销图书前500相关数据. 二.网页解析 1. 打开当当网,按照图书榜>图书畅销榜 进入当当网图书畅销榜[http: ...

  8. 用python爬取基金网信息数据,保存到表格,并做成四种简单可视化。(爬虫之路,永无止境!)

    用python爬取基金网信息数据,保存到表格,并做成四种简单可视化.(爬虫之路,永无止境!) 上次 2021-07-07写的用python爬取腾讯招聘网岗位信息保存到表格,并做成简单可视化. 有的人留 ...

  9. python爬取当当网的书籍信息并保存到csv文件

    python爬取当当网的书籍信息并保存到csv文件 依赖的库: requests #用来获取页面内容 BeautifulSoup #opython3不能安装BeautifulSoup,但可以安装Bea ...

  10. Python爬虫实战+Scrapy框架 爬取当当网图书信息

    1.环境准备 1.在python虚拟环境终端使用 pip install scrapy下载scrapy依赖库 2.使用scrapy startproject book创建scrapy心目工程 3.使用 ...

最新文章

  1. 设有一数据库,包括四个表:学生表(Student)、课程表(Course)、成绩表(Score)以及教师信息表(Teacher)。...
  2. 一个popup弹窗实现思路--(基于mintui分析)
  3. 【Hadoop Summit Tokyo 2016】Rakuten是如何解决由于大规模多租户Hadoop集群造成的迷之问题的...
  4. mysql session 最大值_session 存储最大值
  5. 快速学习ggplot2
  6. 7.泡妞与设计模式(八)模板模式
  7. Jquery 寻找父、子、兄弟节点
  8. sql语句的经典练习
  9. matlab ctrb(),4.8Matlab问题能控能观解释.ppt
  10. Android 系统(226)---Android 阿拉伯语适配
  11. ArrayList和LinkedList的插入删除性能差距到底有多大
  12. 名企笔试:京东 2016 算法工程师笔试题(登楼梯)
  13. jsp包含html有乱码,jsp include包含html页面产生的乱码问题
  14. 淮北农村生活污水处理设备——十四五生态环境保护规划
  15. 解决the application was unable to start correctly(0x000007b)与 缺少VCRUNTIME140.dll
  16. oracle定时执行某个任务,oracle 里面定时执行任务,比如存储过程内容等
  17. 地理坐标xy表示什么_地理坐标怎么写 书写格式及方法
  18. 国产化飞腾CPU主板安装统信专业版桌面OS,以及统信OS如何进root用户
  19. 2020HW漏洞总结(三)
  20. Lucene 和 Kibana、ElasticSeach、Spring Data ElasticSearch

热门文章

  1. 【php毕业设计】基于php+mysql+apache的在线购物网站设计与实现(毕业论文+程序源码)——在线购物网站
  2. Windows10最常用的软件推荐V1.7
  3. Tomcat 内存溢出问题与解决方法
  4. Himall商城LinqHelper帮助类(2)
  5. 大学生创新创业训练计划讲解(大创)
  6. 最大流的四种常用算法
  7. 流畅的python mobi_流畅的Python中文pdf_Python教程
  8. FFmpeg下载秒级 支持各个平台各个版本
  9. js上传图片到服务器
  10. 在 Windows 10 中映射网络驱动器