Python爬取当当网图书数据
Python爬取当当网图书数据
前言:前段时间一直在帮人爬取当当网图书数据。由于技术有限,折腾了挺久的,也在网上借鉴了些经验,一开始一直拿不到自己想要的内容,后来发现了另外一个案例,拿到手后,修改了一些代码, 终于实现了目标,在此分享给想爬取当当网图书数据的童鞋。特别感谢前面的作者,给了我思路,代码头有原作者的代号!
直接上代码吧!
前面部分代码如上图,稍微解释一下(虽然我也很垃圾):这里是用Excel储存的,7-15行代码的作用是打开了一个Excel活动表,并命名了活动表的名称,设置了表头(注:时间是出版时间),第二十行是本人搜索的图书类型,只爬取前面4页的数据,根据自己需求,搜索图书类型或者其他,找到URL规律换上自己的就行了。
这部分代码就是提取及储存的代码了,可以自己研究下应用到别的网站,部分被注释的代码是作者用txt储存的代码,也可以在去掉注释后用csv储存也是可以的,一起送上代码吧!
前面的都一样,把openpyxl换成csv,就行了。注意表头的顺序,如果你要改变顺序,代码也是要调换一下的。
当当当,这就是最后的结果,灰常满意!
有不懂的代码,欢迎留言,一起交流交流!
第一次发表文章,请多多指教,共同进步!
源码链接:
当当案例
Python爬取当当网图书数据相关推荐
- 在当当买了python怎么下载源代码-Python爬取当当网APP数据
本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理 以下文章来源于AirPython ,作者星安果 目标 场景:有时候通过传统的方法去 ...
- Python爬取当当网APP数据
目标 场景:有时候通过传统的方法去爬一些 Web 网页或者 APP,受限于对方的反爬方案,很难爬到想要的数据,这个时候可以考虑使用「Appium」结合「mitmproxy」的方式去爬取数据. 其中,A ...
- 请用Python写一个爬虫程序,爬取当当网图书畅销榜数据
好的,下面是一个简单的 Python 爬虫代码,可以爬取当当网图书畅销榜数据: import requests from bs4 import BeautifulSoupurl = "htt ...
- 在当当买了python怎么下载源代码-Python爬取当当网最受欢迎的 500 本书
想看好书?想知道哪些书比较多人推荐,最好的方式就是看数据,接下来用 Python 爬取当当网五星图书榜 TOP500 的书籍,或许能给我们参考参考! Python爬取目标 爬取当当网前500本受欢迎的 ...
- scrapy框架的简单使用——爬取当当网图书信息
** Scrapy爬取当当网图书信息实例 --以警察局办案为类比 ** 使用Scrapy进行信息爬取的过程看起来十分的复杂,但是他的操作方式与警局办案十分的相似,那么接下来我们就以故事的形式开始Scr ...
- python爬取当当网商品评论
python爬取当当网商品评论 本案例获取某鞋评论作为例 案例目的: 通过爬取当当网商品评价,介绍通过结合jsonpath和正则表达式获取目标数据的方法. 代码功能: 输入爬取的页数,自动下载保存每页 ...
- Scrapy爬取当当网图书销售前100
scrapy爬取当当网图书畅销榜 一.采集任务 爬取当当网图书畅销榜信息,获取热销图书前500相关数据. 二.网页解析 1. 打开当当网,按照图书榜>图书畅销榜 进入当当网图书畅销榜[http: ...
- 用python爬取基金网信息数据,保存到表格,并做成四种简单可视化。(爬虫之路,永无止境!)
用python爬取基金网信息数据,保存到表格,并做成四种简单可视化.(爬虫之路,永无止境!) 上次 2021-07-07写的用python爬取腾讯招聘网岗位信息保存到表格,并做成简单可视化. 有的人留 ...
- python爬取当当网的书籍信息并保存到csv文件
python爬取当当网的书籍信息并保存到csv文件 依赖的库: requests #用来获取页面内容 BeautifulSoup #opython3不能安装BeautifulSoup,但可以安装Bea ...
- Python爬虫实战+Scrapy框架 爬取当当网图书信息
1.环境准备 1.在python虚拟环境终端使用 pip install scrapy下载scrapy依赖库 2.使用scrapy startproject book创建scrapy心目工程 3.使用 ...
最新文章
- 设有一数据库,包括四个表:学生表(Student)、课程表(Course)、成绩表(Score)以及教师信息表(Teacher)。...
- 一个popup弹窗实现思路--(基于mintui分析)
- 【Hadoop Summit Tokyo 2016】Rakuten是如何解决由于大规模多租户Hadoop集群造成的迷之问题的...
- mysql session 最大值_session 存储最大值
- 快速学习ggplot2
- 7.泡妞与设计模式(八)模板模式
- Jquery 寻找父、子、兄弟节点
- sql语句的经典练习
- matlab ctrb(),4.8Matlab问题能控能观解释.ppt
- Android 系统(226)---Android 阿拉伯语适配
- ArrayList和LinkedList的插入删除性能差距到底有多大
- 名企笔试:京东 2016 算法工程师笔试题(登楼梯)
- jsp包含html有乱码,jsp include包含html页面产生的乱码问题
- 淮北农村生活污水处理设备——十四五生态环境保护规划
- 解决the application was unable to start correctly(0x000007b)与 缺少VCRUNTIME140.dll
- oracle定时执行某个任务,oracle 里面定时执行任务,比如存储过程内容等
- 地理坐标xy表示什么_地理坐标怎么写 书写格式及方法
- 国产化飞腾CPU主板安装统信专业版桌面OS,以及统信OS如何进root用户
- 2020HW漏洞总结(三)
- Lucene 和 Kibana、ElasticSeach、Spring Data ElasticSearch