目标网页:当当网书籍畅销榜 http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-24hours-0-0-1-1

爬取结果:

代码:

import requests,re,jsondef request_dangdang(url):try:response = requests.get(url)if response.status_code == 200:return response.textexcept requests.RequestException:return Nonedef parse_result(html):pattern = re.compile('<li>.*?list_num.*?(\d+).</div>.*?<img src="(.*?)".*?class="name".*?title="(.*?)">.*?class="star">.*?class="tuijian">(.*?)</span>.*?class="publisher_info">.*?target="_blank">(.*?)</a>.*?class="biaosheng">.*?<span>(.*?)</span></div>.*?<p><span\sclass="price_n">&yen;(.*?)</span>.*?</li>',re.S)items = re.findall(pattern,html)for item in items:yield{                #写入为字典类型'range':item[0],'iamge':item[1],'title':item[2],'recommend':item[3],'author':item[4],'times':item[5],'price':item[6]}print(1)for item in items:print(item)def write_item_to_file(item):#print("写入数据===》" + str(item))with open('book.txt','a',encoding='utf-8') as f:f.write(json.dumps(item,ensure_ascii=False) + '\n') #将字典类型转化为字符串写入文件f.close()def main(page):url = 'http://bang.dangdang.com/books/fivestars/01.00.00.00.00.00-recent30-0-0-1-'+str(page)html = request_dangdang(url)items = parse_result(html)  #解析过滤想要的信息for item in items:write_item_to_file(item)if __name__ == "__main__":for i in range(1,26):main(i)

参考网址:https://blog.csdn.net/weixin_42469142/article/details/89856325

Python实战 | 爬取当当网 TOP500 畅销书相关推荐

  1. 爬虫百战(一):爬取当当网Top500本五星好评书籍

    爬取当当网Top500本五星好评书籍 ==实战前提:== 准备工作 撸代码 成果展示 实战前提: 掌握requests库的使用 熟悉re库,正则表达式的简单使用 可参考我的另外两篇博客进行学习 准备工 ...

  2. 在当当买了python怎么下载源代码-python爬虫爬取当当网

    [实例简介]python爬虫爬取当当网 [实例截图] [核心代码] ''' Function: 当当网图书爬虫 Author: Charles 微信公众号: Charles的皮卡丘 ''' impor ...

  3. python爬虫爬取当当网的商品信息

    python爬虫爬取当当网的商品信息 一.环境搭建 二.简介 三.当当网网页分析 1.分析网页的url规律 2.解析网页html页面 书籍商品html页面解析 其他商品html页面解析 四.代码实现 ...

  4. 爬虫小案例-爬取当当网TOP500的图书并将数据存入数据库

    在这里分享一个刚刚学习爬虫时自己做的一个小案例,爬取了当当网TOP500的图书信息,包括图书名称.作者名称和出版社的名称. 1.分析网页 url:http://bang.dangdang.com/bo ...

  5. python爬虫-爬取当当网书籍信息存到Excel中

    文章目录 一.任务 二.分析 (一).单页面的信息分析 源代码分析 目标信息定位与分析 代码设计 (二).所有目标页面链接分析 目标链接分析 代码设计 三.注意要点 四.完整代码 五.参考 一.任务 ...

  6. python 爬虫 爬取当当网图书信息

    初次系统的学习python,在学习完基本语法后,对爬虫进行学习,现在对当当网进行爬取,爬取了基本图书信息,包括图书名.作者等 import requests from time import slee ...

  7. [Python]scrapy爬取当当网书籍相关信息

    最近想买两本程序设计的书籍,也就在当当网上面看了下,发现真是太多的书了.所以想着利用爬虫知识爬取下程序设计相关书籍的一些信息. 00_1. 首先是今天所用到的东西 python 3.5 + scrap ...

  8. Python 爬虫第三步 -- 多线程爬虫爬取当当网书籍信息

    XPath 的安装以及使用 1 . XPath 的介绍 刚学过正则表达式,用的正顺手,现在就把正则表达式替换掉,使用 XPath,有人表示这太坑爹了,早知道刚上来就学习 XPath 多省事 啊.其实我 ...

  9. Python爬虫 离线爬取当当网畅销书Top500的图书信息

    本实例还有另外的在线爬虫实现,有兴趣可点击在线爬取当当网畅销书Top500的图书信息 爬虫说明 1.使用requests和Lxml库爬取,(用BS4也很简单,这里是为了练习Xpath的语法) 2.爬虫 ...

最新文章

  1. 在springboot项目中如何创建子项目
  2. 分享:几款代码混淆器(DotFuscator, .NET Reactor, xenocode)
  3. niosii spi 外部_基于Nios_II的DMA传输总结
  4. 苹果侧边滑动返回_后置指纹、侧边指纹、屏幕指纹到底哪个更好用? 来讨论一下!...
  5. Kali Linux 秘籍 第一章 安装和启动Kali
  6. 电梯plc的io分配_用PLC构成液体混合控制系统IO分配及梯形图编程
  7. 嵌入式大佬 | 嵌入式C语言知识点万字总结
  8. pencil替代产品哪个品牌更好?推荐平替pencil
  9. springboot 配置日志文件
  10. VMWare 虚拟机, CentOS7环境下 部署Cobbler (含web)
  11. IP和局域网 简单了解
  12. NLP 实战(10): CSDN 领域榜标签分组更新
  13. 如何设置计算机自动连接宽带,宽带自动连接设置,小编教你电脑怎么设置宽带自动连接...
  14. jquery-day32
  15. 概率问题的求解 —— 样本空间
  16. 分布式技术一周技术动态 2015.12.13
  17. 对于给定的一个字符串,统计其中数字字符出现的次数
  18. android开发笔记之Google Analytics
  19. js 针对异步的处理
  20. android学习笔记29--------------XXXXXX.9.png图片

热门文章

  1. hdu6112今夕何夕
  2. 三天打鱼两天晒网python_趣味算法入门;第三题:三天打鱼两天晒网
  3. 如何编译门禁APP,人脸识别功能运行
  4. 推荐!一个简单而又精致的博客系统
  5. BP神经网络入门 学习笔记
  6. 用UML进行面向对象的分析设计的软件开发步骤
  7. 软件缺陷和软件缺陷种类
  8. java byte_Java byte数据类型详解
  9. 加速计陀螺仪6轴数据融合算法解析
  10. 网络安全CTF夺旗赛入门到入狱-密码学下篇