目标:使用Scrapy,爬取当当网2018年图书销售榜单前3页的数据(图书名、作者和书的价格)。
URL:http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-year-2018-0-1-1 (最后一个数字1代表第1页,每页20种)

网页源码:

展开后源码:

代码示例:

items.py文件参考代码#
#-*- coding: utf-8 -*-
# Define here the models for your scraped items## See documentation in:
# https://doc.scrapy.org/en/latest/topics/items.htmlimport scrapy
class DangdangItem(scrapy.Item):    name = scrapy.Field()    author = scrapy.Field()    price = scrapy.Field()

bestsellers.py文件里spider参考代码



settings.py文件代码略

main.py文件参考代码
from scrapy import cmdlinecmdline.execute([‘scrapy’,‘crawl’,‘dangdang’])

本博文为学习笔记,由博主自风变编程学习整理而来。

爬虫项目实操五、用Scrapy爬取当当图书榜单相关推荐

  1. Python数据爬虫学习笔记(21)Scrapy爬取当当图书数据并存储至SQLite数据库

    一.需求:在当当网的程序设计类图书商品界面中,爬取图书的名称.详情链接以及评论数,并将信息存储至SQLite数据库. 二.URL及网页源码分析: 1.URL分析,注意到商品搜索页的URL具有以下结构: ...

  2. scrapy爬取QQ音乐榜单歌曲及豆瓣电影信息。

    系列文章目录 第一章 scrapy爬取起点中文网24小时热销榜单. 第二章 scrapy爬取苏州二手房交易信息. 第三章 scrapy爬取QQ音乐榜单歌曲及豆瓣电影信息. 目录 系列文章目录 前言 一 ...

  3. 【python爬虫自学笔记】(实战)----爬取猫眼电影榜单Top100

    目的:爬取猫眼电影榜单TOP100的信息并保存在文档中. 查看网站结构,确定思路: 首先请求网页的地址为maoyan.com/board/4,电影信息的内容包含在一个个dd标签之中,分析dd标签中的内 ...

  4. scrapy 爬取当当图书名字图片

    1.创建项目和创建爬虫参考上一篇博客. 2.dang.py import scrapy from scrapy_dangdang.items import ScrapyDangdangItemclas ...

  5. python爬取豆瓣图书榜单 并存放数据库心得

    最近javaweb 项目存放图书的数据库存放的图书太少 决定去豆瓣榜单 爬取一些数据 首先是爬取网页得到数据 以字典类型先储存下来 贴上代码 def init(self, keyword): self ...

  6. 爬虫项目实战一:基于Scrapy+MongDB爬取并存储糗事百科用户信息

    爬虫项目实战一:基于Scrapy+MongDB爬取并存储糗事百科用户信息 一.前言 二.项目目标 三.项目的环境配置 四.项目实现 1. 创建QSBK项目 2. 实现Spider 1. 实现一页网页上 ...

  7. 爬虫项目——B站石原里美视频数据爬取

    爬虫项目--B站石原里美视频数据爬取 1. 爬虫原理 2. 数据爬取 2.1 库函数的引用 2.2 定义URL翻页函数 2.3 定义储存TXT文件函数 2.4 定义爬取函数 2.5 主函数 2.6 运 ...

  8. Scrapy爬取当当网图书销售前100

    scrapy爬取当当网图书畅销榜 一.采集任务 爬取当当网图书畅销榜信息,获取热销图书前500相关数据. 二.网页解析 1. 打开当当网,按照图书榜>图书畅销榜 进入当当网图书畅销榜[http: ...

  9. Scrapy爬取当当网的商品信息存到MySQL数据库

    Scrapy爬取当当网的商品信息存到MySQL数据库 Scrapy 是一款十分强大的爬虫框架,能够快速简单地爬取网页,存到你想要的位置.经过两天的摸索,终于搞定了一个小任务,将当当网的商品信息爬下来存 ...

  10. python实战|用scrapy爬取当当网数据

    本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理 以下文章来源于腾讯云 作者:Python进击者 ( 想要学习Python?Pyth ...

最新文章

  1. SQL Server-表表达式基础
  2. 狄德罗效应下,小程序被“逼”向中心化
  3. access开发精要(1)-字段验证
  4. jedis使用_Redis --Java客户端 Jedis
  5. 现代制造工程课堂笔记06-集成电路制造工程
  6. python 文件和目录操作题库
  7. springMVC简介
  8. 提升用户体验---自动邮编提示与验证地址
  9. 转载:日本动漫编年史
  10. html 首行缩进两个空格,关于css的text-indent首行缩进两个字符和图片缩进的问题...
  11. 树莓派查看CPU温度
  12. 怎么查看自己本地的ip地址
  13. 解密产品经理兼职做猎头,3个月赚十万
  14. QQ空间点赞...取消点赞
  15. 万维网发明者Tim Berners-Lee著作:《编织万维网》译文:第一章
  16. 超全的 Vue 开源项目合集
  17. 虚拟机的unity模式
  18. 网管软件最常用协议SNMP(Simple Network Management Protocol)介绍
  19. 精益生产的本质和应用案例
  20. AI智能外呼机器人源码外呼系统

热门文章

  1. 源码编译shc-3.8.7
  2. 100多个经典常用的jQuery插件大全实例演示和下载
  3. R2-React之ES6基础
  4. java继承计算不同图形面积_第五章-子类与继承-实验2(图形面积的和)
  5. 改造家里的开关为智能开关,保留原有开关控制,零火版,HomeKit篇(三)
  6. 如何用计算机建网站,如何在自己的电脑上建网站
  7. 使用python压缩文件夹
  8. 初中英语语法(002)-be动词和一般动词的一般现在时
  9. 音乐标签修改 android,音乐标签Android版
  10. 富途、小牛与亿航股价齐飞, “新三傻”是大泡沫还是好未来?