1 前期工作


参考

scrapy爬取京东商城某一类商品的信息和评论(一)
scrapy爬取京东商城某一类商品的信息和评论(二)

测试

  1. 打开京东图书
  2. 在console中输入$('ul.gl-warp > li').length,结果为30,说明该页面是js动态页面
  3. 输入document.getElementsByClassName('page')[0].scrollIntoView(true),可以完成拖拽动作
    注释:获取类名为 page 的元素,见【说明】
  4. span#J_resCount::text获取id属性为J_resCount的span标签的文本
    span.J_resCount::text获取class属性为J_resCount的span标签的文本

准备

  • 打开docker,开启splash端口
    sudo service docker start
    sudo docker run -p 8050:8050 scrapinghub/splash

2 抓取目标确定

  1. 搜索页抓取:ID/ 折扣价/ 总评论数/ 书店名
  2. 详情页抓取:书名、出版社、作者、ISBN、出版时间、类型(不能按照顺序来)

ID / 书名 / 原价 / 折扣价 / 作者 / 出版日期 / 出版社 / 总评分 / 总评论数 / 书店名 / ISBN /类型



附录: win10 中的BUG

1 (已解决)找不到splash模块 No module named ‘splash’

  • 描述:装好scrapy-splash后,依旧无法运行爬虫,并报错
  • 原因:没有安装splash
  • 解决办法:安装splash,打开端口,运行爬虫
1. 下载splash包 `pip install scrapy-splash`
2. 官网下载docker `https://store.docker.com/editions/community/docker-ce-desktop-windows`
3. 利用docker 运行splash  'docker run -p 8050:8050 scrapinghub/splash'
4. 验证splash是否打开,网页输入'http://localhost:8050'
4. 编辑scrapy

参考:scrapy-splash爬取JS生成的动态页面
参考:Windows Docker 安装

2 (已解决)报错 ModuleNotFoundError: No module named ‘twisted.enterprise”

安装完docker、splash后,运行爬虫报错,并且原先能正常运行的爬虫也出现同样错误

  • 怀疑1:安装包损坏,得重装scrapy
    操作:重新安装scrapy后,没用

  • 怀疑2:但运行不带from twisted.enterprise import adbapi的爬虫没问题,而且以前这条命令能执行,但现在不能执行,怀疑twisted需要升级
    操作:升级twisted ,conda upgrade twisted,问题解决

3 (已解决)运行爬虫出现 ImportError: cannot import name ‘_win32stdio’

  • 描述:
    更新splash pip install -- upgrade splash,运行爬虫出现ImportError: cannot import name '_win32stdio'

参考:Scrapy在Python3下报错:“cannot import name ‘_win32stdio’”解决办法

4 (已解决)运行quotes爬虫,报错 ModuleNotFoundError: No module named ‘splash.downloadermiddlewares’

  • windows解决不了了,换linux了。。
  • 后续:时隔多日,杀回windows,用conda重装 twistedscrapy就解决了

【京东】scrapy爬虫抓取京东图书详情、评论相关推荐

  1. 基于python的scrapy爬虫抓取京东商品信息

    这是上的第二节爬虫课程的课后作业:抓取京东某类商品的信息,这里我选择了手机品类. 使用scrapy爬虫框架,需要编写和设置的文件主要有phone.py , pipelines.py , items.p ...

  2. Scrapy爬虫抓取ZOL手机详情

    前不久需要一批手机数据做测试,所以就爬取了ZOL上关于手机的各项参数,现在把代码分享出来,希望大家能够多提改进意见. ZOL手机信息 想要抓取ZOL关于手机的信息需要三个步骤: 手机商城列表页 -&g ...

  3. Python进阶之Scrapy-redis分布式爬虫抓取当当图书

    Python进阶之Scrapy-redis分布式爬虫抓取当当图书 1. 准备工作 1.1 安装scrapy-redis 1.2 在windows安装redis程序 1.3 打开redis服务 2. 需 ...

  4. 爬虫抓取京东、苏宁、唯品会商品价格

    以iphone8为例 #京东做了反爬措施.直接抓取html内容不成功,所以要找到请求接口输入skuIds(商品代号),得到json字符串 jd = "https://p.3.cn/price ...

  5. python 京东 价格_python抓取京东商品价格

    本文介绍两种抓取价格的方法 1.读取接口获取价格 scrapy等等..简单 2.基于模拟浏览器读取页面抓取selenium 简单 京东商品价格目前是基于api接口获取然后通过js进行数值初始化 一.基 ...

  6. java 爬虫 获取京东_Java爬虫爬取京东

    需求分析 首先访问京东,搜索手机,分析页面,我们抓取以下商品数据: 商品图片.价格.标题.商品详情页 SPU和SKU 除了以上四个属性以外,我们发现上图中的苹果手机有四种产品,我们应该每一种都要抓取. ...

  7. Python中使用Scrapy爬虫抓取上海链家房价信息

    文章目录 前言 准备工作 创建一个新的Scrapy项目 定义一个爬虫Spider 导出抓取数据 保存数据到数据库(MongoDB) 前言 之前用python写了一个简单的爬虫项目用来抓取上海链家上的一 ...

  8. IT宅男利用Python网络爬虫抓取百度贴吧评论区图片和视频(实战篇)

    [一.项目背景] 百度贴吧是全球最大的中文交流平台,你是否跟我一样,有时候看到评论区的图片想下载呢?或者看到一段视频想进行下载呢? 今天,小编带大家通过搜索关键字来获取评论区的图片和视频. [二.项目 ...

  9. python京东价格_python抓取京东价格分析京东商品价格走势

    代码如下: from creepy import Crawler from BeautifulSoup import BeautifulSoup import urllib2 import json ...

  10. 爬虫基础篇之Scrapy抓取京东

    虚拟环境 同一台服务器上不同的项目可能依赖的包不同版本,新版本默认覆盖旧版本,可能导致其他项目无法运行,通过虚拟环境,完全隔离各个项目各个版本的依赖包,实现运行环境互不影响. virtualenv p ...

最新文章

  1. 每天一个linux命令(10):cat 命令
  2. 修改tomcat6.0.25日志默认路径
  3. W1000变频器如何设定频率_变频器参数如何设定,参数故障处理办法
  4. 数据恢复:解决ORA-600[kghstack_free2][kghstack_err+0068]一例
  5. [原]SQL解决“俯瞰金字塔”矩阵
  6. 移动web开发---第二天
  7. python与excel做数据可视化-我在工作中是怎么玩数据的—数据可视化系列教程—Python篇...
  8. Eclipse 创建web项目后没有 Java EE 5 Library,没有web开发相关基础java包,myeclipse中有。...
  9. 那天的延长线在今天β
  10. xpath技术,用在dom4j中
  11. nginx匹配规则_Nginx系列之server_name定义与匹配规则
  12. Oracle SQL性能优化技巧大总结
  13. java完数流程图_编程基本功训练:流程图画法及练习
  14. 洛谷 P1219 ---- 八皇后
  15. python 矩量法_矩量法:β二项分布
  16. 南邮物联网学院计算机考研,研友分享南京邮电大学物联网学院两个专业的一点看法...
  17. STC8单片机驱动ADS1256多路AD采集
  18. 肥学献礼——自动写诗
  19. MATLAB在图像上标记特定点
  20. 星际2中复刻DOTA白虎

热门文章

  1. 得到条形码的校验位函数
  2. B站视频下载助手使用教程
  3. 计算机二级 MSOffice 考试历年真题精选
  4. 一个20岁工作了4年男网管真情自白书
  5. 攻击日志分析 中职网络安全
  6. 教你如何迅速秒杀掉:99%的海量数据处理面试题 1
  7. Electron客户端的自动升级方案-2022版
  8. 全国地址邮编.sql
  9. EcShop二次开发学习方法和Ecshop二次开发必备基础
  10. html5抢答题,2017最新趣味数学抢答题