1 前期工作

参考

scrapy爬取京东商城某一类商品的信息和评论（一）
scrapy爬取京东商城某一类商品的信息和评论（二）

测试

打开京东图书
在console中输入$('ul.gl-warp > li').length，结果为30，说明该页面是js动态页面
输入document.getElementsByClassName('page')[0].scrollIntoView(true)，可以完成拖拽动作
注释：获取类名为 page 的元素，见【说明】
span#J_resCount::text获取id属性为J_resCount的span标签的文本
span.J_resCount::text获取class属性为J_resCount的span标签的文本

准备

打开docker，开启splash端口
sudo service docker start
sudo docker run -p 8050:8050 scrapinghub/splash

2 抓取目标确定

搜索页抓取：ID/ 折扣价/ 总评论数/ 书店名
详情页抓取：书名、出版社、作者、ISBN、出版时间、类型(不能按照顺序来)

ID / 书名 / 原价 / 折扣价 / 作者 / 出版日期 / 出版社 / 总评分 / 总评论数 / 书店名 / ISBN /类型

附录： win10 中的BUG

1 （已解决）找不到splash模块 No module named ‘splash’

描述：装好scrapy-splash后，依旧无法运行爬虫，并报错
原因：没有安装splash
解决办法：安装splash，打开端口，运行爬虫

1. 下载splash包 `pip install scrapy-splash`
2. 官网下载docker `https://store.docker.com/editions/community/docker-ce-desktop-windows`
3. 利用docker 运行splash  'docker run -p 8050:8050 scrapinghub/splash'
4. 验证splash是否打开，网页输入'http://localhost:8050'
4. 编辑scrapy

参考：scrapy-splash爬取JS生成的动态页面
参考：Windows Docker 安装

2 （已解决）报错 ModuleNotFoundError: No module named ‘twisted.enterprise”

安装完docker、splash后，运行爬虫报错，并且原先能正常运行的爬虫也出现同样错误

怀疑1：安装包损坏，得重装scrapy
操作：重新安装scrapy后，没用
怀疑2：但运行不带from twisted.enterprise import adbapi的爬虫没问题，而且以前这条命令能执行，但现在不能执行，怀疑twisted需要升级
操作：升级twisted ，conda upgrade twisted，问题解决

3 （已解决）运行爬虫出现 ImportError: cannot import name ‘_win32stdio’

描述：
更新splash pip install -- upgrade splash，运行爬虫出现ImportError: cannot import name '_win32stdio'

参考：Scrapy在Python3下报错：“cannot import name ‘_win32stdio’”解决办法

4 （已解决）运行quotes爬虫，报错 ModuleNotFoundError: No module named ‘splash.downloadermiddlewares’

windows解决不了了，换linux了。。
后续：时隔多日，杀回windows，用conda重装 twisted 和scrapy就解决了

【京东】scrapy爬虫抓取京东图书详情、评论相关推荐

基于python的scrapy爬虫抓取京东商品信息
这是上的第二节爬虫课程的课后作业:抓取京东某类商品的信息,这里我选择了手机品类. 使用scrapy爬虫框架,需要编写和设置的文件主要有phone.py , pipelines.py , items.p ...
Scrapy爬虫抓取ZOL手机详情
前不久需要一批手机数据做测试,所以就爬取了ZOL上关于手机的各项参数,现在把代码分享出来,希望大家能够多提改进意见. ZOL手机信息想要抓取ZOL关于手机的信息需要三个步骤: 手机商城列表页 -&g ...
Python进阶之Scrapy-redis分布式爬虫抓取当当图书
Python进阶之Scrapy-redis分布式爬虫抓取当当图书 1. 准备工作 1.1 安装scrapy-redis 1.2 在windows安装redis程序 1.3 打开redis服务 2. 需 ...
爬虫抓取京东、苏宁、唯品会商品价格
以iphone8为例 #京东做了反爬措施.直接抓取html内容不成功,所以要找到请求接口输入skuIds(商品代号),得到json字符串 jd = "https://p.3.cn/price ...
python 京东价格_python抓取京东商品价格
本文介绍两种抓取价格的方法 1.读取接口获取价格 scrapy等等..简单 2.基于模拟浏览器读取页面抓取selenium 简单京东商品价格目前是基于api接口获取然后通过js进行数值初始化一.基 ...
java 爬虫获取京东_Java爬虫爬取京东
需求分析首先访问京东,搜索手机,分析页面,我们抓取以下商品数据: 商品图片.价格.标题.商品详情页 SPU和SKU 除了以上四个属性以外,我们发现上图中的苹果手机有四种产品,我们应该每一种都要抓取. ...
Python中使用Scrapy爬虫抓取上海链家房价信息
文章目录前言准备工作创建一个新的Scrapy项目定义一个爬虫Spider 导出抓取数据保存数据到数据库(MongoDB) 前言之前用python写了一个简单的爬虫项目用来抓取上海链家上的一 ...
IT宅男利用Python网络爬虫抓取百度贴吧评论区图片和视频（实战篇）
[一.项目背景] 百度贴吧是全球最大的中文交流平台,你是否跟我一样,有时候看到评论区的图片想下载呢?或者看到一段视频想进行下载呢? 今天,小编带大家通过搜索关键字来获取评论区的图片和视频. [二.项目 ...
python京东价格_python抓取京东价格分析京东商品价格走势
代码如下: from creepy import Crawler from BeautifulSoup import BeautifulSoup import urllib2 import json ...
爬虫基础篇之Scrapy抓取京东
虚拟环境同一台服务器上不同的项目可能依赖的包不同版本,新版本默认覆盖旧版本,可能导致其他项目无法运行,通过虚拟环境,完全隔离各个项目各个版本的依赖包,实现运行环境互不影响. virtualenv p ...

【京东】scrapy爬虫抓取京东图书详情、评论

1 前期工作

参考

测试

准备

2 抓取目标确定

附录： win10 中的BUG

1 （已解决）找不到splash模块 No module named ‘splash’

2 （已解决）报错 ModuleNotFoundError: No module named ‘twisted.enterprise”

3 （已解决）运行爬虫出现 ImportError: cannot import name ‘_win32stdio’

4 （已解决）运行quotes爬虫，报错 ModuleNotFoundError: No module named ‘splash.downloadermiddlewares’

【京东】scrapy爬虫抓取京东图书详情、评论相关推荐

最新文章

热门文章