【京东】scrapy爬虫抓取京东图书详情、评论
1 前期工作
参考
scrapy爬取京东商城某一类商品的信息和评论(一)
scrapy爬取京东商城某一类商品的信息和评论(二)
测试
- 打开京东图书
- 在console中输入
$('ul.gl-warp > li').length
,结果为30,说明该页面是js动态页面 - 输入
document.getElementsByClassName('page')[0].scrollIntoView(true)
,可以完成拖拽动作
注释:获取类名为 page 的元素,见【说明】 span#J_resCount::text
获取id属性为J_resCount的span标签的文本
span.J_resCount::text
获取class属性为J_resCount的span标签的文本
准备
- 打开docker,开启splash端口
sudo service docker start
sudo docker run -p 8050:8050 scrapinghub/splash
2 抓取目标确定
- 搜索页抓取:
ID/ 折扣价/ 总评论数/ 书店名
- 详情页抓取:
书名、出版社、作者、ISBN、出版时间、类型
(不能按照顺序来)
ID / 书名 / 原价 / 折扣价 / 作者 / 出版日期 / 出版社 / 总评分 / 总评论数 / 书店名 / ISBN /类型
附录: win10 中的BUG
1 (已解决)找不到splash模块 No module named ‘splash’
- 描述:装好scrapy-splash后,依旧无法运行爬虫,并报错
- 原因:没有安装splash
- 解决办法:安装splash,打开端口,运行爬虫
1. 下载splash包 `pip install scrapy-splash`
2. 官网下载docker `https://store.docker.com/editions/community/docker-ce-desktop-windows`
3. 利用docker 运行splash 'docker run -p 8050:8050 scrapinghub/splash'
4. 验证splash是否打开,网页输入'http://localhost:8050'
4. 编辑scrapy
参考:scrapy-splash爬取JS生成的动态页面
参考:Windows Docker 安装
2 (已解决)报错 ModuleNotFoundError: No module named ‘twisted.enterprise”
安装完docker、splash后,运行爬虫报错,并且原先能正常运行的爬虫也出现同样错误
怀疑1:安装包损坏,得重装scrapy
操作:重新安装scrapy后,没用怀疑2:但运行不带
from twisted.enterprise import adbapi
的爬虫没问题,而且以前这条命令能执行,但现在不能执行,怀疑twisted需要升级
操作:升级twisted ,conda upgrade twisted
,问题解决
3 (已解决)运行爬虫出现 ImportError: cannot import name ‘_win32stdio’
- 描述:
更新splashpip install -- upgrade splash
,运行爬虫出现ImportError: cannot import name '_win32stdio'
参考:Scrapy在Python3下报错:“cannot import name ‘_win32stdio’”解决办法
4 (已解决)运行quotes爬虫,报错 ModuleNotFoundError: No module named ‘splash.downloadermiddlewares’
- windows解决不了了,换linux了。。
- 后续:时隔多日,杀回windows,用conda重装
twisted
和scrapy
就解决了
【京东】scrapy爬虫抓取京东图书详情、评论相关推荐
- 基于python的scrapy爬虫抓取京东商品信息
这是上的第二节爬虫课程的课后作业:抓取京东某类商品的信息,这里我选择了手机品类. 使用scrapy爬虫框架,需要编写和设置的文件主要有phone.py , pipelines.py , items.p ...
- Scrapy爬虫抓取ZOL手机详情
前不久需要一批手机数据做测试,所以就爬取了ZOL上关于手机的各项参数,现在把代码分享出来,希望大家能够多提改进意见. ZOL手机信息 想要抓取ZOL关于手机的信息需要三个步骤: 手机商城列表页 -&g ...
- Python进阶之Scrapy-redis分布式爬虫抓取当当图书
Python进阶之Scrapy-redis分布式爬虫抓取当当图书 1. 准备工作 1.1 安装scrapy-redis 1.2 在windows安装redis程序 1.3 打开redis服务 2. 需 ...
- 爬虫抓取京东、苏宁、唯品会商品价格
以iphone8为例 #京东做了反爬措施.直接抓取html内容不成功,所以要找到请求接口输入skuIds(商品代号),得到json字符串 jd = "https://p.3.cn/price ...
- python 京东 价格_python抓取京东商品价格
本文介绍两种抓取价格的方法 1.读取接口获取价格 scrapy等等..简单 2.基于模拟浏览器读取页面抓取selenium 简单 京东商品价格目前是基于api接口获取然后通过js进行数值初始化 一.基 ...
- java 爬虫 获取京东_Java爬虫爬取京东
需求分析 首先访问京东,搜索手机,分析页面,我们抓取以下商品数据: 商品图片.价格.标题.商品详情页 SPU和SKU 除了以上四个属性以外,我们发现上图中的苹果手机有四种产品,我们应该每一种都要抓取. ...
- Python中使用Scrapy爬虫抓取上海链家房价信息
文章目录 前言 准备工作 创建一个新的Scrapy项目 定义一个爬虫Spider 导出抓取数据 保存数据到数据库(MongoDB) 前言 之前用python写了一个简单的爬虫项目用来抓取上海链家上的一 ...
- IT宅男利用Python网络爬虫抓取百度贴吧评论区图片和视频(实战篇)
[一.项目背景] 百度贴吧是全球最大的中文交流平台,你是否跟我一样,有时候看到评论区的图片想下载呢?或者看到一段视频想进行下载呢? 今天,小编带大家通过搜索关键字来获取评论区的图片和视频. [二.项目 ...
- python京东价格_python抓取京东价格分析京东商品价格走势
代码如下: from creepy import Crawler from BeautifulSoup import BeautifulSoup import urllib2 import json ...
- 爬虫基础篇之Scrapy抓取京东
虚拟环境 同一台服务器上不同的项目可能依赖的包不同版本,新版本默认覆盖旧版本,可能导致其他项目无法运行,通过虚拟环境,完全隔离各个项目各个版本的依赖包,实现运行环境互不影响. virtualenv p ...
最新文章
- 每天一个linux命令(10):cat 命令
- 修改tomcat6.0.25日志默认路径
- W1000变频器如何设定频率_变频器参数如何设定,参数故障处理办法
- 数据恢复:解决ORA-600[kghstack_free2][kghstack_err+0068]一例
- [原]SQL解决“俯瞰金字塔”矩阵
- 移动web开发---第二天
- python与excel做数据可视化-我在工作中是怎么玩数据的—数据可视化系列教程—Python篇...
- Eclipse 创建web项目后没有 Java EE 5 Library,没有web开发相关基础java包,myeclipse中有。...
- 那天的延长线在今天β
- xpath技术,用在dom4j中
- nginx匹配规则_Nginx系列之server_name定义与匹配规则
- Oracle SQL性能优化技巧大总结
- java完数流程图_编程基本功训练:流程图画法及练习
- 洛谷 P1219 ---- 八皇后
- python 矩量法_矩量法:β二项分布
- 南邮物联网学院计算机考研,研友分享南京邮电大学物联网学院两个专业的一点看法...
- STC8单片机驱动ADS1256多路AD采集
- 肥学献礼——自动写诗
- MATLAB在图像上标记特定点
- 星际2中复刻DOTA白虎