做电商时,消费者对商品的评论是很重要的,但是不会写代码怎么办?这里有个Chrome插件可以做到简单的数据爬取,一句代码都不用写。下面给大家展示部分抓取后的数据:

可以看到,抓取的地址,评论人,评论内容,时间,产品颜色都已经抓取下来了。那么,爬取这些数据需要哪些工具呢?就两个:

1. Chrome浏览器;

2. 插件:Web Scraper

最后,如果你想自己动手抓取一下,这里是这次抓取的详细过程:

1. 首先,复制如下的代码,对,你不需要写代码,但是为了便于上手,复制代码还是需要的,后续可以自己定制和选择,不需要写代码。

{

"_id": "jdreview",

"startUrl": [

"https://item.jd.com/100000680365.html#comment"

],

"selectors": [

{

"id": "user",

"type": "SelectorText",

"selector": "div.user-info",

"parentSelectors": [

"main"

],

"multiple": false,

"regex": "",

"delay": 0

},

{

"id": "comments",

"type": "SelectorText",

"selector": "div.comment-column > p.comment-con",

"parentSelectors": [

"main"

],

"multiple": false,

"regex": "",

"delay": 0

},

{

"id": "time",

"type": "SelectorText",

"selector": "div.comment-message:nth-of-type(5) span:nth-of-type(4), div.order-info span:nth-of-type(4)",

"parentSelectors": [

"main"

],

"multiple": false,

"regex": "",

"delay": "0"

},

{

"id": "color",

"type": "SelectorText",

"selector": "div.order-info span:nth-of-type(1)",

"parentSelectors": [

"main"

],

"multiple": false,

"regex": "",

"delay": 0

},

{

"id": "main",

"type": "SelectorElementClick",

"selector": "div.comment-item",

"parentSelectors": [

"_root"

],

"multiple": true,

"delay": "10000",

"clickElementSelector": "div.com-table-footer a.ui-pager-next",

"clickType": "clickMore",

"discardInitialElements": false,

"clickElementUniquenessType": "uniqueHTMLText"

}

]

}

2. 然后打开chrome浏览器,在任意页面同时按下Ctrl+Shift+i,在弹出的窗口中找到Web Scraper,如下:

3. 如下

4. 如图,粘贴上述的代码:

5. 如图,如果需要定制网址,注意替代一下,网址后面的#comment是直达评论的链接,不能去掉:

6. 如图:

7. 如图:

8. 如图,点击Scrape后,会自动运行打开需要抓取得页面,不要关闭窗口,静静等待完成,完成后右下方会提示完成,一般1000条以内的评论不会有问题:

9. 最后,点击下载到电脑,数据保存好。

使用这个工具的好处是:

1. 不需要编程;

2. 京东的评论基本可以通用此脚本,修改对应的url即可;

3. 如果需要爬取的评论不到1000条,这个工具会非常称手,所有的数据完全自动下载;

使用的注意点:

1. 抓取过一次的数据会有记录,立刻再次抓取将不会保存,建议关闭浏览器重新打开后再试;

2. 抓取数量:1000条以内没有问题,可能是京东按照IP直接阻止了更多的爬取;

如果你的英语水平不错,可以尝试阅读官方文档,进一步学习和定制自己的爬虫。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持。

python调用chrome插件_Python使用Chrome插件实现爬虫过程图解相关推荐

  1. python 调用js类_Python 调用 JS 常用的4种方式,带你学会如何解密

    本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理 以下文章来源于AirPython ,作者星安果 1. 前言 日常 Web 端爬虫过 ...

  2. python调用c优缺点_Python调用C模块以及性能分析

    一.c,ctypes和python的数据类型的对应关系 ctypes type ctype Python type c_char char 1-character string c_wchar wch ...

  3. python调用java方法_python调用java

    一.环境确认: 首先,要确认安装的jdk版本是1.8以上:其次,jdk安装位数与python安装的位数一致,及要么一起64位版本要么一起32版本. (以上2点不满足均会报错,比如:not found ...

  4. python调用外部程序 退出_Python调用(运行)外部程序

    在Python中可以方便地使用os模块运行其他的脚本或者程序,这样就可以在脚本中直接使用其他脚本,或者程序提供的功能,而不必再次编写实现该功能的代码.为了更好地控制运行的进程,可以使用win32pro ...

  5. python调用 matlab库_python调用matlab的搜索结果-阿里云开发者社区

    2018python技术问答集锦,希望能给喜欢python的同学一些帮助 小编发现问答专区中有很多人在问关于python的问题,小编把这些问题汇总一下,希望能给喜欢python的大家一些启示和帮助 本 ...

  6. python调用opencv代码_Python调用OpenCV实现图像平滑代码实例

    主要讲解Python调用OpenCV实现图像平滑,包括四个算法:均值滤波.方框滤波.高斯滤波和中值滤波. 给图像增加噪声: import cv2 import numpy as np def test ...

  7. python调用matlab程序_Python调用MATLAB实现fmincon函数

    motivation: 1.要实现"符号几何规划"的功能,使用MATLAB自带的fmincon函数来实现 2.工程的代码是通过Python来完成的,需要Python调用MATLAB ...

  8. python调用matlab 性能_Python调用MATLAB实现fmincon函数

    motivation: 1.要实现"符号几何规划"的功能,使用MATLAB自带的fmincon函数来实现 2.工程的代码是通过Python来完成的,需要Python调用MATLAB ...

  9. python制作简单网页_Python制作简单的网页爬虫

    1.准备工作: 工欲善其事必先利其器,因此我们有必要在进行Coding前先配置一个适合我们自己的开发环境,我搭建的开发环境是: 操作系统:Ubuntu 14.04 LTS Python版本:2.7.6 ...

最新文章

  1. Qmail的介绍和配置
  2. 7.18 Shell 管道 重定向 链接
  3. javascript精要(2)-<script>标签加载时机与位置
  4. mysql 分区表详解
  5. google四件套之Dagger2
  6. 第八期:实操:两台路由器,如何分别通过WAN和LAN口连接?
  7. 字节流转化为文件流_字节流转成字符串之后,在通过字符串转成字节流后的文件为什么会不一样?...
  8. 组合数学—容斥原理与鸽巢原理
  9. clone repository in git shell under windows
  10. python文件操作大全
  11. STL - MainTao - 博客园
  12. httpd2.4.9主配置文件参数详解
  13. vm14卡顿及安装linux黑屏问题
  14. 史上最全面的Javaweb完整学习教程,Java小白必备!
  15. dell pc restore 修复计算机,dell 恢复出厂系统 修复计算机选项失效
  16. 学以致用——Java源码——抛双骰儿游戏综合评估(游戏步数与胜率的关系,公平性,平均步数等)(Game of Craps Evaluation)
  17. 工单系统(源代码)PHP语言开发 开发者版
  18. java计算机毕业设计家教平台系统源码+mysql数据库+系统+lw文档+部署
  19. TSM是NFC应用发展的关键环节
  20. js 手机号码和电话号码(座机号)正则校验

热门文章

  1. 分布式计算框架Gearman原理详解
  2. FATAL: NO bootable medium found! System halted
  3. 基于STM32CubeMX创建STM32L496ZGTx的工程
  4. win下安装elasticsearch(win_Elasticsearch)
  5. ETL数据处理后的业务分析(一)
  6. 怎么在idea中找实现类
  7. 为什么MySQL索引要使用 B+树,而不是其它树形结构?
  8. java安全编码指南之:敏感类的拷贝
  9. java中CyclicBarrier的使用
  10. docker环境安装,镜像和容器常用命令