【京东】商品评价采集

采集场景

京东商品详情页中的评价，有多个分类：【全部评价】、【晒图】、【视频晒单】、【追评】、【好评】、【中评】、【差评】。其中【全部评价】默认展现，其他需点击后展现。本文以按【差评】筛选采集为例讲解。实例网址：https://item.jd.com/100005185609.html；https://item.jd.com/100006607505.html；https://item.jd.com/100004770263.html。

采集字段

评价正文、评价星级、商品参数、评价时间、页面网址、评价获赞数、评价获回复数。

鼠标放到图片上，右键，选择【在新标签页中打开图片】可查看高清大图

下文其他图片同理

采集结果

采集结果可导出为Excel、CSV、HTML、数据库等多种格式。导出为Excel示例：

教程说明

本篇更新时间：2020/5/7 八爪鱼版本：V8.1.8

如果因网页改版造成网址或步骤无效，无法收集到目标数据，请联系官方客服，我们将及时修正。

采集步骤

步骤一：打开网页

步骤二、设置滚动

步骤三、按差评筛选评论

步骤四、创建【循环列表】，采集所有评价数据

步骤五、创建循环翻页，以采集多页数据

步骤六、启动采集

以下为具体步骤：

步骤一、打开网页

在首页选择【自定义任务】，输入一批京东商品详情页网址，点击【开始采集】，八爪鱼自动打开第1个网址。

目标网址：https://item.jd.com/100005185609.html
https://item.jd.com/100006607505.html
https://item.jd.com/100004770263.html

特别说明：

a. 打开网页后，如果开始开始【自动识别】，请等待自动识别完成。八爪鱼支持自动识别网页上的列表，滚动和翻页，识别成功后直接启动采集并获取数据。如果【自动识别】的结果不是我们需要的，可点击【取消】关闭智能识别，自行配置采集流程。详情点击查看【自动识别】

b. 以上操作会自动生成一个【循环网址】，启动采集后，八爪鱼会自动打开每个网址，采集每个网址中的数据。

c. 示例中输入了3个商品详情页网址，可根据需求更换。支持批量导入，详情见从本地文件导入网址教程。

步骤二、设置滚动

【商品评价】按钮需向下滚动页面才会真正加载出来，在八爪鱼中也需设置滚动。

进入【打开网页】设置页面，点开【页面加载后】，设置【页面加载后向下滚动】，滚动方式为【向下滚动一屏】，【滚动次数】为6次，【每次间隔】2秒并保存。

特别说明：

a. 设置中的滚动次数和时间间隔，请根据采集需求和网页加载情况进行设置，并非是一成不变的，具体请点击查看处理滚动加载数据的网页教程

步骤三、按差评筛选评论

1、筛选【差评】

向下滚动页面至评论区域，选中【商品评价】，在操作提示框中点击【点击该元素】，页面默认展示【全部评价】。

本示例筛选【差评】进行采集。选中【差评】，在操作提示框中点击【点击该链接】，展开差评。

特别说明：

a.【晒图】、【视频晒单】、【追评】、【好评】、【中评】、【差评】的筛选方法也是一样的，需要筛选哪个分类，在八爪鱼中做一个点击哪个分类的步骤。

2、设置【Ajax】加载

此网页的【差评】按钮，使用了Ajax加载，因此不能勾选新标签。

进入【点击元素1】设置页面，取消勾选【在新标签中打开】，并勾上【Ajax加载数据】，【Ajax超时】时间选择5-7秒，然后保存。

特别说明：

a. 使用了Ajax技术的网页，一般不勾选【在新标签中打开】。【Ajax超时】请根据采集需求和网页加载情况进行设置，并非是一成不变的，详情点击查看 Ajax教程。

步骤四、创建【循环列表】，采集所有评价数据

1、建立【循环列表】

通过以下连续3步，建立【循环列表】，

① 选中页面上1个评价列表

② 继续选中页面上第2个评价列表

③ 在操作提示框中，点击【采集以下元素文本】

此时将整个评价列表作为整个字段提取下来，如手动将列表中的字段一一提取出来。

特别说明：

a. 经过以上连续3步，【循环-提取数据】创建完成。【循环】中的项，对应着页面上所有评价列表。此时是将整个评价列表作为整个字段提取下来，如手动将列表中的字段一一提取出来。

b. 为何通过以上3步，可建立【循环-提取数据】？详情点击查看列表数据采集教程。

2、修改【循环列表】XPath

为了精准采集到所有差评，需修改【循环列表】XPath。

进入【循环列表】设置页面，修改XPath为 //div[@id=‘comment-6’]/div[position()<11] 并保存。

特别说明：

a. 默认生成的【循环列表】会定位到其他类别的评价中，无法精准采集差评，所以我们需要手动修改XPath。这里需要一定的XPath知识。点击查看 XPath学习与实例教程。

b. 除默认的【全部评价】外，采集其他的分类都需相应修改XPath。

【视频晒单】：//div[@id=‘comment-2’]/div[position()<11]

【追评】：//div[@id=‘comment-3’]/div[position()<11]

【好评】：//div[@id=‘comment-4’]/div[position()<11]

【中评】：//div[@id=‘comment-5’]/div[position()<11]

3、提取字段

在网页中，找到当前评价列表（以红色框框起来）

选中目标字段，然后在操作提示框中，点击【采集该元素的文本】。

文本类的字段都可如此提取。示例中我们提取了评价人、评价正文、评价星级、商品参数、评价时间等字段。

特别说明：

a. 一定要在当前评价列表中选择评价星级，做星级字段的提取，否则星级字段提取与【循环】中的评价列表无法产生联动，会一直重复采集某一个评价列表中的星级。

b. 如何找到当前评价列表？在【循环列表】中查看当前项（蓝色背景），然后点击【提取列表数据】，网页中被红色框框起来的评价列表，就是当前评价列表。

4、编辑字段

在【当前页面数据预览】界面，可进行删除字段、修改字段名等操作。

步骤五、创建循环翻页，以采集多页数据

1、建立【循环翻页】

如果只是采集一页数据，可跳过此步骤。

如果需要翻页以采集多页数据：选择页面中的【下一页】按钮，在操作提示上单击【循环点击下一页】，创建【循环翻页】。

特别说明：

a. 创建【循环翻页】后，八爪鱼会自动点击【下一页】按钮进行翻页，从第1页，第2页…直到最后1页。如果只需采集特定页的数据，可在八爪鱼中设置循环翻页的次数，详情点击查看翻页以采集多页数据教程。

2、修改【循环翻页】的XPath

默认的【循环翻页】XPath 无法精准定位到差评的翻页，需修改【循环翻页】XPath。

进入【循环翻页】设置页面，修改XPath为：//div[@id=‘comment-6’]//div[@class=“ui-page”]//a[@class=“ui-pager-next”] ，然后保存。

同时，调整【点击翻页】的【Ajax超时】时间为5秒。

特别说明：

a. 默认生成的【循环翻页】会定位到其他类别的翻页按钮，无法精准采集差评，所以我们需要手动修改XPath。这里需要一定的XPath知识。点击查看 XPath学习与实例教程。

b. 除默认的【全部评价】外，采集其他的分类都需相应修改XPath。

【视频晒单】：//div[@id=‘comment-2’]//div[@class=“ui-page”]//a[@class=“ui-pager-next”]

【追评】：//div[@id=‘comment-3’]//div[@class=“ui-page”]//a[@class=“ui-pager-next”]

【好评】：//div[@id=‘comment-4’]//div[@class=“ui-page”]//a[@class=“ui-pager-next”]

【中评】：//div[@id=‘comment-5’]//div[@class=“ui-page”]//a[@class=“ui-pager-next”]

c. 对于使用了Ajax技术的网页，八爪鱼会自动判断并设置【Ajax超时】。如果系统自动设置的时间过短，可根据采集需求和网页加载情况进行相应延长，详情点击查看 Ajax教程。

步骤六、启动采集

1、单击【采集】并【启动本地采集】。启动后八爪鱼开始自动采集数据。

特别说明：

a. 【本地采集】是使用自己的电脑进行采集，【云采集】是使用八爪鱼提供的云服务器采集，点击查看本地采集与云采集详解。

2、采集完成后，选择合适的导出方式来导出数据。支持导出为Excel，CSV，HTML，数据库等。这里导出为Excel。

示例数据：

【京东】商品评价采集相关推荐

python爬虫爬取京东商品评价_网络爬虫-爬取京东商品评价数据
前段时间做商品评价的语义分析,需要大量的电商数据,于是乎就自己动手爬取京东的数据.第一次接触爬虫是使用selenium爬取CNKI的摘要,基于惯性思维的我仍然想用selenium+Firefox的方法 ...
php 采集京东图片,京东商品图片采集详细教程
本文介绍采集使用八爪鱼7.0采集京东商品图片的方法:首先将京东商品搜索结果网页中图片的URL采集下来,再通过八爪鱼专用的图片批量下载工具,将采集到的图片URL中的图片,下载并保存到本地电脑中. 采集网 ...
python翻页爬取京东商品评价
python翻页爬取京东商品评价以小米手机评论为案例 1.找到目标的url 2.检查响应结果 3.解析json数据,发现相应数据无法成功解析注意:json数据一般都是以大括号或中括号开头或者结尾的 ...
爬取京东商品评价并生成词云
上期为大家介绍了requests库的基本信息以及使用requests库爬取某东的商品页,收到了很多同学的反馈说期待猪哥的更新,猪哥感到非常开心,今天就带大家来玩一把刺激的! 一.需求背景在实际开发过 ...
Selenium爬取京东商品评价，并进行基于情感词典的文本情感极性分析
Selenium爬取京东商品评价,并进行基于情感词典的文本情感极性分析 1. 介绍及开发环境 2. 爬虫实现 2.1 请求构造 2.2 提取信息 2.3 数据存储 2.4 运行结果 3. 文本情感分析 ...
网络爬虫-爬取京东商品评价数据
前段时间做商品评价的语义分析,需要大量的电商数据,于是乎就自己动手爬取京东的数据.第一次接触爬虫是使用selenium爬取CNKI的摘要,基于惯性思维的我仍然想用selenium+Firefox的方法 ...
python爬虫采集京东商品评价
前两期给大家介绍了如何利用requests库爬取小说和图片,这一期就和大家分享一下如何爬取京东商品的评价信息,这里先设置爬取50页,以做日后分析. 准备工作下面式要用到的库,请确保电脑中有以下库,没 ...
python爬虫爬取京东商品评价_python爬取京东商品信息及评论
''' 爬取京东商品信息: 功能: 通过chromeDrive进行模拟访问需要爬取的京东商品详情页(https://item.jd.com/100003196609.html)并且程序支持多个页面爬取 ...
【源码分享】京东商品评价的爬虫
/*使用javascript编写的爬虫源码,用于爬取京东商城上的商品信息和评论. 代码粘贴到神箭手云爬虫平台(http://www.shenjianshou.cn/)上就可以直接跑了,不需要安装编译环 ...
python爬取京东评论分析_Python爬取京东商品评价(动态网页的爬取)
首先打开京东的任意几个商品页面,并观察URL,可以发现都是https://item.jd.com/+数字+.htm的格式,而且数字也随着商品的改变而改变,基本上可以确定这串数字是商品ID 之后我们找到 ...

【京东】商品评价采集

【京东】商品评价采集相关推荐

最新文章

热门文章