python爬虫(6)——获取天猫商品评论信息
本文以读取商品评论的json数据的方式来获取天猫商品评论,本文所采用的方法借鉴自知乎某大神(https://www.zhihu.com/question/36524413),可以非常方便地爬取特定商品的评价信息,但操作时需要熟悉url中各参数的含义及获取方式。
1.爬取天猫商品评论信息示例
1.1 源代码如下所示:
# -*- coding: utf-8 -*-
"""
Created on Thu Jul 6 16:56:32 2017@author: Administrator
"""import requests
import json#商品评论的JSON数据
url = 'https://rate.tmall.com/list_detail_rate.htm?itemId=541396117031&spuId=128573071&spuId=128573071&sellerId=2616970884&order=3¤tPage=1&append=⊙&content=1'
req = requests.get(url)
jsondata = req.text[15:]
data = json.loads(jsondata)#输出页面信息
print('page:',data['paginator']['page'])
#遍历评论信息列表
for i in data["rateList"]:#输出商品sku信息print(i['auctionSku'])#输出评论时间和评论内容print(i['rateDate'],i['rateContent'])info = i['appendComment']#判断是否有追加评论if info:print(info['commentTime'])print(info['content'])print('======')
1.2 测试结果如下图所示:
天猫商品原始评论截图如下图所示:
对比上面两张图片,可以发现已经成功获取到该商品近期的评论信息。
2.URL中各参数详细分析
上面虽然能够成功获取天猫商品评论信息,但是只能获取特定商品某一页的评论信息,并且url地址也已经事先给出来了。那如果想获取其他类别商品的多页评论数据怎么办呢?还是采用同样的方式,只不过需要对url地址中参数进行修改。上述代码中url详细地址如下所示:
url = 'https://rate.tmall.com/list_detail_rate.htm?itemId=541396117031&spuId=128573071&spuId=128573071&sellerId=2616970884&order=3¤tPage=1&append=⊙&content=1'
仔细分析该url可以发现该url有如下固定格式:
其中,https://rate.tmall.com/list_detail_rate.htm?为商品评论数据的固定开头,itemId为商品ID,spuId为店铺ID,sellerId为店主ID,order取值的不同对应不同的评论排序方式,currentPage表示想要获取第几页评论数据,append表示是否有追加评论。
下面介绍一下各项参数的获取方式,itemId可以在商品详情页URL中获取,如下图所示:
spuId和sellerId则需要在商品详情页源代码中获取,如下图所示:
后面的几项参数不同的取值对应不同商品评论信息,可以根据自己的需要进行尝试。当然,这种方法虽然能够非常简便的获取商品评论信息,但还需要人工修改参数,还有待进一步完善,未完待续。
python爬虫(6)——获取天猫商品评论信息相关推荐
- python爬虫(7)——获取京东商品评论信息
本文借鉴了之前爬取天猫商品评论的思想,先通过分析网页信息来定位京东加载商品评论信息的JS页面,然后从中提取出想要的商品评论信息并存入MySQL数据库. 1.分析网页信息 本文在进行各项操作时同样以小米 ...
- Python爬虫实战:天猫商品数据爬虫使用教程
本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 下载chrome浏览器 查看chrome浏览器的版本号,下载对应版本号的chro ...
- Python爬虫实现获取斗鱼主播信息
先下载安装Python以及其编写软件 https://www.python.org/downloads/ Python下载官网 选择版本 下面使用的版本为3.6.5 根据自己的操作系统的位数选择 打开 ...
- 爬虫实例:天猫商品评论爬虫
最近被种草SK-II,本着学工科的严谨态度,决定用数据说话 爬取数据 参数解析 itemId是商品ID, sellerId 是卖家ID, currentPage是当前页码,目标url是https:// ...
- 通过爬取天猫商品评论实例分析Python爬取ajax动态生成的数据
本文主要通过爬取天猫商品kindle的评论为例来说明利用python爬取ajax动态生成的数据的方式,本文使用的工具如下: 工具 chrome浏览器[寻找评论的动态链接] python3.5[执行代码 ...
- Python动态爬虫爬取京东商品评论
Python 动态爬虫爬取京东商品评论 1. 概述 京东商城是Python爬虫初学者试手的经典平台,反爬虫程度较低,但评论采取了动态加载的方式,爬取京东商品评论是学习动态爬虫的一个极佳方法. 动态爬虫 ...
- python爬取页面内容由京东提_python制作爬虫爬取京东商品评论教程
本篇文章是python爬虫系列的第三篇,介绍如何抓取京东商城商品评论信息,并对这些评论信息进行分析和可视化.下面是要抓取的商品信息,一款女士文胸.这个商品共有红色,黑色和肤色三种颜色, 70B到90D ...
- python制作爬虫爬取京东商品评论教程
python制作爬虫爬取京东商品评论教程 作者:蓝鲸 类型:转载 本文是继前2篇Python爬虫系列文章的后续篇,给大家介绍的是如何使用Python爬取京东商品评论信息的方法,并根据数据绘制成各种统计 ...
- 用python爬取天猫商品评论并分析(2)
用python爬取天猫商品评论并分析(2) 之前介绍过天猫数据的爬取和数据初步处理,今天介绍下 将采集的评论进行文本分析!下面是总流程: 0. 主要流程 0. 数据采集 这一步参考网址:https:/ ...
最新文章
- excel总行数 java_计算Excel工作表列中的行数(提供的Java代码)
- Bochs调试Linux内核6 - 启动过程调试 - 跳到bootsect引导程序执行
- [HNOI 2015]接水果
- JavaScript基础13-day15【DOM增删改、DOM添加删除记录、操作内联样式、获取元素的样式、DOM Element 对象、滚动条练习、事件对象、div跟随鼠标移动、事件冒泡】
- jQuery 判断元素是否存在
- arm926ej_EJB超时策略:它们如何提供帮助?
- MySQL报错113_mysql 2003 (113)
- CCIE理论-第四篇-SDA-1
- 安卓逆向_11 --- methodprofiling(方法分析)【在 smali 代码中打印信息 --- 协议分析常用】
- webpack分离打包css和less
- 计算机应用物联网应用技术论文,物联网的关键技术及计算机物联网的应用研究...
- 微信小程序自定义组件——手写radio
- html制作跳动的心注释比较全
- 解决接口慢的几种方法
- Anthony计量经济学导论-学习笔记+R语言
- Unity3d 改变场景中钢体对象重力(Physics和Physics 2D)大小方向设置
- dell 1u服务器型号,戴尔_PowerEdge R240_1U机架式服务器_小型企业服务器选购 | Dell 中国大陆...
- 自动驾驶神经网络是什么,自动驾驶神经网络算法
- 使用化学烧伤创建自定义的详细木材燃烧图案
- xp打印服务器win10的系统连接不上,win10连上xp共享的打印机无法打印为什么