本文以读取商品评论的json数据的方式获取天猫商品评论,本文所采用的方法借鉴自知乎某大神(https://www.zhihu.com/question/36524413),可以非常方便地爬取特定商品的评价信息,但操作时需要熟悉url中各参数的含义及获取方式

1.爬取天猫商品评论信息示例

1.1 源代码如下所示:

# -*- coding: utf-8 -*-
"""
Created on Thu Jul  6 16:56:32 2017@author: Administrator
"""import requests
import json#商品评论的JSON数据
url = 'https://rate.tmall.com/list_detail_rate.htm?itemId=541396117031&spuId=128573071&spuId=128573071&sellerId=2616970884&order=3&currentPage=1&append=⊙&content=1'
req = requests.get(url)
jsondata = req.text[15:]
data = json.loads(jsondata)#输出页面信息
print('page:',data['paginator']['page'])
#遍历评论信息列表
for i in data["rateList"]:#输出商品sku信息print(i['auctionSku'])#输出评论时间和评论内容print(i['rateDate'],i['rateContent'])info = i['appendComment']#判断是否有追加评论if info:print(info['commentTime'])print(info['content'])print('======')

1.2 测试结果如下图所示:

天猫商品原始评论截图如下图所示:

对比上面两张图片,可以发现已经成功获取到该商品近期的评论信息

2.URL中各参数详细分析

上面虽然能够成功获取天猫商品评论信息,但是只能获取特定商品某一页的评论信息,并且url地址也已经事先给出来了。那如果想获取其他类别商品的多页评论数据怎么办呢?还是采用同样的方式,只不过需要对url地址中参数进行修改。上述代码中url详细地址如下所示:

url = 'https://rate.tmall.com/list_detail_rate.htm?itemId=541396117031&spuId=128573071&spuId=128573071&sellerId=2616970884&order=3&currentPage=1&append=⊙&content=1'

仔细分析该url可以发现该url有如下固定格式:
其中,https://rate.tmall.com/list_detail_rate.htm?为商品评论数据的固定开头,itemId商品IDspuId店铺IDsellerId店主IDorder取值的不同对应不同的评论排序方式currentPage表示想要获取第几页评论数据append表示是否有追加评论
下面介绍一下各项参数的获取方式,itemId可以在商品详情页URL中获取,如下图所示:

spuIdsellerId则需要在商品详情页源代码中获取,如下图所示:

后面的几项参数不同的取值对应不同商品评论信息,可以根据自己的需要进行尝试。当然,这种方法虽然能够非常简便的获取商品评论信息,但还需要人工修改参数,还有待进一步完善,未完待续。

python爬虫(6)——获取天猫商品评论信息相关推荐

  1. python爬虫(7)——获取京东商品评论信息

    本文借鉴了之前爬取天猫商品评论的思想,先通过分析网页信息来定位京东加载商品评论信息的JS页面,然后从中提取出想要的商品评论信息并存入MySQL数据库. 1.分析网页信息 本文在进行各项操作时同样以小米 ...

  2. Python爬虫实战:天猫商品数据爬虫使用教程

    本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 下载chrome浏览器 查看chrome浏览器的版本号,下载对应版本号的chro ...

  3. Python爬虫实现获取斗鱼主播信息

    先下载安装Python以及其编写软件 https://www.python.org/downloads/ Python下载官网 选择版本 下面使用的版本为3.6.5 根据自己的操作系统的位数选择 打开 ...

  4. 爬虫实例:天猫商品评论爬虫

    最近被种草SK-II,本着学工科的严谨态度,决定用数据说话 爬取数据 参数解析 itemId是商品ID, sellerId 是卖家ID, currentPage是当前页码,目标url是https:// ...

  5. 通过爬取天猫商品评论实例分析Python爬取ajax动态生成的数据

    本文主要通过爬取天猫商品kindle的评论为例来说明利用python爬取ajax动态生成的数据的方式,本文使用的工具如下: 工具 chrome浏览器[寻找评论的动态链接] python3.5[执行代码 ...

  6. Python动态爬虫爬取京东商品评论

    Python 动态爬虫爬取京东商品评论 1. 概述 京东商城是Python爬虫初学者试手的经典平台,反爬虫程度较低,但评论采取了动态加载的方式,爬取京东商品评论是学习动态爬虫的一个极佳方法. 动态爬虫 ...

  7. python爬取页面内容由京东提_python制作爬虫爬取京东商品评论教程

    本篇文章是python爬虫系列的第三篇,介绍如何抓取京东商城商品评论信息,并对这些评论信息进行分析和可视化.下面是要抓取的商品信息,一款女士文胸.这个商品共有红色,黑色和肤色三种颜色, 70B到90D ...

  8. python制作爬虫爬取京东商品评论教程

    python制作爬虫爬取京东商品评论教程 作者:蓝鲸 类型:转载 本文是继前2篇Python爬虫系列文章的后续篇,给大家介绍的是如何使用Python爬取京东商品评论信息的方法,并根据数据绘制成各种统计 ...

  9. 用python爬取天猫商品评论并分析(2)

    用python爬取天猫商品评论并分析(2) 之前介绍过天猫数据的爬取和数据初步处理,今天介绍下 将采集的评论进行文本分析!下面是总流程: 0. 主要流程 0. 数据采集 这一步参考网址:https:/ ...

最新文章

  1. excel总行数 java_计算Excel工作表列中的行数(提供的Java代码)
  2. Bochs调试Linux内核6 - 启动过程调试 - 跳到bootsect引导程序执行
  3. [HNOI 2015]接水果
  4. JavaScript基础13-day15【DOM增删改、DOM添加删除记录、操作内联样式、获取元素的样式、DOM Element 对象、滚动条练习、事件对象、div跟随鼠标移动、事件冒泡】
  5. jQuery 判断元素是否存在
  6. arm926ej_EJB超时策略:它们如何提供帮助?
  7. MySQL报错113_mysql 2003 (113)
  8. CCIE理论-第四篇-SDA-1
  9. 安卓逆向_11 --- methodprofiling(方法分析)【在 smali 代码中打印信息 --- 协议分析常用】
  10. webpack分离打包css和less
  11. 计算机应用物联网应用技术论文,物联网的关键技术及计算机物联网的应用研究...
  12. 微信小程序自定义组件——手写radio
  13. html制作跳动的心注释比较全
  14. 解决接口慢的几种方法
  15. Anthony计量经济学导论-学习笔记+R语言
  16. Unity3d 改变场景中钢体对象重力(Physics和Physics 2D)大小方向设置
  17. dell 1u服务器型号,戴尔_PowerEdge R240_1U机架式服务器_小型企业服务器选购 | Dell 中国大陆...
  18. 自动驾驶神经网络是什么,自动驾驶神经网络算法
  19. 使用化学烧伤创建自定义的详细木材燃烧图案
  20. xp打印服务器win10的系统连接不上,win10连上xp共享的打印机无法打印为什么

热门文章

  1. python 16进制转2进制
  2. Altair SimLab 2021.1 x64
  3. template模板的写法
  4. Atom的安装和汉化
  5. Bundle的使用方法
  6. 软件工程课程设计问题总结——医院门诊系统(四):后台获取下拉列表的值并在页面中显示
  7. python评分卡7_刻度尺原理
  8. 【限速标志识别】形态学限速标志识别【含GUI Matlab源码 1142期】
  9. java1310错误,CC1310开发常见问题和解答(示例代码)
  10. matlab 职坐标,机器学习入门之机器学习实战ByMatlab(三)K-means算法