爬取淘宝评论以及词云图
我最近运气可是不得了,某天骑上我心爱的小电瓶,哪里也不会堵车,虽知道天公不作美,我的手机从裤兜里面飘出来,结果摔坏了。没办法只能去某宝上重新购物下。
我们公司的同事推荐我买小米10,于是我就想看下用户对于他们的评论。
首先是我们要找到含有评论的js文件。这里我是通过万能Fiddler工具进行查找的。
我们可以看到这个url里面是包含评论。我们具体看看这个url
https://rate.tmall.com/list_detail_rate.htm?itemId=611525560119&spuId=1526565904&sellerId=2616970884&order=3¤tPage=1&append=0&content=1&tagId=&posi=&picture=&groupId=&ua=098%23E1hvBpvbvnQvUvCkvvvvvjiPnLFh1jrPnLdvgjYHPmPpAjlbnLLhAjYbRschzj1H3QhvCvvhvvvCvpvVvvpvvhCvkphvC99vvOC0B4yCvv9vvUmt4v%2BzxfyCvm9vvvvvphvvvvvv93avpvkEvvmm86Cv2vvvvUUdphvUOQvv9krvpv3FmphvLvCad9vj8txrAWoK53n5A47t5BwsWD0l24VHR4hSot79D76Xe366%2BExr1CKKNB3r1n3lDfUf8wBl%2B87J5jX2sb2XSfpAOH2%2BFOcn%2B3vPvpvhvv2MMsyCvvpvvvvviQhvCvvv9U8CvpvZ7DKPMsbw7Di4XJS5MjE4%2Bxdxz69tvpvhvvvvvv%3D%3D&needFold=0&_ksTS=1594110499397_540&callback=jsonp541
我们看下这个url,里面有几个重点参数,可以通过几个重点参数来构建url。
itemId:产品ID
sellerId:店铺ID
currentPage:内容页数
callback :回调
代码如下:
url="https://rate.tmall.com/list_detail_rate.htm"headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:75.0) Gecko/20100101 Firefox/75.0',
'Referer':'https://detail.tmall.com/item.htm',
'Cookie': '自己填写'
}
commentsstr=""
for j in range(15):params={'itemId':'611525560119','sellerId' :'2616970884','currentPage':j,'callback':'jsonp552',}response=requests.get(url,params,headers=headers).content.decode('utf-8')[11:-1]response = json.loads(response)
通过截取response,再利用loads将其转化为字典,现在就是再字典中获取评论,接下来我们看看字典是什么样子的吧
评论都在一个列表里面,这个列表对应的字典的键是rateList,我们可以先得到列表,即是rateList=response[‘rateDetail’][‘rateList’]
,然后遍历这个列表。
代码如下:
rateList=response['rateDetail']['rateList']for i in rateList:commentsstr+=i['rateContent']
得到评论的字符串以后,通过jieba分词,在利用wordcloud画出词云图
commentsstr=commentsstr.replace('手机','')
commentsstr=commentsstr.replace('小米','')
ls = jieba.lcut(commentsstr)
# 将列表中的单词连接成一个字符串
txt = " ".join(ls)
w = wordcloud.WordCloud(width = 1000, height = 700,background_color = "white",font_path = "msyh.ttc")
bmp = w.generate(txt)
image=w.to_image()
image.show()
可以去掉一些无关紧要的词,就比如“手机”,“小米”,“苏宁”之类的。接下来我们看看运行的结果:
结论:
整体对待小米手机的评价应该是不错,客服问题、运行速度、电池续航、快递速度,拍照效果出现的频率很是挺高的。
以前小米大家最为吐槽的发热,现在也是退居幕后了。
完整代码:
import requests
import json
import jieba
import wordcloud
import matplotlib.pyplot as plturl="https://rate.tmall.com/list_detail_rate.htm"headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:75.0) Gecko/20100101 Firefox/75.0',
'Referer':'https://detail.tmall.com/item.htm',
'Cookie': '自己填写'}
commentsstr=""
for j in range(15):params={'itemId':'611525560119','sellerId' :'2616970884','currentPage':j,'callback':'jsonp552',}response=requests.get(url,params,headers=headers).content.decode('utf-8')response = json.loads(response[11:-1])rateList=response['rateDetail']['rateList']for i in rateList:commentsstr+=i['rateContent']
commentsstr=commentsstr.replace('手机','')
commentsstr=commentsstr.replace('小米','')
ls = jieba.lcut(commentsstr)
# 将列表中的单词连接成一个字符串
txt = " ".join(ls)
w = wordcloud.WordCloud(width = 1000, height = 700,background_color = "white",font_path = "msyh.ttc")
bmp = w.generate(txt)
image=w.to_image()
image.show()
爬取淘宝评论以及词云图相关推荐
- Python入门--爬取淘宝评论并生成词云
Python爬取淘宝评论并生成词云 最新修改于2021/04/01 所需相关Python第三方库(目前最新版本即可) 推荐使用Anaconda,其使用十分方便.快捷. requests库 json库 ...
- python词云代码手机_【云计算】爬取淘宝手机品牌词云分析(python)
本文主要向大家介绍了[云计算]爬取淘宝手机品牌词云分析(python),通过具体的内容向大家展现,希望对大家学习云计算有所帮助. 淘宝手机信息的爬取,请看这边博客(点击这里),然后我们利用其中保存的文 ...
- python爬淘宝app数据_一篇文章教会你用Python爬取淘宝评论数据(写在记事本)
[一.项目简介] 本文主要目标是采集淘宝的评价,找出客户所需要的功能.统计客户评价上面夸哪个功能多,比如防水,容量大,好看等等. [二.项目准备工作] 准备Pycharm,下载安装等,可以参考这篇文章 ...
- Python爬取淘宝评论!听说差评才是最真实的?
进入淘宝店铺,使用开发者工具抓包后点击累计评价,可以定位到评论的接口 从抓的包中复制cookie 分析接口后发现只需要四个参数即可在此接口请求到评论内容 #头部需要带上ua和referer,不然请求不 ...
- python 爬虫实例-python爬虫实例,一小时上手爬取淘宝评论(附代码)
前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 1 明确目的 通过访问天猫的网站,先搜索对应的商品,然后爬取它的评论数据. ...
- Python爬虫实例,一小时上手爬取淘宝评论(附代码)!
前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 1 明确目的 通过访问天猫的网站,先搜索对应的商品,然后爬取它的评论数据. ...
- python爬虫实例,一小时上手爬取淘宝评论(附代码)
前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 1 明确目的 通过访问天猫的网站,先搜索对应的商品,然后爬取它的评论数据. ...
- 如何写一个python程序浏览淘宝_一篇文章教会你用Python爬取淘宝评论数据(写在记事本)...
[一.项目简介] 本文主要目标是采集淘宝的评价,找出客户所需要的功能.统计客户评价上面夸哪个功能多,比如防水,容量大,好看等等. [二.项目准备工作] 1. 准备Pycharm,下载安装等,可以参考这 ...
- python3.6 爬取淘宝评论(大衣+内衣)
为什么80%的码农都做不了架构师?>>> ''' Created on 2017年12月3日@author: Geng ''' import requests import t ...
- python爬取淘宝天猫评论(通过cookie)
今天分享的是使用python语言然后通过cookie来爬取淘宝天猫评论的方法. 1.首先我们打开一个产品页,地址:几素usb小风扇,按下F12,然后下拉到产品评论可以看到如下图 2.点击这个scrip ...
最新文章
- 古典人像秒变3D,视角还能随意切,华为上交联手出品
- Leetcode 39 组合总和 (每日一题 20210806)
- Struts2零配置介绍(约定访问)
- 第三篇——第二部分——第四文 配置SQL Server镜像——非域环境
- 浅析VS2010反汇编 VS 反汇编方法及常用汇编指令介绍 VS2015使用技巧 调试-反汇编 查看C语言代码对应的汇编代码...
- SAP Spartacus ConfigInitializerService里的isStable属性
- CurvLearn开源 | 阿里妈妈曲率学习框架详解
- blue html中转换,BlueFox Free PDF to HTML Converter(PDF文件转换软件)
- 牛客网--2019校招--丰收
- 作者:刘诗凯(1983-),男,华为大数据分析产品部主任工程师。
- 基于bootstrap的 按钮-隐藏 案例
- 机器学习:算法视角pdf_何时使用不同的机器学习算法:简单指南
- linux dhcpd 设置 关于 subnet
- 《人生一串》第二季收官 B站播放量突破5400万
- 马来亚大学 计算机科学 排名,顶级名校,马来亚大学申请解析!
- 详解收发不畅原因及U-Mail邮件中继解决之道
- java基础练习题及答案_java基础测试题含答案.docx
- gwt php,java – 启动GWT项目的PHP程序员的任何好技巧?
- 网站设计的好坏对宣传的效果的影响!
- 利用Python猜测小狐狸进洞