爬取淘宝商品评论—

本文具有时效性，指不定哪天失效

时间：2020-8

网页分析

一般来说，请求的数据会有几种可能：

1、很简单的html页面（静态网页），就直接requests就可以请求成功；

2、js渲染的页面，很常见，requests请求一堆js数据；

3、需要登录才能获取，登录后，把cookie 加入请求；

4、json数据

显然淘宝不是静态网页，直接打开某个商品（我们这里选择Nike旗舰店的一双鞋），选择评论页面，按F12进入调试页面页面，选择network，然后点击评论的下一页观察页面请求

放大看一下

显然评论数据就藏在list_detail开头的响应中，那我们就直接看标头（按照惯例，直接复制标题链接打开，并不能得到想要的信息，那就是还需要请求标头的信息）：

一般来说，这么长的请求是比较难看的，通常需要多观察几页

重点在前面那部分，sellerid应该是商品id，currentpage是当前评论页，并且 &ua= 后面那一段长长的字符并不相同，或许可以把它去掉，待会代码试试。
再看看请求标头需要什么：

authority + path 就是上面的请求url，其他的language，encoding，每个网页基本都一样的，可加可不加。
我们需要的是cookie（记录客户端的用户信息，登录后会有），referer（告诉服务器该网页是从哪个页面链接过来的），user-agent（爬虫老朋友了，浏览器标识）

代码分析

开始写代码试试

import requestspage = 1 #最终代码改成for循环可以遍历下载path = 'https://rate.tmall.com/list_detail_rate.htm?itemId=612891862405&spuId=1532072041&sellerId=890482188&order=3&currentPage='
url = path + str(page) #原始链接加上页面headers = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.59 Safari/537.36 Edg/85.0.564.30',#referer随便填个淘宝网页应该都能用'referer': 'https://detail.tmall.com/item.htm?spm=a230r.1.14.80.675374f6O2Yqxg&id=612891862405&ns=1&abbucket=15','cookie': '复制你的cookie在这里'}
res = requests.get(url,headers = headers)

直接打印看看有没有获取成功：

可以看到数据是在的里面，虽然看起来乱七八糟。我们把里面的json提取出来就好：

import re
js_str = re.search('\{.*}',res.text)
js_str.group()

用josn加载会直观看出键值对：

import jsonjs_dict = json.loads(js_str.group())
js_dict

取出需要的属性（我这里只选择评论，商品属性，时间）：

分析到这里已经足够了，接下来可以根据自己需求写代码：

最终代码：

import requests
import re
import json
import time
import pandas as pddef get_comments():for page in range(1,20):link = 'https://rate.tmall.com/list_detail_rate.htm?itemId=612891862405&spuId=1532072041&sellerId=890482188&order=3&currentPage='url = link + str(page) #原始链接加上页面数headers = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.59 Safari/537.36 Edg/85.0.564.30','referer': 'https://detail.tmall.com/item.htm?spm=a230r.1.14.80.675374f6O2Yqxg&id=612891862405&ns=1&abbucket=15','cookie': '复制你的cookie到这里'}res = requests.get(url,headers = headers)js_str = re.search('\{.*}',res.text)js_dict = json.loads(js_str.group())time.sleep(7)dict_content = {}rateContent = [] #评论auctionSku = [] #款式rateDate = [] #时间for i in range(len(js_dict['rateDetail']['rateList'])):rateContent.append(js_dict['rateDetail']['rateList'][i]['rateContent'])auctionSku.append([js_dict['rateDetail']['rateList'][i]['auctionSku']])rateDate.append([js_dict['rateDetail']['rateList'][i]['rateDate']])dict_content['rateContent'] = rateContentdict_content['auctionSku'] = auctionSkudict_content['rateDate'] = rateDate#dict_content['id'] = '890482188'df = pd.DataFrame(dict_content)if page == 1:df.to_csv('./nike.csv',encoding='utf_8_sig')else:df.to_csv('./nike.csv',mode = 'a',header= False,encoding='utf_8_sig')print('已保存第',page,'页','这一页有',i,'条评论')if __name__ == '__main__':   get_comments()

词云

补充

这仅仅只是一个商品的评论页面，能做的事还有很多，比如获取商品的属性，价格，月销量；遍历多个商品，店铺；对获取到的数据进行数据分析；

并且实际上搜索页面的商品数据就在网页源代码中：
user_id是商品id，并且在这里可以直观的获取价格，销量，评论数（这对我们控制上述代码控制for循环很有用)