python request 淘宝评论数据简易爬虫

淘宝商品的评价数据非常具有研究意义，可以尝试作为神经网络RNN的训练原料。我们使用python中的request库可以直接爬取评论数据，并不需要任何其他框架以及浏览器支持。

1，我们要爬取的淘宝商品页，我们可以看到地址栏中id=*************显示的内容是商品在数据库中的id

2，评论所在位置的真实url，以刚刚的宝贝为例，https://rate.taobao.com/feedRateList.htm?auctionNumId=553063221972&currentPageNum=1。在Url中体现了对应商品的ID以及评论当前所在的页数。

3，使用request库爬取评论对应的真实url。我们代码的第一步是从宝贝页面的url中获取到评论的地址位置，然后进行request，并循环执行直到最后一页，最后进行内容解析并将数据用pandas df进行存储。

import requests
import json
import pandas as pd
def getCommodityComments(url):if url[url.find('id=')+14] != '&':id = url[url.find('id=')+3:url.find('id=')+15]else:id = url[url.find('id=')+3:url.find('id=')+14]url = 'https://rate.taobao.com/feedRateList.htm?auctionNumId='+id+'¤tPageNum=1'res = requests.get(url)jc = json.loads(res.text.strip().strip('()'))max = jc['total']users = []comments = []count = 0page = 1while count<max:res = requests.get(url[:-1]+str(page))page = page + 1jc = json.loads(res.text.strip().strip('()'))jc = jc['comments']for j in jc:users.append(j['user']['nick'])comments.append( j['content'])#print(count+1,'>>',users[count],'\n        ',comments[count])count = count + 1comment_dic = {'count': count+1,'user':users, 'comments':comments}        return pd.DataFrame(comment_dic)getCommodityComments('https://item.taobao.com/item.htm?spm=a21bo.7929913.198967.23.5b274174WTT4T8&id=553063221972')

运行结果，其实淘宝已经为我们做了筛选，系统默认的评价全都沉底到了底部。。。

python request 淘宝评论数据简易爬虫相关推荐

python爬淘宝app数据_一篇文章教会你用Python爬取淘宝评论数据（写在记事本）
[一.项目简介] 本文主要目标是采集淘宝的评价,找出客户所需要的功能.统计客户评价上面夸哪个功能多,比如防水,容量大,好看等等. [二.项目准备工作] 准备Pycharm,下载安装等,可以参考这篇文章 ...
python实现淘宝定时抢购简易版
python实现淘宝定时抢购简易版前几天自己写了一个淘宝定时秒杀的代码,简易版的,原理很简单,首先获取淘宝服务器的时间,然后再通过模拟点击实现抢购,仅供娱乐. 获取淘宝服务器时间部分: getTim ...
淘宝评论数据抓取简记
刚才趴在床上搞清楚了淘宝评论数据的抓取方法,在此记录,以备后用. 淘宝商品详情页面下方有如下script: <script>window.App = (window.App || {}); ...
如何写一个python程序浏览淘宝_一篇文章教会你用Python爬取淘宝评论数据（写在记事本）...
[一.项目简介] 本文主要目标是采集淘宝的评价,找出客户所需要的功能.统计客户评价上面夸哪个功能多,比如防水,容量大,好看等等. [二.项目准备工作] 1. 准备Pycharm,下载安装等,可以参考这 ...
python爬虫淘宝视频_识别假货有绝招，就用python爬淘宝评论（附视频教程）
之前我水平有限,对于淘宝评论这种动态网页,由于数据在网页源码中是找不到的,所以无法抓取数据,只能使用selenium模仿人操控浏览器来抓数据, 优点是可见容易且不宜被淘宝公司封锁:缺点是速度太慢. 经 ...
基于Python的淘宝行为数据可视化分析
项目背景&总结: 项目背景完成如下商业分析任务,通过数据分析和可视化展示,充分挖掘数据的价值,让数据更好地为业务服务: 流量分析:PV/UV是多少,通过分析PV/UV能发现什么规律? 漏斗分 ...
python评论情感分析计算分数值_使用python对淘宝评论进行情感分析并绘制词云
淘宝商品评论分析系统简介截至2018年12月,我国网络购物用户规模达6.10亿,网购已经慢慢占据了我们生活的方方面面,所以一份透明的网购指南就显得尤为重要. 大部分网购消费群体只能依赖于其他人在商品 ...
Python爬虫之获取淘宝商品数据
爬取淘宝信息数据首先需要先导入webdriver from selenium import webdriver webdriver支持主流的浏览器,比如说:谷歌浏览器.火狐浏览器.IE浏览器等等然 ...
Python爬虫实战(六) 天猫(淘宝)评论爬取与分析实战
目录一.天猫(淘宝)爬取地址对比二.防爬技巧三.数据分析代码更新12.19,均可爬取(若爬取失效,请先检查cookie的有效性) 一.天猫(淘宝)爬取地址对比天猫评论抓包json数据如下,在 ...
python淘宝爬虫基于requests抓取淘宝商品数据_python淘宝爬虫基于requests抓取淘宝商品数据...
在学校蹭过python的课,觉得python异常强大,趁寒假有时间,瞎搞一下,希望能和大伙一起探讨学习.废话不多说了,直接正题. requests 是Python的http库,可以完成绝大部分与htt ...

python request 淘宝评论数据简易爬虫

python request 淘宝评论数据简易爬虫相关推荐

最新文章

热门文章