淘宝商品的评价数据非常具有研究意义,可以尝试作为神经网络RNN的训练原料。我们使用python中的request库可以直接爬取评论数据,并不需要任何其他框架以及浏览器支持。

1,我们要爬取的淘宝商品页,我们可以看到地址栏中id=*************显示的内容是商品在数据库中的id

2,评论所在位置的真实url,以刚刚的宝贝为例,https://rate.taobao.com/feedRateList.htm?auctionNumId=553063221972&currentPageNum=1。在Url中体现了对应商品的ID以及评论当前所在的页数。

3,使用request库爬取评论对应的真实url。我们代码的第一步是从宝贝页面的url中获取到评论的地址位置,然后进行request,并循环执行直到最后一页,最后进行内容解析并将数据用pandas df进行存储。

import requests
import json
import pandas as pd
def getCommodityComments(url):if url[url.find('id=')+14] != '&':id = url[url.find('id=')+3:url.find('id=')+15]else:id = url[url.find('id=')+3:url.find('id=')+14]url = 'https://rate.taobao.com/feedRateList.htm?auctionNumId='+id+'¤tPageNum=1'res = requests.get(url)jc = json.loads(res.text.strip().strip('()'))max = jc['total']users = []comments = []count = 0page = 1while count<max:res = requests.get(url[:-1]+str(page))page = page + 1jc = json.loads(res.text.strip().strip('()'))jc = jc['comments']for j in jc:users.append(j['user']['nick'])comments.append( j['content'])#print(count+1,'>>',users[count],'\n        ',comments[count])count = count + 1comment_dic = {'count': count+1,'user':users, 'comments':comments}        return pd.DataFrame(comment_dic)getCommodityComments('https://item.taobao.com/item.htm?spm=a21bo.7929913.198967.23.5b274174WTT4T8&id=553063221972')

运行结果,其实淘宝已经为我们做了筛选,系统默认的评价全都沉底到了底部。。。

python request 淘宝评论数据简易爬虫相关推荐

  1. python爬淘宝app数据_一篇文章教会你用Python爬取淘宝评论数据(写在记事本)

    [一.项目简介] 本文主要目标是采集淘宝的评价,找出客户所需要的功能.统计客户评价上面夸哪个功能多,比如防水,容量大,好看等等. [二.项目准备工作] 准备Pycharm,下载安装等,可以参考这篇文章 ...

  2. python实现淘宝定时抢购简易版

    python实现淘宝定时抢购简易版 前几天自己写了一个淘宝定时秒杀的代码,简易版的,原理很简单,首先获取淘宝服务器的时间,然后再通过模拟点击实现抢购,仅供娱乐. 获取淘宝服务器时间部分: getTim ...

  3. 淘宝评论数据抓取简记

    刚才趴在床上搞清楚了淘宝评论数据的抓取方法,在此记录,以备后用. 淘宝商品详情页面下方有如下script: <script>window.App = (window.App || {}); ...

  4. 如何写一个python程序浏览淘宝_一篇文章教会你用Python爬取淘宝评论数据(写在记事本)...

    [一.项目简介] 本文主要目标是采集淘宝的评价,找出客户所需要的功能.统计客户评价上面夸哪个功能多,比如防水,容量大,好看等等. [二.项目准备工作] 1. 准备Pycharm,下载安装等,可以参考这 ...

  5. python爬虫淘宝视频_识别假货有绝招,就用python爬淘宝评论(附视频教程)

    之前我水平有限,对于淘宝评论这种动态网页,由于数据在网页源码中是找不到的,所以无法抓取数据,只能使用selenium模仿人操控浏览器来抓数据, 优点是可见容易且不宜被淘宝公司封锁:缺点是速度太慢. 经 ...

  6. 基于Python的淘宝行为数据可视化分析

    项目背景&总结: 项目背景 完成如下商业分析任务,通过数据分析和可视化展示,充分挖掘数据的价值,让数据更好地为业务服务: 流量分析:PV/UV是多少,通过分析PV/UV能发现什么规律? 漏斗分 ...

  7. python评论情感分析计算分数值_使用python对淘宝评论进行情感分析并绘制词云

    淘宝商品评论分析系统简介 截至2018年12月,我国网络购物用户规模达6.10亿,网购已经慢慢占据了我们生活的方方面面,所以一份透明的网购指南就显得尤为重要. 大部分网购消费群体只能依赖于其他人在商品 ...

  8. Python爬虫之获取淘宝商品数据

    爬取淘宝信息数据 首先需要先导入webdriver from selenium import webdriver webdriver支持主流的浏览器,比如说:谷歌浏览器.火狐浏览器.IE浏览器等等 然 ...

  9. Python爬虫实战(六) 天猫(淘宝)评论爬取与分析实战

    目录 一.天猫(淘宝)爬取地址对比 二.防爬技巧 三.数据分析 代码更新12.19,均可爬取(若爬取失效,请先检查cookie的有效性) 一.天猫(淘宝)爬取地址对比 天猫评论抓包json数据如下,在 ...

  10. python淘宝爬虫基于requests抓取淘宝商品数据_python淘宝爬虫基于requests抓取淘宝商品数据...

    在学校蹭过python的课,觉得python异常强大,趁寒假有时间,瞎搞一下,希望能和大伙一起探讨学习.废话不多说了,直接正题. requests 是Python的http库,可以完成绝大部分与htt ...

最新文章

  1. [转]《JAVA与模式》之责任链模式
  2. mysql中OPTIMIZE TABLE的作用
  3. 基于Spark的机器学习实践 (三) - 实战环境搭建
  4. python 单链表是否有回路_第5章 第1节 链表
  5. oracle9i 全库备份,Windows下Oracle9i数据库文件如何自动备份?
  6. [转] Linux C语言 段错误bug的调试
  7. Stroustrup 谈 C++ 11的新特性
  8. 掌门教育微服务体系 Solar
  9. 数学建模算法与应用(目录)
  10. 图书管理系统软件测试说明,图书管理系统软件测试报告
  11. 限时免费!Python自学资料包免费领,再不收藏就晚了
  12. 板线分离嵌入式RFID读卡模块NFC读写模块HX880系列的应用案例
  13. openwrt问题汇总
  14. 学习笔记——CDQ分治
  15. 河北工业大学计算机学院考研真题,河北工业大学考研真题汇总
  16. 微信小程序入门-音乐播放器
  17. 通俗易懂说网络之基础名词及简要介绍(1)
  18. 201709-2 公共钥匙盒 ccf
  19. python 窗口置顶_PyQt5 窗口置顶
  20. laysns程序用户中心美化模板

热门文章

  1. 大陆期货11月3日钢材日评
  2. java中三个点的用法
  3. Solid Edge如何制作爆炸图
  4. java工作经验总结
  5. 计算机c类论文什么水平,国内B类论文一般是什么级别
  6. 罗永浩2014 一个理想主义者的创业故事Ⅳ 演讲稿实录
  7. 诚风老师-直销立法十年 直销企业迎来新机遇
  8. 一分钟让你了解蓝桥杯(电子类)单片机比赛规则
  9. window平台编译draco库
  10. 知云文献翻译打不开_科研福音,论文翻译神器系列!