参考:http://www.10tiao.com/html/284/201608/2652390011/1.html

由于链接里的requests跑着跑着就不能连远程主机了,所以我这里修改了一下,网页地址:https://detail.tmall.com/item.htm?spm=a230r.1.14.6.ebc5950lJXMdL&id=546515778506&cm_id=140105335569ed55e27b&abbucket=3&skuId=3467681798994,打开F12找到network下面开头是list_detail_rate.htm?itemId字样的,用新标签页打开会发现就是评论,如果不懂可以返回去看原链接的图文。这里我采用的是selenium抓的,然后发现只能抓到99页,100页及以上的页面源码都是重复的,有没有会的高手解释下?

from selenium import webdriver
import re
import json
import time
options = webdriver.ChromeOptions()
options.add_argument('disable-infobars')
driver = webdriver.Chrome(chrome_options=options)
comments=[]  for num in range(1,100):  print (num)  url="https://rate.tmall.com/list_detail_rate.htm?itemId=546515778506&spuId=811996209&sellerId=2996832334&order=3&currentPage="+str(num)+"&append=0&content=1&tagId=&posi=&picture=&ua&isg=AlBQD2WkPRrw9uEfSCoGx8wDIZ5isWQcWE_u1EohMat_hfAv8ikE86b1K3ue&needFold=0&_ksTS=1506407969283_562&callback=jsonp563"  success=False  id=1  while id<=5 and not success:  time.sleep(1)  driver.get(url)  source=driver.page_source  find=source.find("rgv587_flag")  if find==-1:  success=True  else:  id+=1  rex=re.compile(r'\w+[(]{1}(.*)[)]{1}')  content=rex.findall(source)[0]  con=json.loads(content,"gbk")  count=len(con['rateDetail']['rateList'])  for i in range(count):  comments.append(con['rateDetail']['rateList'][i]['rateContent'])  

最后抓取的内容保存在comments里面,另外网址后面的几个输入是动态更新的,所以过几分钟刷新一下网页会发现可能评论的顺序变了,结果如下:

淘宝评论爬虫python相关推荐

  1. python爬虫淘宝视频_识别假货有绝招,就用python爬淘宝评论(附视频教程)

    之前我水平有限,对于淘宝评论这种动态网页,由于数据在网页源码中是找不到的,所以无法抓取数据,只能使用selenium模仿人操控浏览器来抓数据, 优点是可见容易且不宜被淘宝公司封锁:缺点是速度太慢. 经 ...

  2. Python爬虫实战(六) 天猫(淘宝)评论爬取与分析实战

    目录 一.天猫(淘宝)爬取地址对比 二.防爬技巧 三.数据分析 代码更新12.19,均可爬取(若爬取失效,请先检查cookie的有效性) 一.天猫(淘宝)爬取地址对比 天猫评论抓包json数据如下,在 ...

  3. python爬虫抓收费图片_简单的抓取淘宝图片的Python爬虫

    写了一个抓taobao图片的爬虫,全是用if,for,while写的,比较简陋,入门作品. 从网页http://mm.taobao.com/json/request_top_list.htm?type ...

  4. python爬淘宝app数据_一篇文章教会你用Python爬取淘宝评论数据(写在记事本)

    [一.项目简介] 本文主要目标是采集淘宝的评价,找出客户所需要的功能.统计客户评价上面夸哪个功能多,比如防水,容量大,好看等等. [二.项目准备工作] 准备Pycharm,下载安装等,可以参考这篇文章 ...

  5. 如何写一个python程序浏览淘宝_一篇文章教会你用Python爬取淘宝评论数据(写在记事本)...

    [一.项目简介] 本文主要目标是采集淘宝的评价,找出客户所需要的功能.统计客户评价上面夸哪个功能多,比如防水,容量大,好看等等. [二.项目准备工作] 1. 准备Pycharm,下载安装等,可以参考这 ...

  6. Python入门--爬取淘宝评论并生成词云

    Python爬取淘宝评论并生成词云 最新修改于2021/04/01 所需相关Python第三方库(目前最新版本即可) 推荐使用Anaconda,其使用十分方便.快捷. requests库 json库 ...

  7. 中国大学排名定向爬虫以及淘宝商品爬虫参考嵩天老师Python爬虫课程遇到的问题及解决

    首先附上课程中程序,无法正常运行 把2016年的url更改为今年的url:http://www.shanghairanking.cn/rankings/bcur/2020 代码如下: import r ...

  8. 淘宝商品评价api接口(app、h5端),淘宝评论视频API接口,淘宝评论API接口

    淘宝商品评价api接口(app.h5端),淘宝评论视频API接口,淘宝评论API接口可以通过商品id,获取商品评价信息.评价内容.买家秀图片.评论浏览量.评价视频.评价追评等页面上展示的数据均可以拿到 ...

  9. 淘宝商品评价api接口,淘宝评论视频API接口,淘宝评论API接口(app、h5端)

    淘宝商品评价api接口,淘宝评论视频API接口,淘宝评论API接口(app.h5端)可通过商品id,获取商品评价信息.评价内容.买家秀图片.评论浏览量.评价视频.评价追评等页面上展示的数据均可以拿到, ...

  10. 淘宝垂直爬虫之关键字搜索(实战+源码+可视化)

    文章目录 1. 前言 2. 故事的背景 3. 爬虫的分类? 4. 淘宝对爬虫都有哪些限制? 5. 抓包 6. 编码 7. 运行代码 8. 数据可视化 9. 扩展 1. 前言 上一篇博客 "爬 ...

最新文章

  1. 每天一点C++(之四)
  2. IL语言之.ctor
  3. Java 进程占用 VIRT 虚拟内存超高的问题研究
  4. 深度学习入门之PyTorch学习笔记:深度学习框架
  5. iview 表单提交之前验证是否符合条件
  6. WordPress里的PHP AJAX call
  7. poj1284:欧拉函数+原根
  8. iOS之instancetype
  9. 训练日志 2019.1.10
  10. Memcached命令-存储命令-查找命令-清理命令
  11. bash历史命令数_如何使用Bash历史记录命令
  12. android listview 不重绘,重绘listview
  13. AcWing 4242. 货币兑换(SPFA or Bellman 判正权环)
  14. 霍夫斯特拉大学计算机科学专业排名,Hofstra University霍夫斯特拉大学介绍及排名信息...
  15. 阿里云 POSTFIX 邮件服务 PHP
  16. js-合并两个有序数组
  17. win10删除开机密码_win10老是自动更新怎么办?如何完全禁止win10自动更新?
  18. 解析explain执行计划
  19. 关于在袁教授blog中的”呛袁教授“的争论
  20. matplotlib 不显示图像或者图像只能在弹出层显示

热门文章

  1. win7文件共享服务器搭建,Win7下搭建web服务器实现数据共享的简单步骤
  2. matplotlib工具栏源码探析一(禁用工具栏、默认工具栏和工具栏管理器三种模式的差异)
  3. 6年java工作经验总结
  4. 海康威视2022内推 内推码
  5. Windows11设置任务栏为小图标
  6. android高仿ios控制中心,控制中心IOS 13-安卓仿苹果ios控制中心插件
  7. Prometheus Operator开始
  8. 隐藏CNZZ统计图标的
  9. 国外计算机核心期刊易读,国内英语写作研究现状的文献综述——对十大外语类核心期刊近五年(2012-2016)的统计分析...
  10. 快速入门nebula graph