今天分享的是使用python语言然后通过cookie来爬取淘宝天猫评论的方法。

1、首先我们打开一个产品页,地址:几素usb小风扇,按下F12,然后下拉到产品评论可以看到如下图

2、点击这个script的文件,然后点preview进去看可以看到

3、可以看到我们需要爬取的内容全在这个script文件中了,接下来我们来分析这个文件,首先是url

4、然后是请求头,因为淘宝的反爬策略需要你将cookie和referer加入请求头中才有数据返回


完整源码如下:

# -*- coding: utf8 -*-
import requests
import simplejson
import json
import time
import random
import pymysqldb = pymysql.connect(host='localhost', user='root', password='root', db='data', charset='utf8mb4')
cursor = db.cursor()
sql_insert = 'INSERT INTO tianmao(productid, tm_date,tm_name,tm_productcolor,tm_content,tm_addcontent) ' \'VALUES (%s, %s, %s, %s, %s, %s)'
base_url = 'https://rate.tmall.com/list_detail_rate.htm?itemId=586696084498&spuId=1149458431&sellerId=2453972737&order=1&append=0&content=1&tagId=&posi=&picture=&groupId='
header = {'Connection': 'keep-alive','Cookie': 'cna=K7c1Fm9QeEgCAbcLRkfyEEkC; lid=tb6215742558; UM_distinctid=16df69efef8368-0d17b004125eac-3a61''4f0b-1fa400-16df69efef9702; t=51922f4c39f93329c58b9cdc16acd994; uc3=lg2=W5iHLLyFOGW7aA%3D%3D&nk2''=F5RDLjy6p5kZXRnW&id2=UUphzpYqX5cXz4y8lQ%3D%3D&vt3=F8dByucleTWQ3pAvn3E%3D; tracknick=tb621574255''8; uc4=id4=0%40U2grFbWxeDPEmc0F057GUPxem7nmQZBW&nk4=0%40FY4I7WLlGHTv%2FDuByUGgKVV1pgUXZqQ%3D; lg''c=tb6215742558; enc=jPw8tSC%2FNjBsBFw9O%2BQ%2B0Shib7cT%2BihJoRr5%2BSGntM3mJ9wh%2FqOXRuMVHwhvVT6''UlTWGxK%2F0vnPx0IjOGpy9Kg%3D%3D; _tb_token_=34d1dd80e336e; cookie2=17bf660b9fa21e72fa378ab0acdf8''0d2; x5sec=7b22726174656d616e616765723b32223a22613736663562373461653765663439303261633764306563''326536653231393543493679774f3046454d507836636a796c656e6f7777453d227d; l=dBNaqkKuqkD7Fkz6BOfCCuI''8LnQ9mIRbzsPzw4OMrICP_HfkS7BVWZQAfOTDCnGVnstXR3RA-8MLBW8ZHyznhZXRFJXn9MpTNdTh.; isg=BISEfiwQhcc''DpTEUim39VA72VQK2Nakz175-sJ4llM8ZySaTxq7JlkwvCSG0UeBf','Referer': 'https://detail.tmall.com/item.htm?spm=a220m.1000858.1000725.81.40c53838SohPgl&id=586696084498&skuId=3988162532751&user_id=2453972737&cat_id=2&is_b=1&rn=d85129182224147e63f360f636fb686d','user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) ''Chrome/75.0.3770.100 Safari/537.36'}productId = '586696084498'
for i in range(1, 100, 1):url = base_url + '&currentPage=%s' % str(i)tb_req = requests.get(url, headers=header).text[11:-1]print(tb_req)tb_dict = simplejson.loads(tb_req)tb_json = json.dumps(tb_dict, indent=2)review_j = json.loads(tb_json)print('正在爬取第%s页'%str(i))for p in range(0, 20, 1):ys = [review_j["rateDetail"]["rateList"][p]['auctionSku'].encode('utf-8').decode('utf-8')]dat = [review_j["rateDetail"]["rateList"][p]['rateDate'].encode('utf-8').decode('utf-8')]pl = [review_j["rateDetail"]["rateList"][p]['rateContent'].encode('utf-8').decode('utf-8')]nam = [review_j["rateDetail"]["rateList"][p]['displayUserNick'].encode('utf-8').decode('utf-8')]zp = [review_j["rateDetail"]["rateList"][p]['appendComment']]if zp == [None]:zp = zpelse:zp = [review_j["rateDetail"]["rateList"][p]['appendComment']['content'].encode('utf-8').decode('utf-8')]cursor.execute(sql_insert, (productId, dat, nam, ys, pl, zp))db.commit()time.sleep(random.uniform(2.5, 3))
print('Done!')
db.close()

如果对你有帮助的话请点个赞哦,有问题请发送邮箱w13145960812@163.com。

python爬取淘宝天猫评论(通过cookie)相关推荐

  1. python爬淘宝app数据_一篇文章教会你用Python爬取淘宝评论数据(写在记事本)

    [一.项目简介] 本文主要目标是采集淘宝的评价,找出客户所需要的功能.统计客户评价上面夸哪个功能多,比如防水,容量大,好看等等. [二.项目准备工作] 准备Pycharm,下载安装等,可以参考这篇文章 ...

  2. python爬取淘宝全部『螺蛳粉』数据,看看你真的了解螺蛳粉吗?

    01.前言 上一篇文章(爬取淘宝热卖商品并可视化分析,看看大家都喜欢买什么!)爬取分析了淘宝的热卖商品,从分析来看『螺蛳粉』的销量巨高.因此这篇文章将爬取淘宝全部『螺蛳粉』商品数据,通过可视化分析淘宝 ...

  3. python电商数据挖掘_利用Python爬取淘宝商品并数据挖掘与分析实战!此乃大型项目!...

    项目内容 本案例选择>> 商品类目:沙发: 数量:共100页 4400个商品: 筛选条件:天猫.销量从高到低.价格500元以上. 项目目的 1. 对商品标题进行文本分析 词云可视化 2. ...

  4. python 爬取淘宝网课

    python爬取淘宝网课,打开web控制台,发现有个链接可以下载到对应的内容,下载的格式是m3u8,用文本打开里面是许多.ts链接,当然百度后得知可以直接下个vlc然后下载,但是还是想用python试 ...

  5. python爬取淘宝商品图片

    python爬取淘宝商品的图片 话不多说,直接上代码: from selenium import webdriver from selenium.webdriver.common import key ...

  6. Python爬取淘宝女模特信息

    前言 Python爬取淘宝美女信息下载本地并同时存储mysql数据库,存储数据库用到了pymysql模块,sql语句简单好用,直接上代码,源码请点链接Python-Spiders文集. 项目结构: 本 ...

  7. 用Python爬取淘宝网商品信息

    用Python爬取淘宝网商品信息 转载请注明出处 网购时经常会用到淘宝网 点我去淘宝但淘宝网上的商品琳琅满目,于是我参照中国大学 MOOC的代码写了一个爬取淘宝网商品信息的程序 代码如下: impor ...

  8. 第一篇博客,python爬取淘宝信息

    python爬取淘宝信息 本人只是刚学python的菜鸟,代码不规范及需改进的地方请指教 我们直接看代码吧!哈哈 import requests from bs4 import BeautifulSo ...

  9. Python爬取淘宝评论!听说差评才是最真实的?

    进入淘宝店铺,使用开发者工具抓包后点击累计评价,可以定位到评论的接口 从抓的包中复制cookie 分析接口后发现只需要四个参数即可在此接口请求到评论内容 #头部需要带上ua和referer,不然请求不 ...

最新文章

  1. 面试官:你说熟悉MySQL,那来谈谈InnoDB怎么解决幻读的?
  2. Elasticsearch教程-从入门到精通
  3. 遵循学术写作的九步骤,让写论文变成一件简单的事
  4. iOS7下隐藏status bar的详细研究
  5. 转://RMAN跨平台可传输表空间和数据库
  6. 从零开始实现 ASP.NET Core MVC 的插件式开发(七) - 问题汇总及部分问题解决方案...
  7. 12002.i2ctools工具
  8. php imagick
  9. python学习-----------argparse
  10. Python练习5-正则表达式
  11. Mac 原生词典扩展词库
  12. 流媒体有哪些播放方式?流媒体视频三种播放方式介绍
  13. 读取工程下的文档 统计重复的姓名 并按次数排序 java_当多个节点有相同名字但是内容不同的时候,生成的类名是相同的,导致导入项目中的时候不好识别。...
  14. 【论文笔记】CondConv: Conditionally Parameterized Convolutions for Efficient Inference
  15. 面经 - 阿里巴巴 - 视频二面
  16. 东南亚——程序员的黑砖窑
  17. [Music]五月天-知足
  18. Fedora 安装VBoxGuestAdditions
  19. [Python]简单的计算题
  20. 又一篇!天昊生物微生物16S扩增子绝对定量测序技术再发好文

热门文章

  1. Java递归求全排列详解
  2. C/C++中宏概念理解
  3. 第一个项目:D触发器,DFRB1C。
  4. 【论文学习】6、Wi-Fi中基于前导码的包检测:一种深度学习方法
  5. Type-C PD充电
  6. 计算机网络设备网关属于固定资产,财政六大类常用固定资产分类及代码
  7. php 模拟百度蜘蛛
  8. 内网端口映射详解(花生壳)
  9. 7-33 删除句子中的单词 (8 分)输入n(n<=10)个由若干个单词组成的英文句子(句子的长度不超过100),每个句子以英文的标点“.”结束,每个句子中单词之间由1个空格进行分隔,如果最后一个单
  10. 网页游戏制作html5,利用HTML5 Canvas制作一个简单的打飞机游戏