爬取淘宝商品评论信息

近期学期需求,需要获取部分商品的评价信息。在此记录本次学习的过程。

找到URL

由于这是一个动态网页,因此需要找到评论实际的URL
首先进入你需要的商品的页面,按F12进入开发者工具

点击累计评价,在Preview中找到评价信息

在Header中找到相应的URL和Request Header

完整代码

import requests
import json
import csv
import time#这些信息可以在Request Header中找到
header = {'Connection': '你的Connection','referer': '你的refererr',"cookie":'你的Cookie'}for i in range(1,评论页数):url ='上面找到的url'# 需要将currentPage=1修改成currentPage=‘+str(i)# 将响应内容的文本取出html = requests.get(base_url, headers=header).textjson_text = re.search('^[^(]*?\((.*)\)[^)]*$', html).group(1)# print(json_text)text = json.loads(json_text)# print(text)try:for p in range(0, len(text['rateDetail']['rateList'])):with open(r'./rateData.csv','a',encoding = 'gb18030',newline='') as csvfile:writer = csv.writer(csvfile)# 写进文件的数据根据需求自己改变就行output = [text["rateDetail"]["rateList"][p]['rateContent']]writer.writerow(output)except BaseException:continue#防止过于频繁,设置休眠时间time.sleep(10)
print('爬取完成!')

在整个学习爬取的过程中,出现爬取很多次失败的情况。出现爬取失败时,第一,确认自己是否已经登录账号;第二,有可能你的Cookie不行,换其他试试;第三,注意爬取频率。

爬取淘宝商品评论信息相关推荐

  1. scrapy 爬取淘宝商品评论信息

    爬虫最后要达到的效果,是将某分类下,第一页的所有商品的评论保存至mysql中. 具体会保存评论日期.评论id.评论内容.商品链接和商品id. 爬虫部分代码 # -*- coding: utf-8 -* ...

  2. Python爬虫,抓取淘宝商品评论内容

    2019独角兽企业重金招聘Python工程师标准>>> 作为一个资深吃货,网购各种零食是很频繁的,但是能否在浩瀚的商品库中找到合适的东西,就只能参考评论了!今天给大家分享用pytho ...

  3. python抓取淘宝商品评论最新版

    python抓取淘宝商品评论最新思路 import json import re from lxml import etree import pandas as pd import time impo ...

  4. 爬取淘宝商家货物简单销售数据,双十一马上就到了,秒杀准备了吗

    前天接一个爬取淘宝商家(自行车)信息的请求,要求数据按照其销售量排行. 完成该请求后,爬取数据(李宁卫衣)如下: 接下来看如何实现的? 首先打开淘宝网:https://www.taobao.com/, ...

  5. 网络爬虫爬取淘宝页面商品信息

    网络爬虫爬取淘宝页面商品信息 最近在MOOC上看嵩老师的网络爬虫课程,按照老师的写法并不能进行爬取,遇到了一个问题,就是关于如何"绕开"淘宝登录界面,正确的爬取相关信息.通过百度找 ...

  6. python使用requests库爬取淘宝指定商品信息

    python使用requests库爬取淘宝指定商品信息 在搜索栏中输入商品 通过F12开发者工具抓包我们知道了商品信息的API,同时发现了商品数据都以json字符串的形式存储在返回的html内 解析u ...

  7. python多线程爬取淘宝商家图片

    此次爬取淘宝商家图片是为了对相关行业(此处以激光雷达为例)的产品结构以及外观设计进行对比.而淘宝的反爬机制非常强大,能力有限只能有简单点的办法进行爬取.由于淘宝的每一页数据都是存放在js文件里面,所以 ...

  8. 用Python爬取淘宝网商品信息

    用Python爬取淘宝网商品信息 转载请注明出处 网购时经常会用到淘宝网 点我去淘宝但淘宝网上的商品琳琅满目,于是我参照中国大学 MOOC的代码写了一个爬取淘宝网商品信息的程序 代码如下: impor ...

  9. python爬淘宝商品销量信息_python爬取淘宝商品销量信息

    python爬取淘宝商品销量的程序,运行程序,输入想要爬取的商品关键词,在代码中的'###'可以进一步约束商品的属性,比如某某作者的书籍,可以在###处输入作者名字,以及时期等等.最后可以得到所要商品 ...

最新文章

  1. 一起谈.NET技术,微软PDC10:大牛谈ASP.NET和C#技术走向
  2. makefile:2: *** missing separator. Stop. make 之后出现的错误,解决方法
  3. 046_Timeline时间线
  4. primeNG DataTable中Templating ng-template标签报错
  5. Linux Ubuntu系统下Java开发环境搭建
  6. 数据结构 排序 java_Java数据结构之排序---选择排序
  7. android一般会重载7个方法,《Android技术应用》答案(2013年)
  8. JS内置对象练习(慕课网题目)
  9. php pmt,关于光电倍增管(PMT)模块的选型与使用
  10. 湖北省金税盘服务器链接网站,湖北省网上税务局入口:https://wsswj.hb-n-tax.gov.cn...
  11. 这些信用卡取现可以免除手续费!
  12. 安卓圆形头像制作两种方法。
  13. MVC简介——一篇非常简单易懂的介绍
  14. 瑞尔IPO:一桩资本逼宫的上市计划
  15. timeGetTime()函数的用法
  16. gsoc 任务_黑客#GSOC:如何获得现实生活经验并支持开源
  17. Visio之去除直线交叉处的跨线
  18. 开源的GNSS软件接收机工程汇总
  19. Python3.6安装 pip安装 BeautifulSoup安装
  20. 利用Base64对文本进行加密解密操作

热门文章

  1. 6-18 提桶寻宝 (10 分)
  2. 向“下”出发,陪玩江湖风云再起?
  3. 创建茶农茶企双赢平台——茶叶专业合作社
  4. pl_bolts安装
  5. 小游戏夜夜爱消除:C语言版本
  6. 新交规压线要罚款还是扣分
  7. python程序运行按什么键_太惨!学Python方法用错,直接从入门到放弃!
  8. php虚拟主机伪静态,各种虚拟主机伪静态设置方法
  9. 三分钟速学小学拼音复韵母ao、ou、iu心田花开教程
  10. 上次开源了今日热榜的 API 接口,这次直接开源热榜 GO 后端代码吧