这两天写了一个关于淘宝评论的爬虫,期间遇到了一些问题想和大家分享一下,顺便巩固。

首先,随意搜索一个商品,进入页面,找到评论信息。应该先打开F12,在上面发现(https://rate.tmall.com/list_detail_rate.htm?itemId=566951682692&spuId=950250112&sellerId=3848240093&order=3&currentPage=2&append=0&content=1&tagId=&posi=&picture=&groupId=&ua=098%23E1hvB9vPvBvvUvCkvvvvvjiPRFFZzjlPRFqv0j3mPmPZ1jYPP2LOlj3nPLSW1j3vRphvCvvvvvmrvpvEvvQ6kBGNvj3RdphvmpvWjgVduQvhaQyCvhQvfk9vCsN%2BFOcn%2B3Csowex6aZtn0vHfwLpaXTAVAdpa4AU%2B2XkLuc6gRvweeQ4S47B9CkaU6bnDO2pjLyDZacEKOmAdcpiYWL6YETAkphvC9QvvOCsBuyCvv9vvUv0mvKwAdyCvm9vvvvvphvvvvvvvQCvpvCqvvv2vhCv2UhvvvWvphvWgvvvvQavpvQXvphvC9v9vvCvpvGCvvpvvPMMRphvCvvvvvm5vpvhvvmv9IwCvvpvCvvvdphvmpvWep5WsvCIzT6Cvvyv2hJEBZZv9WRCvpvZz2szf8NNznswUvafYgLwkaAv7Ih%3D&needFold=0&_ksTS=1564576271028_792&callback=jsonp793)

这样的网址,不得不说,这网址很ok,

反爬做的也很细节,但是大爬虫是无所不能的。首先还是先去分析了一下它的网页结构,发现了几个变量,itemd、spuid、currentpage.,处理最后一个是评论的页数可以直观的发现外,前面两个,应该会在此评论的网页上有,那么就先把他们放一放,后面的是处理后面的变量,后面的变量先使用,请求头去处理。比如。这样:

headers={'Accept-Language':'zh-cn,zh;q=0.8,en-us;q=0.5,en;q=0.3','Host':'rate.tmall.com','Cookie':'isg=BDw8RVflTfCiNnhmBZ3jwLF6DtruNeBfzLrRQBa8BCcB4d1rPkRK74YXwcs8shi3; l=cBrWhFtlvdsWU9lMBOfChurza77O2IO4zkPzaNbMiICPOLfX7LPCWZ3htr8WCn1Ap6iBR3Jck4zJBeYBqZYRCSBNa6Fy_; cna=23hWFQfTdCsCATrz+sOzh+ZX; lid=tb20629484; enc=9AAJmgXokpH77%2BIbbSZKZOuLTM%2FQmcrbcZBPbAI37TmibwO22hwnBSArbfWZPPecKlv2jonWWtenkO5ndh9AnA%3D%3D; otherx=e%3D1%26p%3D*%26s%3D0%26c%3D0%26f%3D0%26g%3D0%26t%3D0; hng=CN%7Czh-CN%7CCNY%7C156; t=2bb88e196c8b03b8c67b85462f0a2f19; uc3=vt3=F8dBy3%2F51QbVYkH%2FzbE%3D&id2=UNcPuP6peMJwqg%3D%3D&nk2=F5RHoWcR1mLQ4g%3D%3D&lg2=V32FPkk%2Fw0dUvg%3D%3D; tracknick=tb20629484; lgc=tb20629484; _tb_token_=767b51464eee4; cookie2=1dcf8c6acc4158f822d1d380f2bad41a; OZ_SI_2061=sTime=1564451313&sIndex=21; OZ_1U_2061=vid=vd3fa1f20decc3.0&ctime=1564455166&ltime=1564455161; OZ_1Y_2061=erefer=https%3A//s.taobao.com/list%3Fq%3D%25E4%25B8%2589%25E5%258F%25AA%25E6%259D%25BE%25E9%25BC%25A0%26cat%3D16%26style%3Dgrid%26seller_type%3Dtaobao%26spm%3Da217f.1257546.1000187.1&eurl=https%3A//detail.tmall.com/item.htm%3Fspm%3Da219r.lm874.14.102.78ba3422b0cofM%26id%3D594832940012%26ns%3D1%26abbucket%3D18&etime=1564455153&ctime=1564455166&ltime=1564455161&compid=2061; x5sec=7b22726174656d616e616765723b32223a226132306236616161343264653337366266636436613665663031656265646238434f76692f756b46454e6d4f7a49724e774f62486841453d227d','Referer':'https://detail.tmall.com/item.htm?spm=a219r.lm874.14.102.78ba3422b0cofM&id=594832940012&ns=1&abbucket=18','User-Agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36',}

也就可以破解后面一大串的内容了,但是,刚开始以为就可以这样获得评论的json数据了,但是始终都是不行,登不上去,后来发现,

​
_ksTS=1564576271028_792&callback=jsonp793​

这几个数据,好生不老实,一直都在变换中,查了很多资料了,发现原来它返回来的数据是一个时间戳,数据大概应该返回的是:156457627.1028792,这已经很相近的对吧,确实是这样,然后便会发现jsonp后的数据是'_'之后+1.这样便会不停的变换了,怎样处理呢,一个算法问题,也就不细说了。

现在就是万事具备,只欠登陆了,配上

pagram={'currentPage':i+1,'_ksTS':'%s'%(t),'callback':'jsonp%s'%(int(ran_num)+1)}

用前面的url="https://rate.tmall.com/list_detail_rate.htmitemId=566951682692&spuId=950250112&sellerId=3848240093&order=3"

配合在一起就可以进行,登陆喽,雪白雪白的json就等着你去处理了,

但是来,json也是让我操碎了心,怎样处理呢?

response=requests.get(url,headers=headers,params=pagram)
data=response.content.decode()

进坑是因为,我解析了这个网页,加了个text

让我绝望至极,怎么提取不出数据,

找到毛病就快了

用这个

dict_json=json.loads(data1)
data2=dict_json['rateDetail']['rateList']

也就找到评论所在的json了

剩下了用循换取做,找评论,也就可以提取出来了。

这样,整个爬虫的一大部分就做完了。

那么还记得我们还有变量没处理吗,就是怎样进入到具体的商品页。逐层找到网页进行分析。

等到写到搜索爬虫的时候问题又来了。

页面全是js加密,一脸懵逼。

翻阅博客,查到要要用库js2xml这个神器,进行处理了

demo=r.content
soup=BeautifulSoup(demo,'lxml')
src=soup.select('head script')[7].string
src_text = js2xml.parse(src, encoding='utf-8', debug=False)src_tree = js2xml.pretty_print(src_text)
print(src_tree)

这样便可以找到了加密网页的具体信息了。

嘿嘿

完成!

想要源码的可以私信我!

关键字到评论+图片

效果图

http://140.143.223.4/index/Collection/pl?dijiye=1&spid=562395261802http://140.143.223.4/index/Collection/pl?dijiye=1&spid=562395261802

一个关于淘宝评论,从输入指定商品信息,直接得到评论+图片的一次经验相关推荐

  1. 淘宝app详情接口,淘宝详情页接口,商品信息查询,商品详细信息接口,h5详情,宝贝详情页接口,商品属性接口,

    一.接口效果 提取淘宝商品详情页各项数据,包含skuid.价格.收藏数.加购数.月销售量.主图.标题.详情页图片,价格低至几厘,量大甚至免费,详情请加我,或者私聊我 二.建议使用场景 1.商品销售情况 ...

  2. python使用requests库爬取淘宝指定商品信息

    python使用requests库爬取淘宝指定商品信息 在搜索栏中输入商品 通过F12开发者工具抓包我们知道了商品信息的API,同时发现了商品数据都以json字符串的形式存储在返回的html内 解析u ...

  3. 家有妙招:教你一个在淘宝买东西打折的好方法

    教你一个在淘宝买东西打折的好方法 其实我们可以使用淘宝客来实现打折.下面是阿里妈妈对淘宝客的定义:淘宝客推广是一种按成交计费的推广模式,淘宝客只要从淘宝客推广专区获取商品代码,任何买家(包括您自己)经 ...

  4. 一个静态淘宝购物车网页练习

    一个静态淘宝购物车网页练习 话不多说,直接上代码! <!DOCTYPE html> <html><head><meta charset="utf-8 ...

  5. 写一个类似淘宝的ios app需要用到哪些技术?

    写一个类似淘宝的ios app需要用到哪些技术? 让我想起了有人私信我,说不缺钱,做个类似知乎的东西,包括加运营,需要多少钱. 扯淡结束,正好最近看了一点这方面的东西,也许对题主来说有点帮助. 手机淘 ...

  6. 【征集需求】准备开发一个针对淘宝卖家的excel模板,实现在Excel上做帐

    一个针对淘宝卖家的excel模板,实现在Excel上做帐 请大家把做帐过程中关心的功能补充上来 比如 记录款项来源 模板中提供选项 1支付保 2 工行直接汇款 3招行直接汇款 4 赊帐 等等 [提供有 ...

  7. 从淘宝数据结构来看电子商务中商品属性设计

    淘宝名词解释 产品 和 商品的区别: 淘宝标准化产品,由类目+关键属性唯一确定.如:手机类目,关键属性是品牌和型号,Nokia N95就是一个产品,nokia是品牌,N95是型号.产品除了关键属性还包 ...

  8. 淘宝店铺优化中影响商品排名的几个必看因素

    淘宝店铺优化中影响商品排名的几个必看因素 影响商品搜索权重的因素有很多,除了之前讲到的最基本的5大相关性之外,还有很多细节方面的因素,如是否加入橱窗推荐.是否参加了消保.是否添加了淘宝标签等.这些因素 ...

  9. 部分淘宝店超低价卖商品是骗局

    如果你看到"2元包邮的打底裤,9.9元的Nike运动鞋"这样的信息,你能Hold的住吗? 在淘宝上,奇葩的卖家和惊人的营销手段,真让人匪夷所思. 低到震撼的价格收不到货 在双12前 ...

  10. java将淘宝客链接转换为正常商品链接

    参考文章:PHP将淘宝客链接转换提取成普通淘宝链接 最近在做淘宝客网站,有个地方需要把淘宝客链接转换成正常的淘宝链接,找了很多文章都没有java的,只要按照一个php的文章自己改写了一下,文章内容有很 ...

最新文章

  1. 正则表达式grep、egrep--already
  2. linux 类型排序,Linux命令之排序命令sort使用实例
  3. C#实现树型结构TreeView节点拖拽的简单功能,附全部源码,供有需要的参考
  4. Navicat——连接SQL Server数据库方法
  5. 计算机专业单元测试卷答案,银保监会考试题库:计算机类模拟试题练习(六)答案...
  6. 董付国老师Python系列教材推荐与选用参考
  7. Eigen删除矩阵的某行或某列
  8. C# WinForm技巧“将Form嵌入到Panel”
  9. Python爬虫代理池搭建
  10. 【MODBUS通讯协议】
  11. WPS或者office对PPT的压缩 慎用,会把git,视频全都压缩没了。
  12. android 跑马灯出现重复跳动、不滚动问题
  13. 我爷爷来了都能看懂的数据库主键,候选键,外键,非空和check的几种约束方式及使用方法
  14. DataGrip 太好使了
  15. 社区发现的3个评估指标:标准化互信息NMI,ARI指标,以及模块度(modularity)
  16. html4.0.1兼容ie7,CSS 完美兼容IE6/IE7/FF的通用hack方法
  17. 算法 穿越沙漠问题(递推法)
  18. 对比码绘与手绘——Motion graph
  19. 【软考系统架构设计师】复盘架构设计师真题知识点第一章---安全分析与设计
  20. 用最简单的原理做最不简单的事——电磁流量计

热门文章

  1. 蚂蚁课堂视频笔记思维导图-3期 九、分布式缓存架构
  2. php解析torrent文件格式,bittorrent 种子文件结构解析
  3. 算法设计与分析基础知识总结——dayOne
  4. c语言用二维数组学生姓名,C语言实验报告合集-_人人文库网
  5. 京东自动签到领京豆软件_京东618来了,合法又简单的自动领京豆的技能要get一下吗?...
  6. Python使用pytesseract进行验证码图像识别
  7. EasyUI框架分页实现
  8. Spring定时器cron表达式
  9. Unix和Windows比较
  10. 黑苹果OC引导添加AX200无线网卡驱动