问 题

在爬一个淘宝店铺的信息时发现会通过jsonp去网站取回数据,url如下:

https://tianziyujushangcheng.taobao.com/i/asynSearch.htm?callback=jsonp152&mid=w-12133771151-0&wid=12133771151&pageNo=2

其他无效参数都被我除去了。

有2个必要参数:一个callback=jsonp152;另一个wid=12133771151.但是这2个参数是怎么得来的呢?

因为我是要爬取大量网站,所以手动从浏览器中提取这2个参数几乎不可能。

在chrome开发者工具中搜索,在其他位置并没有出现这几个参数。也看了发出这个xhr请求的index.js文件,并没有看到相关联的东西。有大神做过吗?分享一下...

解决方案

通过仔细分析终于找到了。本来以为淘宝为了限制爬虫,设置了一些算法加密这几个数字,其实没有。

首先,jsonp152中这个152是没有意义的,是一个跟发送请求时间有关的数值,但是对于我们来说并没有影响。你随便输入一个数字,比如callback=jsonp122返回的就是jsonp122("{data:...}"),发送请求时随意发就是了,它是一个随机数。

其次,12133771151是从发送"https://tianziyujushangcheng.taobao.com/search.htm"返回的页面中提取出来的。

大概过程就是,发送https://tianziyujushangcheng....然后浏览器解析返回页面中的一些js文件,再发送https://tianziyujushangcheng....这个请求,取回商品信息。所以直接爬取店铺首页是爬取不到具体的商品信息的,要分析整个网络请求,找到这个xhr请求,才能获取到想要的信息。

扫一扫关注IT屋

微信公众号搜索 “ IT屋 ” ,选择关注与百万开发者在一起

python开发跟淘宝有关联微_python - 爬取某淘宝店铺所有宝贝遇到的问题?相关推荐

  1. python开发跟淘宝有联系没_Python爬取淘宝店铺和评论

    1.安装开发需要的一些库 (1) 安装mysql 的驱动:在Windows上按win+r输入cmd打开命令行,输入命令pip install pymysql,回车即可. (2) 安装自动化测试的驱动s ...

  2. python爬淘宝商品销量信息_python爬取淘宝商品销量信息

    python爬取淘宝商品销量的程序,运行程序,输入想要爬取的商品关键词,在代码中的'###'可以进一步约束商品的属性,比如某某作者的书籍,可以在###处输入作者名字,以及时期等等.最后可以得到所要商品 ...

  3. python爬淘宝商品销量信息_Python爬取淘宝商品价格销量信息

    用到了requests库和re库 import requests import re lis = [] # https://s.taobao.com/search?q=荣耀v20&imgfil ...

  4. Python开发爬虫之BeautifulSoup解析网页篇:爬取安居客网站上北京二手房数据

    目标:爬取安居客网站上前10页北京二手房的数据,包括二手房源的名称.价格.几室几厅.大小.建造年份.联系人.地址.标签等. 网址为:https://beijing.anjuke.com/sale/ B ...

  5. python爬虫小说下载到txt文档_python 爬取网络小说 清洗 并下载至txt文件

    什么是爬虫 网络爬虫,也叫网络蜘蛛(spider),是一种用来自动浏览万维网的网络机器人.其目的一般为编纂网络索引. 网络搜索引擎等站点通过爬虫软件更新自身的网站内容或其对其他网站的索引.网络爬虫可以 ...

  6. python如何读取数据并输出为表格_Python 爬取数据并导出表格

    从网站请求数据 要爬取数据,首先得用到Python的库,这里我直接选择了requests,其他库没有对比,也没有去了解,暂时不做讨论,以后如果有深入了解再补充吧. 安装requests pip ins ...

  7. python开发跟淘宝有关联微_为什么微商和淘宝卖家不得不做公众号和小程序?

    文/王爷 整理/叨叨 最近一个月,微信方面的动作比较多,尤其是有关微信小程序方面的动态,起码更新了4次.或许很多人还不知道什么是微信小程序,简单来说就是一个无需安装.即用即走的生长在微信上的一个应用. ...

  8. python开发跟淘宝有关联微_python分析淘宝用户行为

    今天来分享淘宝用户行为分析的过程,具体可见下图 首先呢,我们需要配置环境,可在https://www.python.org/downloads/​www.python.orghttps://www.j ...

  9. Java爬虫爬取 天猫 淘宝 京东 搜索页和 商品详情

    Java爬虫爬取 天猫 淘宝 京东 搜索页和 商品详情 先识别商品url,区分平台提取商品编号,再根据平台带着商品编号爬取数据. 1.导包 <!-- 爬虫相关Jar包依赖 --><d ...

最新文章

  1. 谈谈你对计算思维和python生态的理解_计算思维的的理解及重要性
  2. logback无法生成日志文件之谜
  3. 用户手撕锤子产品总监引10万人围观,竟还拿到了Offer
  4. 爱奇艺java 架构师_爱奇艺个性化实时推荐系统整体流程图 拿去细品
  5. 【转】Linux命令行下svn ignore忽略文件或文件夹用法
  6. c++ 23种设计模式_使用Go实现GoF的23种设计模式(三)
  7. Dxperience 7.3.4 简体中文本地化
  8. 又拍云 php5月18号那,又拍云每月免费CDN空间和流量
  9. PyTorch学习笔记(六):PyTorch进阶训练技巧
  10. 全开源微信小程序商城系统源码:基于Java+uniapp框架开发
  11. 五、Ceph之RBD存储使用
  12. vim的设置文档【我的】
  13. Python 给图片加文字,加图片水印
  14. 钾肥认沽权证谢幕:揭密2007年股市第一奇案
  15. 微信小程序css篇----背景(Background)与颜色(Color)
  16. 鱼缸里一条贪吃的鱼跳缸了
  17. 日志分析管理系统ELK+redis+filebeat搭建
  18. 认亲app如何创建小家谱
  19. 微信内提示“网页包含诱导分享、关注等诱导行为内容,已停止访问”的解决方案...
  20. 使用Bert模型进行多标签分类

热门文章

  1. Effective C++之条款27、28
  2. uni :class不支持xxx语法
  3. 【DB笔试面试614】在Oracle中,和视图相关的查询转换有哪些?
  4. shell下密码破解原理
  5. 使用 Win32DiskImager 读写 SD 卡时,报错 error 1117
  6. 网站都变成灰色,几行代码搞定!
  7. 联想thinkpad E425搭建服务器
  8. 做80后的生意:妈咪“十月”装
  9. 【表盘识别】基于matlab Hough变换钟表表盘识别【含Matlab源码 1069期】
  10. 微信小程序开放接口(用户登录,用户地址)