前言:

本文主要介绍的是利用python爬取京东商城的方法,文中介绍的非常详细,下面话不多说了,来看看详细的介绍吧。

主要工具

  • scrapy
  • BeautifulSoup
  • requests

分析步骤

1、打开京东首页,输入裤子将会看到页面跳转到了这里,这就是我们要分析的起点

2、我们可以看到这个页面并不是完全的,当我们往下拉的时候将会看到图片在不停的加载,这就是ajax,但是当我们下拉到底的时候就会看到整个页面加载了60条裤子的信息,我们打开chrome的调试工具,查找页面元素时可以看到每条裤子的信息都在

这个标签中,如下图:

3、接着我们打开网页源码就会发现其实网页源码只有前30条的数据,后面30条的数据找不到,因此这里就会想到ajax,一种异步加载的方式,于是我们就要开始抓包了,我们打开chrome按F12,点击上面的NetWork,然后点击XHR,这个比较容易好找,下面开始抓包,如下图:

4、从上面可以找到请求的url,发现有很长的一大段,我们试着去掉一些看看可不可以打开,简化之后的:

这里的showitems是裤子的id,page是翻页的,可以看出来我们只需要改动两处就可以打开不同的网页了,这里的page很好找,你会发现一个很好玩的事情,就是主网页的page是奇数,但是异步加载的网页中的page是偶数,因此这里只要填上偶数就可以了,但是填奇数也是可以访问的。这里的show_items就是id了,我们可以在页面的源码中找到,通过查找可以看到id在li标签的data-pid中,详情请看下图:

上面我们知道怎样找参数了,现在就可以撸代码了

代码讲解:

1、首先我们要获取网页的源码,这里我用的requests库,安装方法为pip install requests,代码如下:

2、根据上面的分析可以知道,第二步就是得到异步加载的url中的参数show_items,就是li标签中的data-pid,代码如下:

3、下面就是获取前30张图片的url了,也就是主网页上的图片,其中一个问题是img标签的属性并不是一样的,也就是源码中的img中不都是src属性,一开始已经加载出来的图片就是src属性,但是没有加载出来的图片是data-lazy-img,因此在解析页面的时候要加上讨论。

代码如下:

前三十张图片找到了,现在开始找后三十张图片了,当然是要请求那个异步加载的url,前面已经把需要的参数给找到了,下面就好办了,直接贴代码:

4、通过上面就可以爬取了,但是还是要考虑速度的问题,这里我用了多线程,直接每一页面开启一个线程,速度还是可以的,感觉这个速度还是可以的,几分钟解决问题,总共爬取了100个网页,这里的存储方式是mysql数据库存储的,要用发哦MySQLdb这个库,详情自己百度。想要的源码的朋友可以在后台私信我!

以上就是本文的全部内容啦!

最后多说一句,小编是一名python开发工程师,这里有我自己整理了一套最新的python系统学习教程,包括从基础的python脚本到web开发、爬虫、数据分析、数据可视化、机器学习等。想要这些资料的可以关注小编,并在后台私信小编:“07”即可领取。

python 爬网站 实例_python爬虫实战:之爬取京东商城实例教程!(含源代码)相关推荐

  1. python iphone 爬虫_Python爬虫实战之抓取京东苹果手机评价!

    1. 网站分析 本文实现的爬虫是抓取京东商城指定苹果手机的评论信息.使用 requests 抓取手机评论 API 信息,然后通过 json 模块的相应 API 将返回的 JSON 格式的字符串转换为 ...

  2. XHR如何爬虫_Python爬虫实战之抓取京东苹果手机评价

    1. 网站分析 本文实现的爬虫是抓取京东商城指定苹果手机的评论信息.使用 requests 抓取手机评论 API 信息,然后通过 json 模块的相应 API 将返回的 JSON 格式的字符串转换为 ...

  3. 如何运用python爬游戏皮肤_Python爬虫实战之 爬取王者荣耀皮肤

    王者荣耀是目前非常火的一款游戏,相信大家都对其中的人物很感兴趣,那么今天就带大家来爬取王者荣耀的皮肤,可以选一款喜欢的来当电脑壁纸.第一步,拿到url地址 第二步,获取各个人物皮肤数据 第三步,保存文 ...

  4. python录音详解_Python爬虫实战案例:取喜马拉雅音频数据详解

    前言 喜马拉雅是专业的音频分享平台,汇集了有声小说,有声读物,有声书,FM电台,儿童睡前故事,相声小品,鬼故事等数亿条音频,我最喜欢听民间故事和德云社相声集,你呢? 今天带大家爬取喜马拉雅音频数据,一 ...

  5. python爬虫爬图片教程_python爬虫实战之爬取京东商城实例教程

    前言 本文主要介绍的是利用python爬取京东商城的方法,文中介绍的非常详细,下面话不多说了,来看看详细的介绍吧. 主要工具 scrapy BeautifulSoup requests 分析步骤 1. ...

  6. python爬虫爬取教程_python爬虫实战之爬取京东商城实例教程

    前言 本文主要介绍的是利用python爬取京东商城的方法,文中介绍的非常详细,下面话不多说了,来看看详细的介绍吧. 主要工具 scrapy BeautifulSoup requests 分析步骤 1. ...

  7. python爬虫完整实例-python爬虫实战之爬取京东商城实例教程

    前言 本文主要介绍的是利用python爬取京东商城的方法,文中介绍的非常详细,下面话不多说了,来看看详细的介绍吧. 主要工具 scrapy BeautifulSoup requests 分析步骤 1. ...

  8. 爬虫python的爬取步骤-python爬虫实战之爬取京东商城实例教程

    前言 本文主要介绍的是利用python爬取京东商城的方法,文中介绍的非常详细,下面话不多说了,来看看详细的介绍吧. 主要工具 scrapy BeautifulSoup requests 分析步骤 1. ...

  9. python爬取汽车之家_python爬虫实战之爬取汽车之家网站上的图片

    随着生活水平的提高和快节奏生活的发展.汽车开始慢慢成为人们的必需品,浏览各种汽车网站便成为购买合适.喜欢车辆的前提.例如汽车之家网站中就有最新的报价和图片以及汽车的相关内容,是提供信息最快最全的中国汽 ...

最新文章

  1. python 使用 redis expire属性设置访问时间间隔
  2. swift 字符串中查找字符位置
  3. 下列哪个滤波器是非线性的_正确选择射频滤波器的八大窍门
  4. nginx 源码学习笔记(十)——基本容器——ngx_hash
  5. 不允许指针指向不完整的类类型_8.7 C语言动态内存分配与指向它的指针变量
  6. sqlite 数据量_Sqlite数据库从入门到放弃
  7. Squid Analyzer 5.1 发布,Squid日志统计
  8. ReactiveCocoa的学习内容
  9. 趋势程序大赛第 六七 天
  10. 孙鑫VC学习笔记:第十五讲 (四) 编写一个基于MFC对话框的聊天程序
  11. Linux 执行 Shell脚本报错,“syntax error: unexpected end of file” 原因及处理
  12. Netsparker扫描IIS网站——IIS PUT 任意文件写入
  13. c语言是非结构化程序语言_1、C语言是一种结构化程序设计语言
  14. gauscoor软件怎么用_比对软件STAR的简单使用
  15. 计算机视觉的技术与应用
  16. CF1556E Equilibrium
  17. if函数写并列条件 sql_excel if函数同时满足多个条件:明白这2点,就能随心所欲!...
  18. C#使用BouncyCastle来实现私钥加密,公钥解密的方法
  19. Photoshop(PS)制作牛年红包
  20. Java语言Switch语句详解(一)

热门文章

  1. html调后台接口_接口测试平台代码实现62: 多接口用例2
  2. Jmeter的Throughput有误差与分布式测试时的坑
  3. Informix日志报错:Could not do a physical-order read to fetch netxt row
  4. VS2010相同变量高亮显示设置
  5. 亲密关系沟通-【表达情绪】如何说出感受却不伤人
  6. a点到b点最短路线有多少条_8下数学培优:几何体上最短路径问题,总结与提升,不一样的感受...
  7. kali远程登录window_手把手教你配置VS Code远程开发工具,工作效率提升N倍
  8. MATLAB 检验矩阵中是否有某些元素 对元素统计
  9. java操作mysql数据库实例_jdbc操作mysql数据库实例
  10. android app报错log,Android studio 解决logcat无过滤工具栏的操作