python 爬网站 实例_python爬虫实战:之爬取京东商城实例教程!(含源代码)
前言:
本文主要介绍的是利用python爬取京东商城的方法,文中介绍的非常详细,下面话不多说了,来看看详细的介绍吧。
主要工具
- scrapy
- BeautifulSoup
- requests
分析步骤
1、打开京东首页,输入裤子将会看到页面跳转到了这里,这就是我们要分析的起点
2、我们可以看到这个页面并不是完全的,当我们往下拉的时候将会看到图片在不停的加载,这就是ajax,但是当我们下拉到底的时候就会看到整个页面加载了60条裤子的信息,我们打开chrome的调试工具,查找页面元素时可以看到每条裤子的信息都在
这个标签中,如下图:
3、接着我们打开网页源码就会发现其实网页源码只有前30条的数据,后面30条的数据找不到,因此这里就会想到ajax,一种异步加载的方式,于是我们就要开始抓包了,我们打开chrome按F12,点击上面的NetWork,然后点击XHR,这个比较容易好找,下面开始抓包,如下图:
4、从上面可以找到请求的url,发现有很长的一大段,我们试着去掉一些看看可不可以打开,简化之后的:
这里的showitems是裤子的id,page是翻页的,可以看出来我们只需要改动两处就可以打开不同的网页了,这里的page很好找,你会发现一个很好玩的事情,就是主网页的page是奇数,但是异步加载的网页中的page是偶数,因此这里只要填上偶数就可以了,但是填奇数也是可以访问的。这里的show_items就是id了,我们可以在页面的源码中找到,通过查找可以看到id在li标签的data-pid中,详情请看下图:
上面我们知道怎样找参数了,现在就可以撸代码了
代码讲解:
1、首先我们要获取网页的源码,这里我用的requests库,安装方法为pip install requests,代码如下:
2、根据上面的分析可以知道,第二步就是得到异步加载的url中的参数show_items,就是li标签中的data-pid,代码如下:
3、下面就是获取前30张图片的url了,也就是主网页上的图片,其中一个问题是img标签的属性并不是一样的,也就是源码中的img中不都是src属性,一开始已经加载出来的图片就是src属性,但是没有加载出来的图片是data-lazy-img,因此在解析页面的时候要加上讨论。
代码如下:
前三十张图片找到了,现在开始找后三十张图片了,当然是要请求那个异步加载的url,前面已经把需要的参数给找到了,下面就好办了,直接贴代码:
4、通过上面就可以爬取了,但是还是要考虑速度的问题,这里我用了多线程,直接每一页面开启一个线程,速度还是可以的,感觉这个速度还是可以的,几分钟解决问题,总共爬取了100个网页,这里的存储方式是mysql数据库存储的,要用发哦MySQLdb这个库,详情自己百度。想要的源码的朋友可以在后台私信我!
以上就是本文的全部内容啦!
最后多说一句,小编是一名python开发工程师,这里有我自己整理了一套最新的python系统学习教程,包括从基础的python脚本到web开发、爬虫、数据分析、数据可视化、机器学习等。想要这些资料的可以关注小编,并在后台私信小编:“07”即可领取。
python 爬网站 实例_python爬虫实战:之爬取京东商城实例教程!(含源代码)相关推荐
- python iphone 爬虫_Python爬虫实战之抓取京东苹果手机评价!
1. 网站分析 本文实现的爬虫是抓取京东商城指定苹果手机的评论信息.使用 requests 抓取手机评论 API 信息,然后通过 json 模块的相应 API 将返回的 JSON 格式的字符串转换为 ...
- XHR如何爬虫_Python爬虫实战之抓取京东苹果手机评价
1. 网站分析 本文实现的爬虫是抓取京东商城指定苹果手机的评论信息.使用 requests 抓取手机评论 API 信息,然后通过 json 模块的相应 API 将返回的 JSON 格式的字符串转换为 ...
- 如何运用python爬游戏皮肤_Python爬虫实战之 爬取王者荣耀皮肤
王者荣耀是目前非常火的一款游戏,相信大家都对其中的人物很感兴趣,那么今天就带大家来爬取王者荣耀的皮肤,可以选一款喜欢的来当电脑壁纸.第一步,拿到url地址 第二步,获取各个人物皮肤数据 第三步,保存文 ...
- python录音详解_Python爬虫实战案例:取喜马拉雅音频数据详解
前言 喜马拉雅是专业的音频分享平台,汇集了有声小说,有声读物,有声书,FM电台,儿童睡前故事,相声小品,鬼故事等数亿条音频,我最喜欢听民间故事和德云社相声集,你呢? 今天带大家爬取喜马拉雅音频数据,一 ...
- python爬虫爬图片教程_python爬虫实战之爬取京东商城实例教程
前言 本文主要介绍的是利用python爬取京东商城的方法,文中介绍的非常详细,下面话不多说了,来看看详细的介绍吧. 主要工具 scrapy BeautifulSoup requests 分析步骤 1. ...
- python爬虫爬取教程_python爬虫实战之爬取京东商城实例教程
前言 本文主要介绍的是利用python爬取京东商城的方法,文中介绍的非常详细,下面话不多说了,来看看详细的介绍吧. 主要工具 scrapy BeautifulSoup requests 分析步骤 1. ...
- python爬虫完整实例-python爬虫实战之爬取京东商城实例教程
前言 本文主要介绍的是利用python爬取京东商城的方法,文中介绍的非常详细,下面话不多说了,来看看详细的介绍吧. 主要工具 scrapy BeautifulSoup requests 分析步骤 1. ...
- 爬虫python的爬取步骤-python爬虫实战之爬取京东商城实例教程
前言 本文主要介绍的是利用python爬取京东商城的方法,文中介绍的非常详细,下面话不多说了,来看看详细的介绍吧. 主要工具 scrapy BeautifulSoup requests 分析步骤 1. ...
- python爬取汽车之家_python爬虫实战之爬取汽车之家网站上的图片
随着生活水平的提高和快节奏生活的发展.汽车开始慢慢成为人们的必需品,浏览各种汽车网站便成为购买合适.喜欢车辆的前提.例如汽车之家网站中就有最新的报价和图片以及汽车的相关内容,是提供信息最快最全的中国汽 ...
最新文章
- python 使用 redis expire属性设置访问时间间隔
- swift 字符串中查找字符位置
- 下列哪个滤波器是非线性的_正确选择射频滤波器的八大窍门
- nginx 源码学习笔记(十)——基本容器——ngx_hash
- 不允许指针指向不完整的类类型_8.7 C语言动态内存分配与指向它的指针变量
- sqlite 数据量_Sqlite数据库从入门到放弃
- Squid Analyzer 5.1 发布,Squid日志统计
- ReactiveCocoa的学习内容
- 趋势程序大赛第 六七 天
- 孙鑫VC学习笔记:第十五讲 (四) 编写一个基于MFC对话框的聊天程序
- Linux 执行 Shell脚本报错,“syntax error: unexpected end of file” 原因及处理
- Netsparker扫描IIS网站——IIS PUT 任意文件写入
- c语言是非结构化程序语言_1、C语言是一种结构化程序设计语言
- gauscoor软件怎么用_比对软件STAR的简单使用
- 计算机视觉的技术与应用
- CF1556E Equilibrium
- if函数写并列条件 sql_excel if函数同时满足多个条件:明白这2点,就能随心所欲!...
- C#使用BouncyCastle来实现私钥加密,公钥解密的方法
- Photoshop(PS)制作牛年红包
- Java语言Switch语句详解(一)
热门文章
- html调后台接口_接口测试平台代码实现62: 多接口用例2
- Jmeter的Throughput有误差与分布式测试时的坑
- Informix日志报错:Could not do a physical-order read to fetch netxt row
- VS2010相同变量高亮显示设置
- 亲密关系沟通-【表达情绪】如何说出感受却不伤人
- a点到b点最短路线有多少条_8下数学培优:几何体上最短路径问题,总结与提升,不一样的感受...
- kali远程登录window_手把手教你配置VS Code远程开发工具,工作效率提升N倍
- MATLAB 检验矩阵中是否有某些元素 对元素统计
- java操作mysql数据库实例_jdbc操作mysql数据库实例
- android app报错log,Android studio 解决logcat无过滤工具栏的操作