一个实现批量抓取淘女郎写真图片的爬虫
淘女郎,也被很多人称作“网络模特”,就是专门给淘宝、天猫等线上商家拍摄图片的平面模特。
我们将用Python3和Selenium Webdriver抓取每一个美眉的个人主页内的写真图片,把每一个美眉的写真图片按照文件夹保存到本地。
先说一下网页爬取的一般步骤:
1.查看目标网站页面的源代码,找到需要爬取的内容
2.用正则或其他如xpath/bs4的工具获取爬取内容
3.写出完整的python代码,实现爬取过程
查看网站源码,火狐浏览器右键-查看源代码即可获取:
代码编写的关键步骤:
①需要用到的模块
②解析目标网页的 Html 源码 bsObj = BeautifulSoup(driver.page_source, parser)
③用正则表达式获取美女图片
imagesUrl = re.findall('\/\/gtd\.alicdn\.com\/sns_logo.*\.jpg',driver.page_source)
④解析出个人主页地址等信息
girlsUrl = bsObj.find_all("a",{"href":re.compile("\/\/.*\.htm\?(userId=)\d*")})
⑤获取所有美女的图片url
girlsHURL = [('http:' + i['href']) for i in girlsUrl]
⑥判断路径文件夹是否创建,如果未创建则创建文件夹保存图片
def mkdir(path):# 判断路径是否存在isExists = os.path.exists(path)# 判断结果if not isExists:# 如果不存在则创建目录print(" [*]新建了文件夹", path)# 创建目录操作函数os.makedirs(path)else:# 如果目录存在则不创建,并提示目录已存在print(' [+]文件夹', path, '已创建')if __name__ == '__main__':if not os.path.exists(outputDir):os.makedirs(outputDir)main()
Python执行文件后抓取的效果如下图所示:
一个实现批量抓取淘女郎写真图片的爬虫相关推荐
- 抓取整个网站图片的爬虫
为什么80%的码农都做不了架构师?>>> 写了一个抓取http://www.youwu.cc/index.html整个网站图片的爬虫,使用redis去重和任务队列,这样可以避免 ...
- 满足一个小妹妹的需求——给她批量抓取动漫图片
爬虫心得<第二篇> 一.爬虫准备 1.用到的python第三方库 2.网站分析 3.接下来分析url链接 二.代码解析 三.成果展示 四.代码展示 一.爬虫准备 1.用到的python第三 ...
- python 爬取作品集_Python批量抓取站酷ZCOOL作品图片并归档
前言 前几天,由于个人有需求,所以就要对站酷网一些类别下的作品的图片进行批量抓取,首先是采用的是NodeJs来写的,但是在运行的途中遇到很多的问题,所以后来就换成了Python,同时使用了多线程,使得 ...
- python爬虫学习基础教程,批量抓取美女图片!
python的抓取功能其实是非常强大的,当然不能浪费,呵呵.下面就与大家分享一个python写的美女图自动抓取程序吧! 其中用到urllib2模块和正则表达式模块.下面直接上代码: 用python批量 ...
- python批量读取图片并批量保存_Python爬虫:批量抓取花瓣网高清美图并保存
原标题:Python爬虫:批量抓取花瓣网高清美图并保存 昨天看到了不错的图片分享网--花瓣,里面的图片质量还不错,所以利用selenium+xpath我把它的妹子的栏目下爬取了下来,以图片栏目名称给文 ...
- 笨笨图片批量抓取下载 V0.2 beta[C# | WinForm | 正则表达式 | HttpWebRequest | Async异步编程]...
一. 先贴一张图,这个界面就是程序的主界面了: 二. 部分代码说明(主要讲解异步分析和下载): 异步分析下载采取的策略是同时分析同时下载,即未等待数据全部分析完毕就开始把已经分析出来的 ...
- Python利用bs4批量抓取网页图片并下载保存至本地
Python利用bs4批量抓取网页图片并下载保存至本地 使用bs4抓取网页图片,bs4解析比较简单,需要预先了解一些html知识,bs4的逻辑简单,编写难度较低.本例以抓取某壁纸网站中的壁纸为例.(b ...
- 批量抓取图虫作者页作品图片的方法
图虫相册中很多图片都精美绝伦,让人抑制不住想要"据为己有".今天小编给大家分享一款采集工具--下图高手,下面就一采集图虫作者页图片为例,一起来操作. 作品分类效果: 图片展示效果: ...
- python爬取新浪微博数据中心_Python爬虫框架Scrapy实战之批量抓取招聘信息
网络爬虫抓取特定网站网页的html数据,但是一个网站有上千上万条数据,我们不可能知道网站网页的url地址,所以,要有个技巧去抓取网站的所有html页面.Scrapy是纯Python实现的爬虫框架,用户 ...
最新文章
- 外观模式(Facade)
- Golang之空结构体和零长数组的实践
- Delphi中的TreeView
- java实现多线程断点续传,上传下载 分享
- Angular Material 阴影使用
- 【转】关于维生素的那些事
- C Tricks(三)—— 以一维数组的形式对二维数组赋值
- 从决策树学习谈到贝叶斯分类算法、EM、HMM - 结构之法 算法之道
- html浏览xsd,XSD 简易元素
- 高德地图,百度地图,腾讯地图,谷歌地图,坐标拾取器
- VirtualBox安装Win10系统
- git(icode)分支及发布管理方式
- 【Multisim仿真】检波电路仿真
- 图像文本检测的标注工具_如何检测图像中的文本
- yolov4-tiny从安装到训练再到python调用接口
- android 支持各种格式的阅读器,android txt小说阅读器的实现(完美实现分页阅读,支持常见编码格式)...
- linkcloud:KVM虚拟化渐趋成熟 可与XEN和Vmware比肩
- 无人驾驶1——自动驾驶硬件、软件概述
- 交互式弦图的绘制(R实现)
- 制作非主流QQ空间图片在线编辑制作工具大全