一个实现批量抓取淘女郎写真图片的爬虫

淘女郎，也被很多人称作“网络模特”，就是专门给淘宝、天猫等线上商家拍摄图片的平面模特。

我们将用Python3和Selenium Webdriver抓取每一个美眉的个人主页内的写真图片，把每一个美眉的写真图片按照文件夹保存到本地。

先说一下网页爬取的一般步骤：

1.查看目标网站页面的源代码，找到需要爬取的内容
2.用正则或其他如xpath/bs4的工具获取爬取内容
3.写出完整的python代码，实现爬取过程

查看网站源码，火狐浏览器右键-查看源代码即可获取：

代码编写的关键步骤：

①需要用到的模块

②解析目标网页的 Html 源码 bsObj = BeautifulSoup(driver.page_source, parser)

③用正则表达式获取美女图片
imagesUrl = re.findall('\/\/gtd\.alicdn\.com\/sns_logo.*\.jpg',driver.page_source)
④解析出个人主页地址等信息
girlsUrl = bsObj.find_all("a",{"href":re.compile("\/\/.*\.htm\?(userId=)\d*")})
⑤获取所有美女的图片url
girlsHURL = [('http:' + i['href']) for i in girlsUrl]
⑥判断路径文件夹是否创建，如果未创建则创建文件夹保存图片

def mkdir(path):# 判断路径是否存在isExists = os.path.exists(path)# 判断结果if not isExists:# 如果不存在则创建目录print("    [*]新建了文件夹", path)# 创建目录操作函数os.makedirs(path)else:# 如果目录存在则不创建，并提示目录已存在print('    [+]文件夹', path, '已创建')if __name__ == '__main__':if not os.path.exists(outputDir):os.makedirs(outputDir)main()

Python执行文件后抓取的效果如下图所示：

原文发布时间为：2016-11-01

本文来自云栖社区合作伙伴“Python中文社区”，了解相关信息可以关注“Python中文社区”微信公众号

一个实现批量抓取淘女郎写真图片的爬虫相关推荐

抓取整个网站图片的爬虫
为什么80%的码农都做不了架构师?>>> 写了一个抓取http://www.youwu.cc/index.html整个网站图片的爬虫,使用redis去重和任务队列,这样可以避免 ...
满足一个小妹妹的需求——给她批量抓取动漫图片
爬虫心得<第二篇> 一.爬虫准备 1.用到的python第三方库 2.网站分析 3.接下来分析url链接二.代码解析三.成果展示四.代码展示一.爬虫准备 1.用到的python第三 ...
python 爬取作品集_Python批量抓取站酷ZCOOL作品图片并归档
前言前几天,由于个人有需求,所以就要对站酷网一些类别下的作品的图片进行批量抓取,首先是采用的是NodeJs来写的,但是在运行的途中遇到很多的问题,所以后来就换成了Python,同时使用了多线程,使得 ...
python爬虫学习基础教程，批量抓取美女图片！
python的抓取功能其实是非常强大的,当然不能浪费,呵呵.下面就与大家分享一个python写的美女图自动抓取程序吧! 其中用到urllib2模块和正则表达式模块.下面直接上代码: 用python批量 ...
python批量读取图片并批量保存_Python爬虫：批量抓取花瓣网高清美图并保存
原标题:Python爬虫:批量抓取花瓣网高清美图并保存昨天看到了不错的图片分享网--花瓣,里面的图片质量还不错,所以利用selenium+xpath我把它的妹子的栏目下爬取了下来,以图片栏目名称给文 ...
笨笨图片批量抓取下载 V0.2 beta[C# | WinForm | 正则表达式 | HttpWebRequest | Async异步编程]...
一. 先贴一张图,这个界面就是程序的主界面了: 二. 部分代码说明(主要讲解异步分析和下载): 异步分析下载采取的策略是同时分析同时下载,即未等待数据全部分析完毕就开始把已经分析出来的 ...
Python利用bs4批量抓取网页图片并下载保存至本地
Python利用bs4批量抓取网页图片并下载保存至本地使用bs4抓取网页图片,bs4解析比较简单,需要预先了解一些html知识,bs4的逻辑简单,编写难度较低.本例以抓取某壁纸网站中的壁纸为例.(b ...
批量抓取图虫作者页作品图片的方法
图虫相册中很多图片都精美绝伦,让人抑制不住想要"据为己有".今天小编给大家分享一款采集工具--下图高手,下面就一采集图虫作者页图片为例,一起来操作. 作品分类效果: 图片展示效果: ...
python爬取新浪微博数据中心_Python爬虫框架Scrapy实战之批量抓取招聘信息
网络爬虫抓取特定网站网页的html数据,但是一个网站有上千上万条数据,我们不可能知道网站网页的url地址,所以,要有个技巧去抓取网站的所有html页面.Scrapy是纯Python实现的爬虫框架,用户 ...

一个实现批量抓取淘女郎写真图片的爬虫

一个实现批量抓取淘女郎写真图片的爬虫相关推荐

最新文章

热门文章