淘女郎,也被很多人称作“网络模特”,就是专门给淘宝、天猫等线上商家拍摄图片的平面模特。

我们将用Python3和Selenium Webdriver抓取每一个美眉的个人主页内的写真图片,把每一个美眉的写真图片按照文件夹保存到本地。

先说一下网页爬取的一般步骤:

1.查看目标网站页面的源代码,找到需要爬取的内容 
2.用正则或其他如xpath/bs4的工具获取爬取内容 
3.写出完整的python代码,实现爬取过程

查看网站源码,火狐浏览器右键-查看源代码即可获取:

代码编写的关键步骤:

①需要用到的模块

②解析目标网页的 Html 源码 bsObj = BeautifulSoup(driver.page_source, parser)

③用正则表达式获取美女图片
imagesUrl = re.findall('\/\/gtd\.alicdn\.com\/sns_logo.*\.jpg',driver.page_source)
④解析出个人主页地址等信息
girlsUrl = bsObj.find_all("a",{"href":re.compile("\/\/.*\.htm\?(userId=)\d*")})
⑤获取所有美女的图片url
girlsHURL = [('http:' + i['href']) for i in girlsUrl]
⑥判断路径文件夹是否创建,如果未创建则创建文件夹保存图片

def mkdir(path):# 判断路径是否存在isExists = os.path.exists(path)# 判断结果if not isExists:# 如果不存在则创建目录print("    [*]新建了文件夹", path)# 创建目录操作函数os.makedirs(path)else:# 如果目录存在则不创建,并提示目录已存在print('    [+]文件夹', path, '已创建')if __name__ == '__main__':if not os.path.exists(outputDir):os.makedirs(outputDir)main()

Python执行文件后抓取的效果如下图所示:

原文发布时间为:2016-11-01
本文来自云栖社区合作伙伴“Python中文社区”,了解相关信息可以关注“Python中文社区”微信公众号

一个实现批量抓取淘女郎写真图片的爬虫相关推荐

  1. 抓取整个网站图片的爬虫

    为什么80%的码农都做不了架构师?>>>    写了一个抓取http://www.youwu.cc/index.html整个网站图片的爬虫,使用redis去重和任务队列,这样可以避免 ...

  2. 满足一个小妹妹的需求——给她批量抓取动漫图片

    爬虫心得<第二篇> 一.爬虫准备 1.用到的python第三方库 2.网站分析 3.接下来分析url链接 二.代码解析 三.成果展示 四.代码展示 一.爬虫准备 1.用到的python第三 ...

  3. python 爬取作品集_Python批量抓取站酷ZCOOL作品图片并归档

    前言 前几天,由于个人有需求,所以就要对站酷网一些类别下的作品的图片进行批量抓取,首先是采用的是NodeJs来写的,但是在运行的途中遇到很多的问题,所以后来就换成了Python,同时使用了多线程,使得 ...

  4. python爬虫学习基础教程,批量抓取美女图片!

    python的抓取功能其实是非常强大的,当然不能浪费,呵呵.下面就与大家分享一个python写的美女图自动抓取程序吧! 其中用到urllib2模块和正则表达式模块.下面直接上代码: 用python批量 ...

  5. python批量读取图片并批量保存_Python爬虫:批量抓取花瓣网高清美图并保存

    原标题:Python爬虫:批量抓取花瓣网高清美图并保存 昨天看到了不错的图片分享网--花瓣,里面的图片质量还不错,所以利用selenium+xpath我把它的妹子的栏目下爬取了下来,以图片栏目名称给文 ...

  6. 笨笨图片批量抓取下载 V0.2 beta[C# | WinForm | 正则表达式 | HttpWebRequest | Async异步编程]...

    一.     先贴一张图,这个界面就是程序的主界面了: 二.     部分代码说明(主要讲解异步分析和下载): 异步分析下载采取的策略是同时分析同时下载,即未等待数据全部分析完毕就开始把已经分析出来的 ...

  7. Python利用bs4批量抓取网页图片并下载保存至本地

    Python利用bs4批量抓取网页图片并下载保存至本地 使用bs4抓取网页图片,bs4解析比较简单,需要预先了解一些html知识,bs4的逻辑简单,编写难度较低.本例以抓取某壁纸网站中的壁纸为例.(b ...

  8. 批量抓取图虫作者页作品图片的方法

    图虫相册中很多图片都精美绝伦,让人抑制不住想要"据为己有".今天小编给大家分享一款采集工具--下图高手,下面就一采集图虫作者页图片为例,一起来操作. 作品分类效果: 图片展示效果: ...

  9. python爬取新浪微博数据中心_Python爬虫框架Scrapy实战之批量抓取招聘信息

    网络爬虫抓取特定网站网页的html数据,但是一个网站有上千上万条数据,我们不可能知道网站网页的url地址,所以,要有个技巧去抓取网站的所有html页面.Scrapy是纯Python实现的爬虫框架,用户 ...

最新文章

  1. 外观模式(Facade)
  2. Golang之空结构体和零长数组的实践
  3. Delphi中的TreeView
  4. java实现多线程断点续传,上传下载 分享
  5. Angular Material 阴影使用
  6. 【转】关于维生素的那些事
  7. C Tricks(三)—— 以一维数组的形式对二维数组赋值
  8. 从决策树学习谈到贝叶斯分类算法、EM、HMM - 结构之法 算法之道
  9. html浏览xsd,XSD 简易元素
  10. 高德地图,百度地图,腾讯地图,谷歌地图,坐标拾取器
  11. VirtualBox安装Win10系统
  12. git(icode)分支及发布管理方式
  13. 【Multisim仿真】检波电路仿真
  14. 图像文本检测的标注工具_如何检测图像中的文本
  15. yolov4-tiny从安装到训练再到python调用接口
  16. android 支持各种格式的阅读器,android txt小说阅读器的实现(完美实现分页阅读,支持常见编码格式)...
  17. linkcloud:KVM虚拟化渐趋成熟 可与XEN和Vmware比肩
  18. 无人驾驶1——自动驾驶硬件、软件概述
  19. 交互式弦图的绘制(R实现)
  20. 制作非主流QQ空间图片在线编辑制作工具大全

热门文章

  1. 【庖丁解牛】成功解决LAMP架构中无法验证index.php的问题
  2. node.js创建网站实例3
  3. 效率办公 | python零基础知识点汇总(下)
  4. 最新BEV感知基线 | 你确定需要激光雷达?(卡内基梅隆大学)
  5. 安装VMware时报错:virtualXT,以及虚拟网卡安装失败
  6. 【Android面试】View的绘制流程
  7. win10一直卡在自动修复_win10自动修复失败???
  8. 从阿里巴巴走出的创业牛人们
  9. 电子血压计并非人人适用
  10. 应广单片机11bitPWM配置