今天介绍一款自动化爬取图片项目。

GitHub: https://github.com/YoongiKim/AutoCrawler

Google, Naver multiprocess image web crawler (Selenium)

关键字

  • 爬虫网站:Google、Naver (美、韩两大搜索引擎)

  • 运行方式:Multiprocess(多进程)

  • 爬取格式:image (图片)

  • 基于自动化工具:Selenium (不解释)

如何使用

  1. Git克隆AutoCrawler项目到本地

  2. 自行安装 Chrome 浏览器

  3. 安装依赖

> pip -r requirements.txt
  • certifi: 包含了很多可信任知名公司的证书/公钥。

  • chardet:提供自动检测字符编码的功能。

  • idna: 提供"对于RFC5891中定义的IDNA协议(Internationalised Domain Names in Applications)的支持"。

  • requests: 依赖于上面三个基础库,他主要用于根据图片链接下载图片。

  • selenium: 用于启动浏览器,爬取图片链接。

  • webdriver-manager: 用来管理selenium浏览器驱动的项目。

仔细分析别人项目,不管是源码还是依赖库都会有收获。webdriver-manager 就是我发现的一个宝藏项目,它简化的浏览器驱动的管理。

  1. 打开keywords.txt文件,编写爬取的关键字。

cat
dog
  1. 运行main.py 文件

> python main.py

参数说明:

--skip true:如果下载的关键字已经存在,是否跳过关键字,重新下载时需要设置。

--threads 4:下载使用线程数量

--google true:从google.com 下载。

--naver true: 从naver.com 下载。

--full false: 下载全分辨率图像而不是缩略图 (慢)。

--face false: Face search mode。

--no_gui auto: 使用 GUI 模式. (headless模式) 全分辨率模式可以加速, 但是缩略图模式不稳定。默认auto模式,如果full=false 默认使用使用GUI,如果full=true默认Headless模式。(可用于docker linux系统)。

--limit 0: 设置最大图片下载范围。(0: 无限制)

--proxy-list: 逗号分隔的代理列表,如: socks://127.0.0.1:1080, http://127.0.0.1:1081,每个线程从列表中随即选择一个。

例如:

> python main.py --threads 2 --google true  --naver false --full false --limit 50

  1. 爬取的图片保存于 downloads/ 目录。

小结

  1. 因为使用的是Google网站,没有梯子的同学有点郁闷。项目本身并不复杂,两个python文件加一起不到1000行代码,我们完全可以花点时间替换为国内可访问的搜索引擎。

  2. 下载图片只是为了欣赏猫猫狗狗吗?当然不是,我们可用下载的图片训练 AI,当然你也可以测试文件上传的时候用。

下面是配套资料,对于做【软件测试】的朋友来说应该是最全面最完整的备战仓库,这个仓库也陪伴我走过了最艰难的路程,希望也能帮助到你!

最后: 可以在公众号:程序员小濠 ! 免费领取一份216页软件测试工程师面试宝典文档资料。以及相对应的视频学习教程免费分享!,其中包括了有基础知识、Linux必备、Shell、互联网程序原理、Mysql数据库、抓包工具专题、接口测试工具、测试进阶-Python编程、Web自动化测试、APP自动化测试、接口自动化测试、测试高级持续集成、测试架构开发测试框架、性能测试、安全测试等。

如果我的博客对你有帮助、如果你喜欢我的博客内容,请 “点赞” “评论” “收藏” 一键三连哦!喜欢软件测试的小伙伴们,可以加入我们的测试技术交流扣扣群:310357728里面有各种软件测试资源和技术讨论)

AotucCrawler 快速爬取美女图片相关推荐

  1. Scrapy爬取美女图片续集 (原创)

    上一篇咱们讲解了Scrapy的工作机制和如何使用Scrapy爬取美女图片,而今天接着讲解Scrapy爬取美女图片,不过采取了不同的方式和代码实现,对Scrapy的功能进行更深入的运用. 在学习Scra ...

  2. python爬取美女图片的练习

    python 爬取美女图片的练习 主要使用 xpath 定位获取 图片的链接 本次练习使用到os库 ,lmxl库 , requests库 import requests from lxml impor ...

  3. node.js爬取美女图片(一)

    node.js爬取美女图片 一.准备工作 首先找一个美女图片网站,这里我选用的是唯美女生,看起来像一个个人维护的网站. 分析页面结构: 1.主页主体部分就是图集列表: 2.URL的形式为 BaseUr ...

  4. 使用python3爬取美女图片

    给大佬们观赏观赏,爬取美女图片,各位大佬们小心身子哈. #目标:爬取网页所有图片并保存到本地 #目标url = http://www.umei.cc/tags/meishaonv_1.htm impo ...

  5. Scrapy爬取美女图片续集

    上一篇咱们讲解了Scrapy的工作机制和如何使用Scrapy爬取美女图片,而今天接着讲解Scrapy爬取美女图片,不过采取了不同的方式和代码实现,对Scrapy的功能进行更深入的运用. 在学习Scra ...

  6. 爬取美女图片保存本地与入MySQL库(宅男福利)

    本文详细记录如何爬取美女图片,并将图片下载保存在本地,同时将图片url进行入库.保存在本地肯定是为了没事能拿出来养养眼啊,那入库就是为了定位图片啊,要懂点技术的话,还能搬运搬运做个小图片网站,不为别的 ...

  7. Python网络爬虫(四):selenium+chrome爬取美女图片

    说明: Python版本:Python IDE:PyCharm chrome版本:我的版本63 chromedriver.exe:因为是模拟浏览器访问,chrome需要再下载一个驱动,具体方式在我的上 ...

  8. python爬虫爬取美女图片(selenium)

    之前爬一个美女图片网站,因为是动态加载网站,爬下来的图片全是转呀转的GIF图,气死我了,学了selenium之后,龙王归来,势在必得 先看需要的库 from selenium import webdr ...

  9. python爬虫实践之爬取美女图片

    目录 概述 准备 所需模块 涉及知识点 运行效果 完成爬虫 1. 分析网页 2. 爬虫代码 概述 爬取妹子图网的美女图片. 准备 所需模块 time requests lxml 涉及知识点 pytho ...

  10. scrapy-redis分布式爬虫爬取美女图片

    背景: 爬取目标:(你懂得) url: h t t p s : / / w w w . j p x g y w . c o m 为什么要用scrapy-redis: 为什么用scrapy-redis, ...

最新文章

  1. 2021-2027年中国智能家居设备行业市场前瞻与投资策略规划报告
  2. 【HDU】1284 钱币兑换问题 (想一想)
  3. 清明出游,你会“鸽”酒店吗?AI 早已看穿一切
  4. CSS基础工作原理(一)——css规则与选择符器
  5. UIButton 按钮控件-IOS开发 (实例)
  6. 【海洋女神原创】一个完整的Installshield安装程序实例—艾泽拉斯之海洋女神出品(二) --基本设置二...
  7. script 标签到底该放在哪里
  8. 曦智科技发布最新光子计算处理器PACE
  9. 【ESP8266】安信可8266模组官方文档速查++
  10. Android:沉浸式状态栏(二)集成
  11. 提高 Web Service 数据传输效率的基本方法
  12. mc2180 刷机方法_MC控制和时差方法
  13. 管程由哪三部分组成_换热器是几壳程?几管程的?
  14. python 爬虫遇到br网页压缩
  15. 动态为Spring Boot项目中所有自定义的Controller添加过滤器的两种方法
  16. 17*开头的是什么号码?为什么17开头手机号最好不要用
  17. 健康知识竞答线上活动方案——微信答题小程序实现
  18. ROS学习笔记publisher的编程实现c++详解
  19. 游戏服务器维修怎么回事,游戏服务器维护都是在做些什么?
  20. 【人工智能项目】Fashion Mnist识别实验

热门文章

  1. 数据元素之间的逻辑关系的整体称为数据的逻辑结构
  2. 使用Python绘制词云图(自定义形状)
  3. 家里内网穿透远程控制学校电脑
  4. 为酒店设计一套计算机网络管理系统,酒店管理系统设计与方案.doc
  5. c++调用opencv库实现视频关键帧提取--灰度帧差法
  6. 怎么卸载apowerrec_怎么禁用或卸载自带应用
  7. 手机modem开发之VoLTE信令
  8. 深度解密微信疯读狂加粉的伎俩
  9. Ubuntu/Windows 双系统安装教程
  10. SDRAM控制器设计(9)用读写FIFO优化及仿真验证