前言:

许多网友贡献了不少的爬取妹子图片,豆瓣电影的教程,开始学爬虫的时候也少不了参考各位大佬的代码和填坑的经验!这次打算原创出一个爬取国外比较大的图片网站Pixabay
之所以选择该网站

  • 第一:Pixabay可在任何地方使用的免费正版图片和视频,Pixabay是一个充满活力的创意社区,Pixabay图片可以安全的使用,而无需为创作者署名!(这个非常的棒,不用担心版权等问题)
  • 第二:资源丰富,便于爬取大量数据储备学习。

Pixabay:https://pixabay.com/zh/


                      那么下面开始我们的教程吧!

1.安装 Phantomjs

首先pyspider的安装就不过多赘述了,为了更好的爬取大部分网站含js的页面,我们需要选择phantomjs 这个工具包

  • 使用 PhantomJS 渲染带 JS 的页面
  • 有一些页面,它实在太复杂了,无论是分析 API 请求的地址,还是渲染时进行了加密,让直接抓取请求非常麻烦。这时候就是 PhantomJS 大显身手的时候了

在使用 PhantomJS 之前,你需要安装它(安装文档)。当你安装了之后,在运行 all 模式的 pyspider 时就会自动启用了。当然,你也可以在 demo.pyspider.org 上尝试。

sudo apt-get install phantomjs
phantomjs --version

若显示当前版本号,则 Phantomjs 安装成功。


2.使用 PhantomJS

当 pyspider 连上 PhantomJS 代理后,你就能通过在 self.crawl 中添加 fetch_type='js’的参数,开启使用 PhantomJS 抓取。

根据以上步骤就ok!


3.运行程序

以下是全部的pyspider代码:

from pyspider.libs.base_handler import *class Handler(BaseHandler):crawl_config = {}def __init__(self):self.base_url = 'https://pixabay.com/zh/images/search/?pagi='self.page_num = 1self.total_num = 30@every(minutes=24 * 60)def on_start(self):while self.page_num <= self.total_num:url = self.base_url + str(self.page_num)print (url)self.crawl(url, callback=self.index_page,fetch_type = 'js')self.page_num += 1@config(age=10 * 24 * 60 * 60)def index_page(self, response):for each in response.doc('a[href^="https://pixabay.com/zh/photos/%"]').items():self.crawl(each.attr.href, callback=self.detail_page ,fetch_type = 'js' )@config(priority=2)def detail_page(self, response):return {#"url": response.url,"title": response.doc('h1').text(),"img":response.doc('div > img ').attr('src')}

然后设置running,然后点击run 跑起来:


最后可以通过result查看爬取的数据,图片的标题和url:


pyspider爬取免费正版图片网站Pixabay相关推荐

  1. requests+bs4批量爬取反爬虫图片网站

    导读:爬取反爬虫图片网站 预览效果 遇到的问题: 刚开始爬虫的时候,爬取到的所有图片都是一张重定向推广图片 解决办法:在requests请求头headers中配置Referer属性,指向爬取网站的顶级 ...

  2. python爬取简历模板_python 爬取免费简历模板网站的示例

    代码 # 免费的简历模板进行爬取本地保存 # http://sc.chinaz.com/jianli/free.html # http://sc.chinaz.com/jianli/free_2.ht ...

  3. WordPress免费正版图片插件——Pixabay Free Images

    现在国内大家已经越来越重视版权了,所以我们站长们特别要注意文章中引用的图片版权问题.比如老古就比较喜欢在 Pixabay 这个免费正版图片分享网站中中寻找适合的图片添加到文章中,没想到现在已经有针对这 ...

  4. 【干货】60 余家免费正版图片网站

    原文链接:https://www.jianshu.com/p/7339031f2257 我们常常需要找一些免费正版的图片(无版权图片),写文章.做 PPT.做设计等等,随意使用一些有版权的图片是侵权, ...

  5. python爬取下载动态图片网站

    这次我们来爬取一个图片网站 unsplash.com,为什么要选择这个网站呢?因为这个网站的所有图片都是js动态请求生成的,所以说一般的爬取肯定是不行的啦 ~ 一.工具 这次爬取我们需要借助一款工具代 ...

  6. python个人简历爬取_python 爬取免费简历模板网站的示例

    代码 # 免费的简历模板进行爬取本地保存 # http://sc.chinaz.com/jianli/free.html # http://sc.chinaz.com/jianli/free_2.ht ...

  7. 用爬虫爬取某妹子图片网站图片

    闲聊 这部分在这就省了吧 感兴趣去我自己搭的博客看 : www.jojo-m.cn 代码实现 import requests from lxml import etree import time im ...

  8. python爬取汽车之家_python爬虫实战之爬取汽车之家网站上的图片

    随着生活水平的提高和快节奏生活的发展.汽车开始慢慢成为人们的必需品,浏览各种汽车网站便成为购买合适.喜欢车辆的前提.例如汽车之家网站中就有最新的报价和图片以及汽车的相关内容,是提供信息最快最全的中国汽 ...

  9. [day4]python网络爬虫实战:爬取美女写真图片(Scrapy版)

    l> 我的新书<Android App开发入门与实战>已于2020年8月由人民邮电出版社出版,欢迎购买.点击进入详情 文章目录 1.开发环境 2.第三方库 3.Scrapy简介 4. ...

最新文章

  1. 使用 TListView 控件(3)
  2. 浅谈linux命令大全
  3. 机器学习---knn之价格预测
  4. lighttpd,thttpd,shttpd - 轻量级WebServer介绍
  5. react配合python_部署React前端和Django后端的3种方法
  6. gmail导入foxmail
  7. 利用Shell将MySQL数据表导出为csv文件
  8. ASP.NET 3.5 开发大全DOC版
  9. JAVA解压Zip格式文件的代码
  10. spring用的是哪种工厂模式_业务复杂就用 ifelse?刚来的技术大佬用这招彻底干掉了!...
  11. 单商户商城系统功能拆解19—订单管理
  12. 学习《华为基本法》(4):组织结构管理原则
  13. Windows和ubuntu互传文件
  14. VMware虚拟机安装win10卡顿优化
  15. 电脑版微信,QQ语音通话耳机听不到对方声音
  16. Squoosh - 谷歌出品的免费开源图片压缩工具,图片大小减少90%!支持 API 开发调用
  17. 如何为一个kafka集群选择topics/partitions的数量
  18. Windows11之Vim超详细下载安装与使用教程
  19. ubuntu 软件包管理
  20. Python学习(4)——数学类问题解答

热门文章

  1. Contest2574 - 高级语言程序实践--第6次作业--计信A2107-2113
  2. (windows) 开机时出现“checking file system on C” 问题原因及解决方法
  3. 小白终是踏上了这条不归路----小文的mysql学习笔记目录
  4. 关于RDP协议的分析(一)
  5. java更新未完成 1603_java更新未完成出现1603错误怎么解决
  6. java 16 进制和字符串(中英文)的转换
  7. java自定义函数式接口
  8. 逆水寒服务器维护,逆水寒11月29日更新到几点进游戏 逆水寒更新维护公告
  9. 计算机各按键的作用,【键盘各个键的功能图解】键盘各个键的功能介绍_键盘各个键的用途...
  10. Qt Xlsx使用教程、Qt操作Excel、Qt生成Excel图表、跨平台不依赖Office