使用Scrapy爬虫框架简单爬取图片并保存本地(妹子图)

初学Scrapy,实现爬取网络图片并保存本地功能

一、先看最终效果

保存在F:\pics文件夹下

二、安装scrapy

1、python的安装就不说了,我用的python2.7,执行命令pip install scrapy,或者使用easy_install 命令都可以

2、可能会报如下错误

***********************************************************  Could not find function xmlCheckVersion in library libxml2. Is libxml2 installed?  ***********************************************************
  • 1
  • 2
  • 3
  • 1
  • 2
  • 3


解决方法:安装libxml2
下载对应的Python的版本,安装即可,网址:
https://pypi.python.org/pypi/lxml/3.4.4

三、创建项目

1、执行命令

scrapy startproject xiaohuar
  • 1
  • 1

会自动创建xiaohuar的scrapy项目

2、项目结构(我用的是WingIDE)

文件说明:
• scrapy.cfg 项目的配置信息,主要为Scrapy命令行工具提供一个基础的配置信息。(真正爬虫相关的配置信息在settings.py文件中)
• items.py 设置数据存储模板,用于结构化数据,如:Django的Model
• pipelines 数据处理行为,如:一般结构化的数据持久化
• settings.py 配置文件,如:递归的层数、并发数,延迟下载等
• spiders 爬虫目录,如:创建文件,编写爬虫规则

四、编写爬虫程序

1、在spiders文件夹下创建.py文件

代码中注释已经很详细了,就不解释了,关于解析html内容,使用的是xpath,之前使用Java的webmagic 爬虫框架也是使用的此种方式,所示还是比较熟悉,一些插叙语法参考步骤2

2、xpath查询语法

查询标签中带有某个class属性的标签://div[@class=’c1’]即子子孙孙中标签是div且class=‘c1’的标签
• 查询标签中带有某个class=‘c1’并且自定义属性name=‘alex’的标签://div[@class=’c1’][@name=’alex’]
• 查询某个标签的文本内容://div/span/text() 即查询子子孙孙中div下面的span标签中的文本内容
• 查询某个属性的值(例如查询a标签的href属性)://a/@href

3、运行

进入到xiaohuar目录,执行
scrapy crawl xiaohuar
可能会报以下错误,原因是少win32api的模块

解决方法:
选择对应的版本下载安装即可地址:
http://sourceforge.net/projects/pywin32/files/

4、关于scrapy shell终端

可以使用scrapy shell进行调试,例如执行
scrapy shell http://www.xiaohuar.com/list-1-1.html
就可以查看得到的数据

5、最后的说明

程序执行过程中可以设置爬取的深度,我这里没有设置,可能关掉cmd程序还在执行,可以结束python的进程,或者设置爬取深度

五、总结

最近学习在python,实现非常简单的一个爬虫当做练习,中间一些模块的缺少错误,在网上查询还是费了很多的时间,有的回答是没有解决的,总之自己实践之后才会更加深刻。

posted on 2016-12-17 17:05 Kilichko 阅读(...) 评论(...) 编辑 收藏

转载于:https://www.cnblogs.com/Yemilice/p/6192663.html

使用Scrapy爬虫框架简单爬取图片并保存本地(妹子图)相关推荐

  1. Python使用Scrapy爬虫框架全站爬取图片并保存本地(@妹子图@)

    大家可以在Github上clone全部源码. Github:https://github.com/williamzxl/Scrapy_CrawlMeiziTu Scrapy官方文档:http://sc ...

  2. python scrapy框架 抓取的图片路径打不开图片_Python使用Scrapy爬虫框架全站爬取图片并保存本地的实现代码...

    大家可以在Github上clone全部源码. 基本上按照文档的流程走一遍就基本会用了. Step1: 在开始爬取之前,必须创建一个新的Scrapy项目. 进入打算存储代码的目录中,运行下列命令: sc ...

  3. Python-爬虫(Scrapy爬虫框架,爬取豆瓣读书和评分)

    文章目录 1.Scrapy注意点 2. Scrapy爬取豆瓣读书和评分 代码部分 数据定义items.py 爬虫部分spiders/book.py 数据存储部分pipelines.py 启动爬虫执行c ...

  4. scrapy爬虫系列之三--爬取图片保存到本地

    功能点:如何爬取图片,并保存到本地 爬取网站:斗鱼主播 完整代码:https://files.cnblogs.com/files/bookwed/Douyu.zip 主要代码: douyu.py im ...

  5. Scrapy爬虫框架,爬取小说网的所有小说

    Scrapy入门教程请看 目录 1.思路清理 2.创建爬虫项目 3. 爬虫架构构思 4.爬虫程序具体分析 5.效果展示 6.待优化的地方 1.思路清理 我们的目的是把某个小说网的所有小说给拿下,这就涉 ...

  6. Python爬取图片并保存本地

    好久没用requests写爬虫了,因为是国内的网站,展示没有使用代理IP,而且爬取的数据不多. 1.第一步将要爬取的网页链接爬取下来.这句话有些矛盾. url='http://www.supe.com ...

  7. Python Scrapy爬虫框架爬取51job职位信息并保存至数据库

    Python Scrapy爬虫框架爬取51job职位信息并保存至数据库 -------------------------------- 版权声明:本文为CSDN博主「杠精运动员」的原创文章,遵循CC ...

  8. scrapy爬虫框架教程(二)-- 爬取豆瓣电影

    前言 经过上一篇教程我们已经大致了解了Scrapy的基本情况,并写了一个简单的小demo.这次我会以爬取豆瓣电影TOP250为例进一步为大家讲解一个完整爬虫的流程. 工具和环境 语言:python 2 ...

  9. Python Scrapy 爬虫框架爬取推特信息及数据持久化!整理了我三天!

    最近要做一个国内外新冠疫情的热点信息的收集系统,所以,需要爬取推特上的一些数据,然后做数据分类及情绪分析.作为一名合格的程序员,我们要有「拿来主义精神」,借助别人的轮子来实现自己的项目,而不是从头搭建 ...

最新文章

  1. c语言判断字符串是不是回文_125. 验证回文串
  2. vim+python3的字符串却不能使用中文
  3. 2.3.5 mysql角色管理
  4. java拳皇地下城_拳皇(Java简单的小程序)代码实例
  5. 谷歌已推送 Android Q Beta 1
  6. python multiprocessing 和tcp
  7. STM32的位带操作
  8. poj 1459 Power Network 多源多汇网络流
  9. 魔兽争霸3冰封王座,打不开,提示“此版本之魔兽争霸3需要特定语言版本之windows“
  10. 阿里云跨云迁移工具案例实践:腾讯云迁移到阿里云
  11. 软考软件设计师备考详细介绍
  12. 传销三级的认定标准_主观明知在传销犯罪中有那么重要吗?
  13. Android 小数点前后字体大小不一致,EditText限制小数点前后位数的实例
  14. 天易26----java导出excel表格(支持wps和office excel)
  15. keystore生成证书实例
  16. MIT线性代数笔记二十讲 克莱姆法则、逆矩阵、体积
  17. 2021年完美的借条怎么写
  18. VIVO Xplay_2.13.2 目前最新ViVo官方固件,完美root,降噪点,完美支持官方OTA升级,稳定,流畅,实用ROM
  19. Get To The Point: Summarization with Pointer-Generator Networks
  20. 安徽歙县石潭村 文艺青年最爱

热门文章

  1. Linux输出重定向 >> 文件 2>1
  2. 十二年,再出发!祝国货之光和乐电子QCY生日快乐
  3. 清华史上最酷炫女生节福利来袭!女神,与我同乘无人车可好?
  4. Swoole Task任务使用
  5. 一起了解可以用手机操作显示的BOD水质检测仪
  6. AHB-SRAMC UVM验证平台搭建
  7. HttpClient - fluent-hc 工具类
  8. 《MongoDB入门教程》第04篇 MongoDB客户端
  9. 图像分割——目标分割介绍
  10. 重装完centos6.5后没有网卡驱动的解决方法