使用scrapy来抓取 ChinaPub 这个网站上的图片_并且将其下载到本地
1.首先我们使用 scrapy startproject chinapub 这个命令来创建出一个scrapy项目,创建完毕之后scrapy的目录结构如下图所示:
2.在spider目录下新建一个 chinapub.py的文件,并且编写上下面的代码.
# -*- coding: utf-8 -*- import scrapyfrom scrapy.spider import Spider from scrapy.selector import Selector from chinapub.items import ChinapubItem import urllib from urllib import requestimport sys import osclass ReadbookSpider(scrapy.Spider):name = "readbook" allowed_domains = ["http://www.china-pub.com/"]#start_urls = ['https://www.dushu.com/book/'] start_urls = ['http://product.china-pub.com/cache/rank3/onlinecenter.html']def parse(self, response):selector = Selector(response) #创建选择器 imgs_path = sys.path[0]+"/imgs/" #xpath的方式来提取出页面想要内容的信息 imgs = selector.xpath("//div[@class='tjyd']/ul/li/a/img/@file").extract()#for imgpath in imgs: for index in range(len( imgs )):print(imgs[index])response = request.urlopen(imgs[index])binary_data = response.read()temp_file = open( imgs_path+str(index)+'.jpg','wb' )temp_file.write(binary_data)temp_file.close()#urllib.urlretrieve(imgpath,"F:/imgs/1.jpg") pass
3.在项目的根目录下新建一个 imgs 这样名字的一个文件夹如下图
4.在项目的根目录下创建一个main.py这样的文件,编写上下面的代码
# -*- coding: utf-8 -*- __author__ = 'bobby' from scrapy.cmdline import executeimport sys import ossys.path.append(os.path.dirname(os.path.abspath(__file__))) #获取到当前整个工程 ArticleSpider这个项目的目录路径 os.path.dirname 这个函数指的是当前这个文件路径,os.path.dirname指的是某个目录的父级别路径 execute(["scrapy","crawl","readbook"])# #sys.path.append("F:\scrapy_project\ArticleSpider")
5.运行主程序文件
结果就把
http://product.china-pub.com/cache/rank3/onlinecenter.html url下的所有文件全部都爬取下来了
效果如下图所示:
使用scrapy来抓取 ChinaPub 这个网站上的图片_并且将其下载到本地相关推荐
- java随机抓取网站上的图片_抓取一个网站特定的全部图片(JAVA)
1. 目的 用五笔时,如果碰到不会拆的字,只好换回拼音.但这样做治标不治本,于是到网上找五笔反查工具.最后发现一个不错的网站--不仅有每个字对应的五笔码,还有其字根图.可惜的是,这是一个网站.换句说, ...
- python基础:抓取博客网页上的图片并且保存的例子
基本思路: 这个例子很好,给初学者一个很容易理解的代码例子,从指定的博客url中获取html的内容,并且分析该html中的内容,提取出图像的url,放入到数据结构列表中. 利用循环,将依次获取每一个图 ...
- Python学习第一课——爬取模特秀网站的模特图片
第一次写博客,经验不足. 很早以前就听说过爬虫,但是从未自己去实现过,昨天看到一个爬虫的教学视频,不免心里痒痒,于是自己动手编程实现.在这里我选择的是Python语言(不要问我为什么,实际上我也没有学 ...
- 用python来抓取“煎蛋网”上面的美女图片,尺度很大哦!哈哈
所用Python环境为:python 3.3.2 用到的库为:urllib.request re 废话不多说,先上代码: import urllib.request import re#获得 ...
- Python之 - 使用Scrapy建立一个网站抓取器,网站爬取Scrapy爬虫教程
Scrapy是一个用于爬行网站以及在数据挖掘.信息处理和历史档案等大量应用范围内抽取结构化数据的应用程序框架,广泛用于工业. 在本文中我们将建立一个从Hacker News爬取数据的爬虫,并将数据按我 ...
- 使用scrapy框架抓取手机商品信息(1)
目录 1.准备工作 1.1 启动pycharm 1.2 setting.py 配置 1.3爬取页面分析 2.代码编写 2.1 爬虫代码 2.2 piplines.py代码编写 3 运行及收尾 追加 1 ...
- Python爬虫实战之二 - 基于Scrapy框架抓取Boss直聘的招聘信息
Python爬虫实战之三 - 基于Scrapy框架抓取Boss直聘的招聘信息 ---------------readme--------------- 简介:本人产品汪一枚,Python自学数月,对于 ...
- 基于python的scrapy爬虫抓取京东商品信息
这是上的第二节爬虫课程的课后作业:抓取京东某类商品的信息,这里我选择了手机品类. 使用scrapy爬虫框架,需要编写和设置的文件主要有phone.py , pipelines.py , items.p ...
- 网站优化中哪些设置会影响蜘蛛的抓取?对网站SEO产生什么影响?
网站在优化中,要有一定的收录基础才能有更大的几率提升排名,并获得搜索引擎的喜爱.但在网站优化中难免会有一些细节没注意到而影响蜘蛛的抓取,下面就带大家一起了解一下. 一.登录设置 有些网站会设置注册账号 ...
- 网站开启https后很慢_网站优化中哪些设置会影响蜘蛛的抓取?对网站SEO产生什么影响...
网站在优化中,要有一定的收录基础才能有更大的几率提升排名,并获得搜索引擎的喜爱.但在网站优化中难免会有一些细节没注意到而影响蜘蛛的抓取,下面就带大家一起了解一下. 一.登录设置 有些网站会设置注册账号 ...
最新文章
- webpack源码之tapable
- MAR-8ASM射频放大器测试
- python连接linux服务器读取txt文件_python 读取Linux服务器上的文件方法
- android onclick执行顺序,错误“无法执行android:onClick的方法”
- win7右键点击文件夹进入命令窗口方法
- Redis非阻塞I/O多路复用机制
- Typecho添加投稿功能插件
- git-注册与激活-创建一个测试用途的仓库-github
- codevs1521 华丽的吊灯
- java大整数_java处理大整数
- 安装docker desktop for windows启动时报错
- TikTok最适合普通小白的赚钱方法?
- css hack 记录
- 《python编程》第五章——并行系统工具(上)
- [渝粤教育] 广东-国家-开放大学 21秋期末考试标准的研制与编制★10003k1
- python学生管理系统gui版好例子网_python界面版学生管理系统 相关实例(示例源码)下载 - 好例子网...
- C语言中使输入的字符串反序输出,C语言: 写一函数,使输入的一个字符串按反序存放,在主函数中输入和输出字符串。...
- 破解wifi并实施中间人攻击
- 计算机如何共享桌面,怎么将自己的台式电脑屏幕与多人共享
- 服务器开启虚拟化有什么好处