使用scrapy来抓取 ChinaPub 这个网站上的图片

1.首先我们使用 scrapy startproject chinapub 这个命令来创建出一个scrapy项目,创建完毕之后scrapy的目录结构如下图所示:

2.在spider目录下新建一个 chinapub.py的文件，并且编写上下面的代码.

# -*- coding: utf-8 -*-
import scrapyfrom scrapy.spider import Spider
from scrapy.selector import Selector
from chinapub.items import ChinapubItem
import urllib
from urllib import requestimport sys
import osclass ReadbookSpider(scrapy.Spider):name = "readbook"
    allowed_domains = ["http://www.china-pub.com/"]#start_urls = ['https://www.dushu.com/book/']
    start_urls = ['http://product.china-pub.com/cache/rank3/onlinecenter.html']def parse(self, response):selector = Selector(response)    #创建选择器

        imgs_path = sys.path[0]+"/imgs/"
        #xpath的方式来提取出页面想要内容的信息
        imgs = selector.xpath("//div[@class='tjyd']/ul/li/a/img/@file").extract()#for imgpath in imgs:

        for index in range(len( imgs )):print(imgs[index])response = request.urlopen(imgs[index])binary_data = response.read()temp_file = open(  imgs_path+str(index)+'.jpg','wb' )temp_file.write(binary_data)temp_file.close()#urllib.urlretrieve(imgpath,"F:/imgs/1.jpg")

        pass

3.在项目的根目录下新建一个 imgs 这样名字的一个文件夹如下图

4.在项目的根目录下创建一个main.py这样的文件,编写上下面的代码

# -*- coding: utf-8 -*-
__author__ = 'bobby'

from scrapy.cmdline import executeimport sys
import ossys.path.append(os.path.dirname(os.path.abspath(__file__)))   #获取到当前整个工程  ArticleSpider这个项目的目录路径  os.path.dirname  这个函数指的是当前这个文件路径，os.path.dirname指的是某个目录的父级别路径

execute(["scrapy","crawl","readbook"])# #sys.path.append("F:\scrapy_project\ArticleSpider")

5.运行主程序文件

结果就把

http://product.china-pub.com/cache/rank3/onlinecenter.html   url下的所有文件全部都爬取下来了

效果如下图所示:

使用scrapy来抓取 ChinaPub 这个网站上的图片_并且将其下载到本地相关推荐

java随机抓取网站上的图片_抓取一个网站特定的全部图片（JAVA）
1. 目的用五笔时,如果碰到不会拆的字,只好换回拼音.但这样做治标不治本,于是到网上找五笔反查工具.最后发现一个不错的网站--不仅有每个字对应的五笔码,还有其字根图.可惜的是,这是一个网站.换句说, ...
python基础：抓取博客网页上的图片并且保存的例子
基本思路: 这个例子很好,给初学者一个很容易理解的代码例子,从指定的博客url中获取html的内容,并且分析该html中的内容,提取出图像的url,放入到数据结构列表中. 利用循环,将依次获取每一个图 ...
Python学习第一课——爬取模特秀网站的模特图片
第一次写博客,经验不足. 很早以前就听说过爬虫,但是从未自己去实现过,昨天看到一个爬虫的教学视频,不免心里痒痒,于是自己动手编程实现.在这里我选择的是Python语言(不要问我为什么,实际上我也没有学 ...
用python来抓取“煎蛋网”上面的美女图片，尺度很大哦！哈哈
所用Python环境为:python 3.3.2 用到的库为:urllib.request re 废话不多说,先上代码: import urllib.request import re#获得 ...
Python之 - 使用Scrapy建立一个网站抓取器，网站爬取Scrapy爬虫教程
Scrapy是一个用于爬行网站以及在数据挖掘.信息处理和历史档案等大量应用范围内抽取结构化数据的应用程序框架,广泛用于工业. 在本文中我们将建立一个从Hacker News爬取数据的爬虫,并将数据按我 ...
使用scrapy框架抓取手机商品信息(1)
目录 1.准备工作 1.1 启动pycharm 1.2 setting.py 配置 1.3爬取页面分析 2.代码编写 2.1 爬虫代码 2.2 piplines.py代码编写 3 运行及收尾追加 1 ...
Python爬虫实战之二 - 基于Scrapy框架抓取Boss直聘的招聘信息
Python爬虫实战之三 - 基于Scrapy框架抓取Boss直聘的招聘信息 ---------------readme--------------- 简介:本人产品汪一枚,Python自学数月,对于 ...
基于python的scrapy爬虫抓取京东商品信息
这是上的第二节爬虫课程的课后作业:抓取京东某类商品的信息,这里我选择了手机品类. 使用scrapy爬虫框架,需要编写和设置的文件主要有phone.py , pipelines.py , items.p ...
网站优化中哪些设置会影响蜘蛛的抓取？对网站SEO产生什么影响？
网站在优化中,要有一定的收录基础才能有更大的几率提升排名,并获得搜索引擎的喜爱.但在网站优化中难免会有一些细节没注意到而影响蜘蛛的抓取,下面就带大家一起了解一下. 一.登录设置有些网站会设置注册账号 ...
网站开启https后很慢_网站优化中哪些设置会影响蜘蛛的抓取？对网站SEO产生什么影响...
网站在优化中,要有一定的收录基础才能有更大的几率提升排名,并获得搜索引擎的喜爱.但在网站优化中难免会有一些细节没注意到而影响蜘蛛的抓取,下面就带大家一起了解一下. 一.登录设置有些网站会设置注册账号 ...

使用scrapy来抓取 ChinaPub 这个网站上的图片_并且将其下载到本地

使用scrapy来抓取 ChinaPub 这个网站上的图片_并且将其下载到本地相关推荐

最新文章

热门文章