1. 主要描述在windows 上如何用scrapy抓取煎蛋网妹子图所有的图片下载。

  2. 软件准备:winpython,啥都不说了,ipython很好用。

    安装scrapy,进入winpython 执行scrapt\env.bat。这样就可以直接pip install scrapy;注意执行的log,好像还要安装一个service_identity,具体什么功能也不清楚。以后慢慢研究。

  3. 建立工程scrapy startproject myscrapy

    建立spider  scrapy genspider spider(需要进入myscrapy)

    使用ImagesPipeLine,在settings.py中添加如下文件

    ITEM_PIPELINES = {'scrapy.contrib.pipeline.images.ImagesPipeline':1}#使用imagespipeline

    IMAGES_STORE = 'E:\download'#下载的路径

    还可以过滤图片大小什么的,暂时用不到。

    scrapy 提供imagespipe 提供图片下载功能,只要提供urls就行了。

定义item类

class xxxItem(scrapy.Item):

image_urls = scrapy.Field()

imges = scrapy.Field()

spider.py文件

class JiandanSpider(scrapy.Spider):

name = "jandan"

allowed_domains = ["jandan.net"]

start_urls = (

'http://jandan.net/ooxx',

)

def parse(self, response):

t = response.xpath('//div[1]/div/div[2]/p/img')

img_urls = t.xpath('@src').extract()

newItem = BlueItem(image_urls = img_urls)

yield newItem

#extract 每个图片的src,直接丢给ImagesPipeline处理。

sel_next_url = response.xpath('//div[2]/div/a')

for item in sel_next_url:

classname = item.xpath('@class').extract()

if len(classname) > 0:

if "previous-comment" in classname[0]:

urls = item.xpath('@href').extract()

for url in urls:

if "comments" in url:

print "-->",url,"<--"

yield scrapy.Request(url, callback = self.parse)

#提取下一个网页,重新发起请求。

坐等大巴大巴的妹子图片

python scrapy 爬取妹子图的照片相关推荐

  1. 用scrapy爬取妹子图网的图片,附上源代码

    实现这个是因为之前在谋个公众号里面看到一篇文章,关注了也拿不到源代码 ,所以就自己写了一个爬取这个网站图片的功能.个人觉得这个网站的图片就一般吧. 开始 环境,py3, win, linux下运行都是 ...

  2. python多线程爬取妹子图网站_python爬取妹子图全站全部图片-可自行添加-线程-进程爬取,图片去重...

    from bs4 import BeautifulSoup import sys,os,requests,pymongo,time from lxml import etree def get_fen ...

  3. Scrapy爬取妹子图保存到不同目录下

    进行设置settings #启动图片管道 ITEM_PIPELINES = {'mztu.pipelines.ImagesPipelinse': 300, } #设置默认目录地址 注意下载图片的话默认 ...

  4. 使用python requests 爬取妹子图网站图片

    import requests import os import re# 封面图http://mm.chinasareview.com/wp-content/uploads/2017a/07/04/l ...

  5. python爬虫爬妹子图_【爬虫】直接上干货-爬取妹子图整站图片

    该楼层疑似违规已被系统折叠 隐藏此楼查看此楼 #coding=utf-8 import os import requests from lxml import etree import time cl ...

  6. python爬取妹子图片1_【爬虫】直接上干货-爬取妹子图整站图片

    该楼层疑似违规已被系统折叠 隐藏此楼查看此楼 #coding=utf-8 import os import requests from lxml import etree import time cl ...

  7. Python scrapy爬取京东,百度百科出现乱码,解决方案

    Python scrapy爬取京东 百度百科出现乱码 解决方案 十分想念顺店杂可... 抓取百度百科,出现乱码 把页面源码下载下来之后,发现全是乱码,浏览器打开 但是浏览器链接打开就没有乱码 以下是浏 ...

  8. python多线程爬取斗图啦数据

    python多线程爬取斗图啦网的表情数据 使用到的技术点 requests请求库 re 正则表达式 pyquery解析库,python实现的jquery threading 线程 queue 队列 ' ...

  9. scrapy爬取斗图表情

    用scrapy爬取斗图表情,其实呀,我是运用别人的博客写的,里面的东西改了改就好了,推存链接" http://www.cnblogs.com/jiaoyu121/p/6992587.html ...

最新文章

  1. 电信业务分类目录2019_2019年1月国内增值电信业务许可情况分析报告,市场区域发展不均衡...
  2. ABAP表生成Java实体Bean
  3. ACL2020 | FastBERT:放飞BERT的推理速度
  4. screnc加密后文件不能执行_芯片加密后还能不能再次使用【详细介绍】
  5. 华为鸿蒙净水机,华为鸿蒙OS 2.0手机版功能抢先曝光
  6. 十年风雨!看蚂蚁金服SOFA 分布式架构演进
  7. json学习初体验--第三者jar包实现bean、List、map创json格式
  8. Atitit. 软件---多媒体区---- jmf 2.1.1 Java Media Framework 支持的格式
  9. oracle查看所有用户6,CSS_Oracle 用户权限查询,1.查看所有用户:nb - phpStudy
  10. 科普一下: 关于C语言中的运算符优先级
  11. Premiere Pro CS6自学所需的视频编辑基础(一)
  12. 2021正睿csp7连day1
  13. 量子笔记:单比特量子门、泡利矩阵
  14. 奔走相告!2020阿里云618年中大促火爆来袭!
  15. STM32 Cube mx的MDK项目编译报错与debug
  16. 用皮尔逊相关系数检查特征间的线性相关关系
  17. 愚人节的希腊神话传说
  18. Java10进制转16进制,16进制转10进制
  19. JS中常见的字符串拼接处理
  20. 数据标注案例分析-足球比赛时间轴打点标注项目

热门文章

  1. 英文名字大全(女篇)
  2. CKEditor 4使用方法,来自http://docs.ckeditor.com/#!/guide/dev_ckeditor_js_load官网地址
  3. firewalld permanent参数
  4. ks检验python代码_如何使用适当的标准化方法从KolmogorovSmirnov测试(ks测试)中获得正确的p_值和ks_值?...
  5. 不要以抄底的心态去投资
  6. 《肥鸟笔记--基础数据结构》一、栈
  7. 搞大事! EABM社区和众多大牌经纪商强强联手合作
  8. 在线教育业务笔记03
  9. 谷粒学院-首页数据显示-banner轮播图微服务搭建
  10. 计算机术语什么叫袜子,大电脑织袜机部分功能操作与说明