一、需求:

用python实现去内涵段子里面下载网页当中的图片到本地当中

二、实现:

1、获取要爬取的URL地址

2、设置headers

3、请求网页内容,把html内容转换成XML

4、解析地址内容,进行图片下载

三、开始操作:以下图为例子

1、获取要爬取的URL地址:

url="http://www.neihan8.com/gaoxiaomanhua/index_2.html"

2、设置headers:

headers={"User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64; Trident/7.0; rv:11.0) like Gecko"}

3、请求网页内容,把html内容转换成XML

request = urllib2.Request(url,headers=headers)

response = urllib2.urlopen(request).read()

xml = etree.HTML(response)#这个etree是需要在前面导入包的 : from lxml import etree

4、解析地址内容,进行图片下载,我们通过上面的图片进行获取到具体的xpath图片地址.

linklist = content.xpath('/html/body/div[@class="main wrap"]//div[@class="left"]/div[@class="pic-column-list mt10"]/div/a/img/@src')

ps:这个linklist里面存放的是所有这个xpath里面的内容,所以如果需要下载的话需要依次提取

for link in linklist:

image_request = urllib2.Request(link)

response = urllib2.urlopen(image_request).read()

filename = link[10:0]

with open(fileName,"wb") as f:

f.write(response)

上面是分别解释了一下流程,都是手写的代码,第一次写文章比较粗糙大家见谅了。下面是整个代码的内容

import urllib2

from lxmlimport etree

class Spider:

pass

def __init__(self):

self.pageNum =2

self.switch =True

def loadImage(self):

url ="http://www.neihan8.com/gaoxiaomanhua/index_"+str(self.pageNum)+".html"

headers = {"User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64; Trident/7.0; rv:11.0) like Gecko"}

request = urllib2.Request(url,headers=headers)

response= urllib2.urlopen(request).read()

content = etree.HTML(response)

linklist = content.xpath('/html/body/div[@class="main wrap"]//div[@class="left"]/div[@class="pic-column-list mt10"]/div/a/img/@src')

for image_linkin linklist:

print "downLoading..."

self.writeImage(image_link)

def writeImage(self,link_address):

headers = {"User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64; Trident/7.0; rv:11.0) like Gecko"}

download_request  =urllib2.Request(link_address)

response = urllib2.urlopen(download_request).read()

fileName = link_address[-10:]

with open(fileName,"wb")as f:

f.write(response)

print "downLoad---FINISH"

if __name__ =="__main__":

spider = Spider()

spider.loadImage()

用python爬虫爬取无水印图片_使用python 爬虫,爬取图片相关推荐

  1. python爬取无讼案例网,并对爬取结果进行多元回归分析

    目录 无讼网站数据爬取 无讼网站爬取的主要步骤如下: 遇到的问题 代码如下 数据处理及多元回归分析 数据清洗 模型及第三方库的选择 爬取结果示例 爬取结果数字化 回归分析结果 代码如下 (求客官动动您 ...

  2. Python爬取网站用户手机号_利用python爬取慕课网站上面课程

    1.抓取网站情况介绍 抓取网站:http://www.imooc.com/course/list 抓取内容:要抓取的内容是全部的课程名称,课程简介,课程URL ,课程图片URL,课程人数(由于动态渲染 ...

  3. 爬取街拍图片_如何拍摄好街拍照片

    爬取街拍图片 Street photography is about documenting the day to day life of a city. It's about capturing t ...

  4. python 爬取直播弹幕视频_调用斗鱼API爬取直播间弹幕信息(用户昵称及弹幕内容)...

    调用斗鱼API爬取直播间弹幕信息(用户昵称及弹幕内容) 查看<斗鱼弹幕服务器第三方接入协议v1.4.1>,了解斗鱼API的使用方法,即如何连接斗鱼弹幕服务器.维持连接及获取弹幕信息 Pyt ...

  5. 爬虫基础:python实现爬取无水印某瓜视频(附有完整代码,超详细)

    文章目录 一.前言 二.爬无水印的某瓜视频 1.分析网站 2.完整代码 三.总结 一.前言 爬虫真的很尴尬,稍微写点文章,分析网站什么的,就不给过,版权问题,哎,我会在边缘疯狂试探,一定要写详细点,让 ...

  6. python爬取京东商品图片_python利用urllib实现爬取京东网站商品图片的爬虫实例

    本例程使用urlib实现的,基于python2.7版本,采用beautifulsoup进行网页分析,没有第三方库的应该安装上之后才能运行,我用的IDE是pycharm,闲话少说,直接上代码! # -* ...

  7. python爬取无水印抖音小姐姐视频(2018最新,含Pyqt客户端)

    各位小伙伴,之前一段时间迷上了抖音小姐姐视频,但是下载的视频都有水印,于是自己用Python 写了个爬取小姐姐视频的工具,大家可以直接拷贝到自己编译器上运行.此外,我还利用pyqt5写了个操作界面,这 ...

  8. python爬取手机app图片_python 手机app数据爬取

    今天向大家介绍app爬取. @ 一:爬取主要流程简述 1.APP的爬取比Web爬取更加容易,反爬虫没有那么强,且大部分数据是以JSON形式传输的,解析简单. 2.在APP中想要查看请求与响应(类似浏览 ...

  9. Python爬取网站用户手机号_用Python爬虫爬取学校网妹子QQ号,100行代码撩妹,用技术脱单...

    前言: 其实这个项目没什么难度,稍微懂一点爬虫的人或者是已经就业的程序员都可以用自己学的编程语言写出来,但是正是这也原因,也间接证明现在网络很多安全问题的存在,简单的说就是这个网站的程序员偷懒,让用户 ...

最新文章

  1. python def是什么意思-python中def是什么
  2. 单片机上使用TEA加密通信(转)
  3. 小游戏编程代码复制_少儿编程是不是来玩游戏?这个到底要学多久?
  4. 前端学习(1586):react列表2
  5. yii mysql条件查询_mysql – 在Yii2 find()/ QueryBuilder中使用WHERE条件的SELECT子查询
  6. CSS伪对象选择符整理
  7. php-china,php对chinapay的支持
  8. “ ModuleNotFoundError: No module named ‘tkinter‘ “的解决方法
  9. Gram 矩阵及其主要性质
  10. OC dyld750调用分析
  11. 如何用定积分求椭圆的周长_怎么用微积分求椭圆的周长?
  12. 5G消息富媒体最新形态
  13. HDU-4622 Reincarnation (后缀自动机)
  14. 三国杀网页版普通服务器怎么进,就想知道老服怎么进_三国杀Online_玩家社区_三国杀官方社区 - Powered by Discuz!...
  15. Ubuntu 16.04 安装 uTorrent
  16. 【ROM制作工具】如何美化ROM、集成高级设置等特色功能到刷机包教程
  17. pyaudio录制音频和播放音频
  18. 百胜中国二次上市:肯德基与必胜客贡献九成营收,春华资本是股东
  19. 草履虫纳米机器人_《Nature》:草履虫大小的微型机器人:由激光驱动,未来可用于显微外科手术!...
  20. 超详细的网络抓包神器 tcpdump 使用指南

热门文章

  1. Qt多线程-QThreadPool线程池与QRunnable
  2. 如何在Ubuntu 20.04 上安装 Xrdp 服务器(远程桌面)
  3. 参数 中_理解JavaScript中函数的参数
  4. php mysql 备份还原_PHP执行Mysql数据库的备份和还原
  5. 数据结构之图的遍历:广度优先遍历(BFS)
  6. 【README3】动态规划之“找零钱”说明最优子结构怎么解决
  7. thrift使用小记
  8. c++中的运算符重载---知识点:运算符重载函数,友元函数,函数重载
  9. C/C++的readdir和readdir_r函数(遍历目录)
  10. 工控蜜罐Conpot部署和入门及高级演变