Python到底多强大,绝对超乎菜鸟们(当然也包括我了)的想象。近期我接触到了爬虫,被小小地震撼一下。总体的感觉就两个词——“强大”和“有趣”。今天就跟大家分享一下两个简易的爬虫案例,大牛们请飞过哈。

先来科普一下啊“爬虫技术”吧。网络爬虫(又被称为网页蜘蛛,网络机器人,网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

它的名字虽然很多,但是过程很明确,就两个部分:一是从网页源代码中爬取有用信息;二是对这些信息进行处理(如分析、下载等)。

下面用两种方法制作批量爬取网络图片的方法。

第一种方法:基于urllib实现

要点如下:

1.url_request = request.Request(url)

2.url_response = request.urlopen(url) 或者 url_response = request.urlopen(url_request)

3.data=url_response .read().decode('utf-8')

4.jpglist=re.findall(正则表达式,data)

5.request.urlretrieve(jpgUrl,'%s.jpg' %n)   #下载,第一个参数网址,第二参数名称

第一个案例,我们爬取了猫扑上的一个网页上的图片,案例代码如下。

基于urllib案例完整代码

需要说明的是代码request.urlretrieve(each,'pic2\\%s.jpg'  %n)中“pic2\\”代表下载的图片放置在提前建好的文件夹pic2里。运行代码结束之后IDLE和最后结果如下图所示。

代码运行界面1

案例1结果

第二种实现方法:基于requests实现

要点如下:

1.data=requests.get(url).text

2.jpglist=re.findall(正则表达式,data,re.S)

3.pic=requests.get(pic_url,timeout=10)

4. fp=open(pic_name,'wb')

fp.write(pic.content)

fp.close()

在这个案例中我们爬取了一个壁纸网站的网页,预测应该图片质量比较高吧。完整代码如下:

基于requests案例代码

我们来看一下运行代码的结果,如下图所示。真心不错,我们获得了42张壁纸,而且是在短短几秒钟内完成的,很厉害的感觉有木有。

代码运行界面2

案例二结果

改进一下

需要说明一下原理。这个针对百度图片搜索功能完成的,因为我们发现关键词就在搜索结果页的网址中。我们只需要把网址中的关键词换掉,就是针对新的关键词的结果页网址。

完整代码如下:

改进后代码

这里我输入了“北京”,如下图。结果针对让人振奋,自动下载了59张关于北京的图片,有没有很爽的感觉。

代码运行界面3

案例三结果

参考学习网址:

python爬虫快速下载图片_Python爬虫入门:批量爬取网上图片的两种简单实现方式——基于urllib与requests...相关推荐

  1. python爬虫爬取图片代码_Python爬虫入门:批量爬取网上图片的两种简单实现方式——基于urllib与requests...

    Python到底多强大,绝对超乎菜鸟们(当然也包括我了)的想象.近期我接触到了爬虫,被小小地震撼一下.总体的感觉就两个词--"强大"和"有趣".今天就跟大家分享 ...

  2. 最新 用Python 批量爬取网上图片

    标题 最新 用Python 批量爬取网上美眉图片 故事是这样的:七月份给室友说,我要开始学习Python了.室友一脸懵,并问我Python是啥?确实对于我这个小城市来说Python之风还没有吹到我们这 ...

  3. python爬虫知乎图片_Python爬虫入门教程 25-100 知乎文章图片爬取器之一

    1. 知乎文章图片爬取器之一写在前面 今天开始尝试爬取一下知乎,看一下这个网站都有什么好玩的内容可以爬取到,可能断断续续会写几篇文章,今天首先爬取最简单的,单一文章的所有回答,爬取这个没有什么难度. ...

  4. python爬虫视频 下载 黑马_Python爬虫能爬视频么(python爬虫零基础视频教程)

    Python爬虫能爬视频么 他视频没有的,但是跑了之后你要处理这个视频,就是问题的?你只需要,得到视频的播放地址,还是要把视频完整的下载到本地的.如果只是爬那个视频的下载地址,很简单,如果要下载的话, ...

  5. python爬虫知乎图片_python爬虫(爬取知乎答案图片)

    python爬虫(爬取知乎答案图片) 1.⾸先,你要在电脑⾥安装 python 的环境 我会提供2.7和3.6两个版本的代码,但是本⽂只以python3.6版本为例. 安装完成后,打开你电脑的终端(T ...

  6. python 爬虫 音乐下载 歌手_python爬虫批量下载全民K歌音乐

    标签:爬虫 网址示例: https://node.kg.qq.com/personal?uid=639e9983222a338a 直接上源码: import requests import time ...

  7. python爬虫微博评论图片_python爬虫爬取微博评论

    原标题:python爬虫爬取微博评论 python爬虫是程序员们一定会掌握的知识,练习python爬虫时,很多人会选择爬取微博练手.python爬虫微博根据微博存在于不同媒介上,所爬取的难度有差异,无 ...

  8. python 百度云下载加速器_Python爬虫加速神器的牛刀小试,就问你怕不怕

    大名鼎鼎的aiohttp,相信如果你学习Python或者爬虫的时候,肯定听说过这个东西.没听过也不要紧,今天看完文章,只要记住,aiohttp这个东西,在写爬虫的时候,很牛逼就行了. aiohttp ...

  9. python怎样快速下载库_Python如何急速下载第三方库详解

    前言 pip 是一个现代的,通用的 Python 包管理工具 ,是一个安装第三方 库必备的工具,提供了对Python 包的查找.下载.安装.卸载的功能.但是在国内使用有很多因素的限制,一个3.4M的库 ...

最新文章

  1. Qt中文手册 之 QApplication
  2. arcengine坐标转换[转]
  3. 泛海精灵的用户分析:补充【Song Xie】
  4. 对象容器设计模式_容器对象模式。 一种新的测试模式。
  5. PostgreSQL的核心架构
  6. Scrapy-redis分布式爬虫
  7. Python中文本文件的读取(包含指针移动)
  8. TCP之Nagle算法延迟ACK
  9. Tensorflow2下载与安装
  10. MySQL Front的作者到底何许人也,这款好用的sql可视化软件背后有什么故事。。
  11. 深度强化学习-策略梯度算法深入理解
  12. 50个最受欢迎的大数据面试问题
  13. 2×3卡方检验prism_【SPSS数据分析】方差分析之多因素方差分析(3)Graphpad Prism绘制简单效应折线图...
  14. 石子合并问题java_动态规划求石子合并问题
  15. 12306多线程抢票
  16. 扫码支付java,详解JAVA后端实现统一扫码支付:微信篇
  17. 关于Android终端机串口的理解
  18. ubuntu18.04鼠标正常使用,而键盘失灵
  19. POJ1608 Banal Tickets
  20. linux查看内存的生产商,linux下查看CPU.内存型号.pci 转自《Ivan-blog》

热门文章

  1. 【马仔创业记】一只猴子的创业独白
  2. python逻辑表达式是什么_Python逻辑运算
  3. VBReFormer-SEO狼术
  4. Dubbo的原理和机制(详解)
  5. socket编程python实现
  6. 转:2018全美最佳CEO谈“领导力”
  7. H5基于canvas实现电子签名并生成PDF文档
  8. java jhat_java命令--jhat命令使用
  9. 服务再创新,菊风中标中国光大银行VoLTE视频服务网关项目
  10. 如何查看Ubuntu中Python的安装路径