python编程语言,可以说是新型语言,也是这两年来发展比较快的一种语言,而且不管是少儿还是成年人都可以学习这个新型编程语言,今天南京小码王python培训机构变为大家分享了一个python爬虫教程。

网络爬虫,又被称为网页蜘蛛、网络机器人,爬虫分为通用网络爬虫、聚焦网络爬虫、增量式网络爬虫、Deep Web爬虫这四种。“虫如其名”,爬虫并不是一种我们熟知的无脊椎动物中的节肢动物,而是一类计算器程序或脚本,该程序能够自动爬取万维网中的信息,并能够按照一定的要求加工这些信息。

c/c++、java、python、php等语言都可以用来写爬虫程序,但总的来讲,目前大多数开发人员都会选择python、php等语言进行开发爬虫程序,所以今天将使用python教大家制作一个非常简单实用的爬虫程序。

爬虫原理

当我们在网络中寻找我们需要的信息时,一般都会通过浏览器进行操作,浏览器会将我们的请求发送给存放信息的服务器,服务器收到发过来的请求之后会把请求的数据返回给浏览器。

形象一点讲,浏览器就相当于我们人类的翻译官,将我们的人类语言翻译给服务器听,服务器听懂之后就开始执行我们的命令,然后将结果说给浏览器听,浏览器再将结果翻译给我们人类。所以我们的爬虫就是通过不断地模仿浏览器发出的指令,让服务器不断地执行相应的命令,此时服务器并不知道发送命令的是人类还是爬虫,因为服务器只能听得懂浏览器“语言”。

为什么要这样呢?我们人类自己发出命令不好吗?为什么要让机器代劳呢?举个例子:例如你正在做人工智能中的图片识别,这将需要到很多训练数据——图片,你总不能手动地一个个地将图片下载下来吧?这时候爬虫的作用就来了!

python爬虫原理

举个例子,我们现在想要批量抓取猫的图片用于猫狗分类模型训练,聪明伶俐的选择用python去代替手动下载猫、狗图片这个枯燥乏味的过程。

在python中,我们可以使用requests.get(https://www.jkys120.com/)向目标地址发起请求,在这之后服务器会返回一些数据,在这些数据里面就有猫、狗图片的存放地址,我们需要将图片地址和HTML标签以及其他无用信息区分开来,所以将使用到正则化的方法,在这里可以使用re库,这个库自带一些正则化方法。

最后我们需要将指定url中的文件下载到电脑中,这将用到urllib库中的request.urlretrieve()方法。

代码教程

首先按照惯例我们先把将要使用到的库导入到py文件中。

import requestsimport jsonimport urllibimport re

然后开始编写我们的爬取程序,这里以百度图片为例(请求地址在地址栏上,区别只是在word关键字上),程序详解在下面的注释当中。

requests_content的text属性就是服务器返回的文本数据,里面包含了一些HTML标签和JavaScript脚本代码。

这是我们将使用正则化方法来把图片地址提取出来。

最后将url中的图片文件下载到电脑上。

运行结果

在这里批量下载了一些电脑壁纸,情况如何一起来看看吧!

python爬虫抓取图片-简单的python爬虫教程:批量爬取图片相关推荐

  1. python爬取大众点评评论_python爬虫抓取数据 小试Python——爬虫抓取大众点评上的数据 - 电脑常识 - 服务器之家...

    python爬虫抓取数据 小试Python--爬虫抓取大众点评上的数据 发布时间:2017-04-07

  2. python怎么批量爬取图片_python批量爬取网络图片

    上篇通过python爬取了一篇网络小说,初步了解了爬虫的四步流程,本文稍微扩展一点,试着从网页中爬取出多个图片,具体来看看: 我们今天试着从下面图1的网页上将所有图片都爬取出来,放在一个指定的文件夹里 ...

  3. python 批量下载网页图片_Python批量爬取图片并下载

    PS:本文附赠爬汇图网图片的方法 本文的目录看这里:前言找资源部分进入编程猫图鉴网找到聚集地获取聚集地网址代码部分导入相应的库re库介绍代码获取整个网站的内容扩展:状态码的意思其他的代码--总体代码关 ...

  4. 超简单的python爬虫教程来了!批量爬取图片,机器学习必备技能(附资源)

    前言 网络爬虫,又被称为网页蜘蛛.网络机器人,爬虫分为通用网络爬虫.聚焦网络爬虫.增量式网络爬虫.Deep Web 爬虫这四种."虫如其名",爬虫并不是一种我们熟知的无脊椎动物中的 ...

  5. python爬虫 asyncio aiohttp aiofiles 单线程多任务异步协程爬取图片

    python爬虫 asyncio aiohttp aiofiles 多任务异步协程爬取图片 main.py """=== coding: UTF8 ==="&q ...

  6. python爬虫抓取百度图片_Python爬虫抓取百度的高清摄影图片

    成果预览: 源代码: import requests import re url = 'https://image.baidu.com/search/index' headers = { 'User- ...

  7. python实战-JSON形式爬虫-批量爬取图片并下载

    文章目录 一.前言 二.思路 1.网站返回内容 2.url分页结构 3.根据请求快速构造代码 三.具体代码的实现 四.总结 一.前言   上一篇文章已经对html形式的爬虫进行实战,批量爬取电影下载链 ...

  8. Java爬虫批量爬取图片

    Java爬取图片(2020年3月) 现在开始学习爬虫,对于爬虫的入门来说,图片相对来说是比较容易获取的,因为大部分图片都不是敏感数据,所以不会遇到什么反爬措施,对于入门爬虫来说是比较合适的. 使用技术 ...

  9. java爬虫 抓取知乎,java爬虫抓取知乎推荐总是乱码

    求助java爬虫抓取知乎推荐总是乱码 仿照http://blog.csdn.net/pleasecallmewhy/article/details/17630063写一个简单的抓取知乎推荐(http: ...

最新文章

  1. 【Python教程】统计序列中元素出现频度的详细方法
  2. DNS and Bind (二)
  3. codeforce 272B Dima and Sequence
  4. 最新!MongoDB 重磅发布 MongoDB 5.0 和无服务器 Atlas
  5. Python colormap库的安装和使用
  6. 还没休年假的小伙伴注意了...事关你的合法权益
  7. 给员工授予svn相关权限
  8. Telnet基本概念及C# Telnet 客户端程序
  9. 调用sap函数接口_部署在SAP云平台CloudFoundry环境的应用如何消费SAP Leonardo机器学习API...
  10. 2021华为软件精英挑战赛总结
  11. (附源码)计算机毕业设计ssm基于JAVA宠物店管理系统
  12. 向Spring大佬低头——大量源码流出解析
  13. 2021-02-13L:1652 2.08---2.141576L
  14. 优达学城 深度学习 任务3
  15. 机器人之Cartographer
  16. spss对数据进行因子分析
  17. Win11系统频繁断网怎么办?Win11网络不稳定的解决方法
  18. python编写程序公式计算s_PYTHON程序设计实验2
  19. **matlab中fprintf函数简单用法**
  20. 群晖域名注册_手把手教你在群晖NAS上用自己的域名实现https访问

热门文章

  1. 开发日记-20190613 关键词 读书笔记《鸟哥的Linux私房菜-基础学习篇》
  2. RBF神经网络——直接看公式,本质上就是非线性变换后的线性变化(RBF神经网络的思想是将低维空间非线性不可分问题转换成高维空间线性可分问题)...
  3. ES JVM使用如果超过75%就会GC较多,导致ES索引性能下降
  4. 5.3 Spring事物管理详解 我的程序猿之路:第四十二章
  5. ZooKeeper与Eureka对比
  6. 恢复Oracle误删数据一点小记
  7. time Machine备份时间间隔
  8. 面向对象-封装、继承、多态
  9. (三) Angular2项目框架搭建心得
  10. 【转载】探寻C++最快的读取文件的方案