抓取网页上的图片

思路:网页(HTML)中的图片通常在img标签中,图片的链接通常在标签的src属性中,通过BeautifulSoup解析HTML,找到所有的img标签,获取每一个标签中的src的属性(url),下载,保存到本地。

# @author: huangyanli
# @date : 2018-05-09 18:45:35
# @QQ : 339600718
# @Email : 339600718@qq.com
# 抓取网站的所有<img>标签中的所有jpg图片import urllib.request
from bs4 import BeautifulSoupurl = "http://theater.mtime.com/China_Guangdong_Province_Shenzen/"
# 获取网页源代码
html_source = urllib.request.urlopen(url).read().decode('utf-8')
# 使用BeautifulSoup 解析HTML
html = BeautifulSoup(html_source, 'html.parser')
# 找到网页上的所有img标签
imgs_url = html.find_all('img')
for img in imgs_url:# 获取每个img 的srcimg_url = img.attrs["src"]# 获取每个img 的src ,命名图片时用img_alt = img.attrs["alt"]# alt中很多字符不能用做文件名,需要替换掉img_alt = img_alt.replace("/", "")img_alt = img_alt.replace("?", "")img_alt = img_alt.replace(" ", "")img_alt = img_alt.replace(":", "-")# 下载图片imgs = urllib.request.urlopen(img_url).read()# 设置保存图片的路径f = open("D:/GitHub/PythonSpider/Lily/imgs/" + img_alt + ".jpg", "wb")# 将图片保存至本地f.write(imgs)

抓取网页上的图片(一)相关推荐

  1. python抓取网站图片_python抓取图片示例 python抓取网页上图片

    python抓取网页上图片 这个错误时是什么意思 下面是代码 import re import urllib.request imp正则表达式匹配的url有错误 for x in add: print ...

  2. python获取网页图片_python抓取网页中的图片示例

    python抓取网页中的图片示例 代码如下: #coding:utf8 import re import urllib def getHTML(url): page = urllib.urlopen( ...

  3. cutycapt php,PHP利用CutyCapt获取网页快照,抓取网页高清图片快照(教程)

    PHP利用CutyCapt获取网页快照,抓取网页高清图片快照(教程): // +------------------------------------------------------------ ...

  4. 用curl+PHP抓取网页上所需要的数据

    最近使用后台的时候老是发现有些信息没法导出,又不想一个个复制很麻烦,想起以前做的一个小功能,用来抓取网页上的可用数据填充自己的数据库,由于网站需要登录才能访问,所以加上了curl的模拟登录 <? ...

  5. 用python画爱心动图_编写Python爬虫抓取暴走漫画上gif图片的实例分享

    本文要介绍的爬虫是抓取暴走漫画上的GIF趣图,方便离线观看.爬虫用的是python3.3开发的,主要用到了urllib.request和BeautifulSoup模块. urllib模块提供了从万维网 ...

  6. gif提取 python_编写Python爬虫抓取暴走漫画上gif图片的实例分享

    本文要介绍的爬虫是抓取暴走漫画上的GIF趣图,方便离线观看.爬虫用的是python3.3开发的,主要用到了urllib.request和BeautifulSoup模块. urllib模块提供了从万维网 ...

  7. 【爬虫】使用beautifulsoup、requests爬取网页上的图片;循环爬取上市公司高管信息

    **声明:本篇博文只用于对于爬虫技术的学习交流.如果侵犯到相关网站利益,请联系我删除博文.造成不便还请见谅.希望各位同学在学习的时候不要过于频繁的去请求. 最近博主在学习前端开发和网页相关的东西,这些 ...

  8. python实现抓取网页上的内容并发送到邮箱

    要达到的目的: 从特定网页中抓取信息,排版后发送到邮箱中 关键点: 下载网页,从网页里抓取出需要的信息 HTML排版 发送到指定邮箱 实现: 1.python下载网页 直接用库函数就可以实现 from ...

  9. stata抓取html,(5)详解 stata 爬虫抓取网页上的数据 part 1

    *案例:抓取 http://www.tjcn.org 中国统计信息网上前50页(每页包含20个市的数据)的1000个地区的GDP数据.使用stata版本为 stata13,与12版本和14版本都不兼容 ...

最新文章

  1. hung-yi lee_p1_机器学习是什么
  2. 谷歌推出新模型「pQRNN」,少量参数下进行文本分类,性能堪比BERT
  3. 【计算机图形学】实验:C#语言采用GDI+定义笔刷并填充图形完整实验操作流程
  4. 手势相关-解决手势冲突
  5. MFC返回的临时对象指针成因?
  6. ubuntu 16.0.4如何配合网卡,
  7. 学习python入门的个人建议及资料
  8. 121.Best Time to Buy and Sell Stock
  9. C#3 分部方法,简单标记一下
  10. GoldVideo-基于Web Assembly的H265播放器实现
  11. 电梯控制技术综合实训装置QY-DT721
  12. 海思官方SDK Hi3516EV200_SDK_V1.0.1.0的编译教程
  13. ip_forward与路由转发
  14. 学计算机语言步骤,如何学编程语言?好菜鸟学习编程语言的步骤
  15. 大数据项目篇--电商用户画像
  16. matlab伽玛分布如何表示,伽玛分布(伽玛分布的性质及其应用)
  17. Qt编写地图综合应用59-经纬度坐标纠偏
  18. 【POJ 3179】 Corral the Cows
  19. 华为HCIA-datacom 学习笔记11——AAA原理与配置
  20. 中了敲诈者病毒,文件恢复有可能吗?你长着一张被勒索木马敲诈的脸?

热门文章

  1. PySide6 将.ui文件编译为.py文件
  2. [视频] 凯文.凯利 - 镜像世界: 未来互联网畅想 | 2021 百度 Create 大会
  3. 特斯拉充电电流设置多大_特斯拉家用充电桩参数及规格
  4. 马斯克个人2021年向美国缴税110亿美元,特斯拉却是0元
  5. 华为无线ap3010dn-agn刷成胖ap
  6. el-cascader多层级联点击动态加载子级
  7. 计算机b级考试基础知识,全国计算机等级考试一级b
  8. [嘭嘭养成记]5. 基于蒙皮网格顶点绑定骨骼权重的模型切分
  9. 【51单片机STC89C52】IO口模拟PWM控制SG90舵机
  10. oracle ebs 的预克隆