获取百度图片

举例
这是一个百度图片的图片地址,我们想要保存这张图片需要一个正则来截取我们需要的内容

[{"ObjURL":"http:\/\/img0.imgtn.bdimg.com\/it\/u=1349097740,3761226168&fm=214&gp=0.jpg",

我需要从上边的内容里截取出以下内容

http:\/\/img0.imgtn.bdimg.com\/it\/u=1349097740,3761226168&fm=214&gp=0.jpg
# urls = re.findall('"objURL":"(.*?jpg)"',html, re.S)

这是写的第一版,出现一些问题,会截取一些类似下面这样的内容

http:\/\/img0.imgtn.bdimg.com\/it\/u=1349097740,3761226168&fm=214&gp=0.JPG'      'type = jpg'

刚开始分析,正则表达式忽略大小写来截取//这是错的,后边会解释
然后我去网上搜索了一些跟忽略大小写的正则表达式,但是大部分是忽略全部字母的,跟我的需求不一样

# pattern = re.compile(r'([a-z]+) ([a-z]+)', re.I)  # re.I 表示忽略大小写
# m = pattern.match('Hello World Wide Web')
# print(m)

这是我搜索到的内容

之后我经过试错,想明白

我需要的是在jpg得基础上加上JPG,两个集合没有交集, 我得增加限制条件

之后我考虑这个意外的结果和我理想的结果的区别,我发现是空格
我要的是没有空格的地址,是以http开头,以jpg结尾,中间不存在空格的下载地址

// An highlighted block
urls = re.findall('"objURL":"(\S*?jpg)"',html, re.S)  \S # 这个代表非空格符 注意是大写的S
# 这个符合http开头,jpg结尾,中间没有空格的要求

但是这样还是不够,有的地址是大写的JPG结尾

urls = re.findall('"objURL":"(\S*?jpg|\S*?JPG)"',html, re.S)  #能够识别jpg 和JPG

这是最终结果
思路就是在识别jpg的情况下加入|(或),以判定jpg的方法判断JPG

python爬虫-正则表达式识别jpg和JPG相关推荐

  1. python使用正则表达式识别大写字母并在大写字母前插入空格

    python使用正则表达式识别大写字母并在大写字母前插入空格 #python使用正则表达式识别大写字母并在大写字母前插入空格 import redef putSpace(input):# regex ...

  2. python爬虫正则表达式实例-python爬虫 正则表达式解析

    这篇文章主要介绍了python爬虫 正则表达式解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 - re.I # 忽略大小写 - re.M # 多 ...

  3. python爬虫正则表达式实例-python爬虫学习三:python正则表达式

    python爬虫学习三:python正则表达式 1.正则表达式基础 a.正则表达式的大致匹配过程: 1.依次拿出表达式和文本中的字符比较 2.如果每一个字符都能匹配,则匹配成功:一旦有匹配不成功的字符 ...

  4. python爬虫 正则表达式 re.finditer 元字符 贪婪匹配 惰性匹配

    测试代码1: main5.py # -*- coding: utf-8 -*- import reif __name__ == '__main__':# findall匹配字符串中所有的符合正则的内容 ...

  5. Python使用正则表达式识别代码中的中文、英文和数字实例演示

    Python 正则表达式识别代码中的中文.英文和数字 识别中文 识别英文 识别数字 拓展 在文本处理和数据分析中,有时候需要从代码中提取出其中包含的中文.英文和数字信息.正则表达式是一种强大的工具,可 ...

  6. python爬虫正则表达式爬取网页标签_Python爬虫实例(4)-用urllib、re和正则表达式爬取网页图片...

    文章目录简介正则爬虫Demo本例知识点 简介 python的第三方包极多种,尽量多看多用,对开发者来说是很好的.在爬虫领域,请求网页,除了requests包之外,还有urllib.request模块: ...

  7. python爬虫正则表达式实例-使用正则表达式进行页面提取

    使用正则表达式进行页面提取 上节课我们学习了如何使用 BeautifulSoup 来解析页面,这节课我们来学习下如何使用正则来解析页面. 正则表达式的基本概念 正则表达式基本语法 正则表达式常用函数 ...

  8. python爬虫正则表达式实例-Python爬虫(十一)_案例:使用正则表达式的爬虫

    本章将结合先前所学的爬虫和正则表达式知识,做一个简单的爬虫案例,更多内容请参考:Python学习指南 现在拥有了正则表达式这把神兵利器,我们就可以进行对爬取到的全部网页源代码进行筛选了. 打开之后,不 ...

  9. python爬虫正则表达式实例-Python 正则表达式爬虫使用案例解析

    现在拥有了正则表达式这把神兵利器,我们就可以进行对爬取到的全部网页源代码进行筛选了. 下面我们一起尝试一下爬取内涵段子网站: 打开之后,不难看出里面一个一个非常有内涵的段子,当你进行翻页的时候,注意u ...

最新文章

  1. 常用的上网 发帖技巧
  2. ssh(Spring+Spring mvc+hibernate)——DeptDaoImpl.java
  3. 算法高级(36)-如何利用并行提高算法的执行效率?
  4. 数据:以太坊2.0合约余额新增2944 ETH
  5. Fiddler笔记(4)浏览器抓包
  6. [python3 - package] lxml
  7. JAVAME 还有钱途么?
  8. sony android mp3播放器,劲能小钢炮!Sony ZX505 播放器动耳听:云音乐也HiFi
  9. 油猴(Tampermonkey)使用教程
  10. Python好酷|抓包神器 mitmproxy
  11. win8/8.1改win7原版系统全部教程之先把驱动精灵万能网卡版存到U盘(2)
  12. arcgis路网密度计算、提取中心线、面积计算
  13. 《论语》全译——八佾篇第三
  14. web调用身份证读卡器品牌选择及技术实现
  15. 512mb内存linux,linux 内存详解
  16. 初识LTE(五):完整的SISO LTE 物理层实现
  17. RBM代码Python
  18. roLabelImg安装与使用
  19. 计算机f1到f12作用,电脑f1到f12的功能键怎么切换?分别的功能是什么?
  20. EspTouchForiOS 的集成使用

热门文章

  1. 读书档案-深度思维:透过复杂直抵本质的跨越成长方法论
  2. 2021-2027中国光刻掩膜版市场现状及未来发展趋势
  3. 吴恩达机器学习笔记整理(Week6-Week11)
  4. 起底网红机器人波士顿动力
  5. cad2020找不到MSVCP140.dll怎么办,msvcp140.dll无法继续执行代码
  6. git生成SSH秘钥(git报错git@github.com: Permission denied (publickey). Could not read from remote repositor)
  7. 【uniapp】小程序导入公共类js包时报错
  8. 【码农学编曲】基础乐理 快速掌握(吐血整理 纯干货 适合小白)
  9. ETL的过程原理及数据仓库建设
  10. 基于物联网技术的智慧病房管理系统(二)—— RTOS、AHT20 与 按钮功能实现