我看了CSDN和博客园,代码。除去格式以外。如果能够保存照片就好啦。

我观察数据大多存放在<p>标签里面。现在如果能够去掉p标签的同时。保留住<img>标签就好啦。
【感觉要用正则表达式】
我拿出这两个链接,你可以看看:
CSDN:https://blog.csdn.net/darkhq/article/details/88989236
博客园:https://www.cnblogs.com/anbus/p/10148852.html

以CSDN为例子:

<p><img alt="" class="has" height="449" src="https://img-blog.csdnimg.cn/20190403103117694.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0RhcmtIUQ==,size_16,color_FFFFFF,t_70" width="738" /></p>

主要就是,既要保留img标签里面的图片链接。又要去掉所有的其他标签、

查找来筛选:

src="https://img-blog.csdnimg.cn/20190403103117694.png?x-oss-

结果有一个双引号。【虽然留着也可以】

但是,我并不想保留。

头大了好久,终于看到了一个用单引号包裹着的。

于是,我就想试试。结果成功了!

p = re.findall('src="(.*?)"/>', str(p))#匹配!

传送:

https://blog.csdn.net/weixin_42859280/article/details/104868547

https://blog.csdn.net/weixin_42859280/article/details/104868459

爬虫正则表达式遇到的困难相关推荐

  1. python爬虫正则表达式实例-python爬虫 正则表达式解析

    这篇文章主要介绍了python爬虫 正则表达式解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 - re.I # 忽略大小写 - re.M # 多 ...

  2. 【笔记】5、初学python3网络爬虫——正则表达式的基本使用

    python3网络爬虫--正则表达式的基本使用 学习指引:视频教程<python3网络爬虫实战> 为了避免学习后短时间内遗忘,让自己随时可以查阅前方自己学过的知识,特意注册csdn博客,方 ...

  3. 爬虫 | 正则表达式提取腾讯教育新闻链接及图片链接

    前面的爬虫都是通过标签来爬取的,今天就分享一个小例子使用正则表达式来提取网页信息.如果你对正则表达式不熟悉,可以查看我之前写的R正则表达式这篇文章.它对R几个常用正则表达式进行了详尽的解释,包括参数说 ...

  4. java 网络爬虫 正则表达式_【干货】Java网络爬虫基础知识

    原标题:[干货]Java网络爬虫基础知识 引言 Java 网络爬虫具有很好的扩展性可伸缩性,其是目前搜索引擎开发的重要组成部分.例如,著名的网络爬虫工具 Nutch 便是采用 Java 开发,该工具以 ...

  5. python爬虫正则表达式实例-使用正则表达式进行页面提取

    使用正则表达式进行页面提取 上节课我们学习了如何使用 BeautifulSoup 来解析页面,这节课我们来学习下如何使用正则来解析页面. 正则表达式的基本概念 正则表达式基本语法 正则表达式常用函数 ...

  6. python爬虫正则表达式实例-Python爬虫(十一)_案例:使用正则表达式的爬虫

    本章将结合先前所学的爬虫和正则表达式知识,做一个简单的爬虫案例,更多内容请参考:Python学习指南 现在拥有了正则表达式这把神兵利器,我们就可以进行对爬取到的全部网页源代码进行筛选了. 打开之后,不 ...

  7. python爬虫正则表达式实例-Python 正则表达式爬虫使用案例解析

    现在拥有了正则表达式这把神兵利器,我们就可以进行对爬取到的全部网页源代码进行筛选了. 下面我们一起尝试一下爬取内涵段子网站: 打开之后,不难看出里面一个一个非常有内涵的段子,当你进行翻页的时候,注意u ...

  8. python爬虫正则表达式实例-python爬虫学习三:python正则表达式

    python爬虫学习三:python正则表达式 1.正则表达式基础 a.正则表达式的大致匹配过程: 1.依次拿出表达式和文本中的字符比较 2.如果每一个字符都能匹配,则匹配成功:一旦有匹配不成功的字符 ...

  9. python爬虫 -- 正则表达式 与 Re模块的介绍

    Regular Expression,正则表达式,一种使用表达式的方式对字符串进行匹配的语法规则. 爬虫中我们抓取到的网页源代码本质上就是一个超长的字符串,想从里面提取内容.用正则再合适不过了. 正则 ...

最新文章

  1. 史上最全 Java 多线程面试题及答案
  2. 数字化转型战略中不可忽视“软因素”
  3. iOS下音视频通信-基于WebRTC
  4. docker-ce安装
  5. 变与不变: Undo构造一致性读的例外情况
  6. CES 2021落下帷幕 未来3年展会时间已公布
  7. 无法执行dex:多个dex文件定义了Lcom / myapp / R $ array;
  8. 4. jQuery 事件
  9. php 递归穿件文件夹,PHP递归复制整个文件夹
  10. 菜鸟学习C++之Console Application
  11. 测井曲线绘图显示算法总结——双缓冲技术
  12. 此图片来自QQ空间,未经许可不可与引用
  13. Cesium: 如何将倾斜摄影数据转换为3dTiles格式
  14. openjdk环境中java项目启动慢的问题
  15. Unity3d C# 代码动态设置(SetTexture)材质球(Material)贴图纹理(Texture)
  16. jquery插件整理篇(二)消息提示类jquery插件
  17. springboot教学工作量管理毕业设计-附源码221541
  18. Python中的可变对象和不可变对象
  19. 主板和机箱螺丝孔对不上?
  20. 王者荣耀服务器维护费用,王者荣耀服务器全线崩溃!事后只补偿100铭文!网友:卸载了...

热门文章

  1. 用机器学习还原《隐秘的角落》那些被修改的台词
  2. 4场直播,哈工大、亚马逊等大咖为你带来机器学习与知识图谱的内容盛宴
  3. 工作5年后才明白的道理:不起眼的技能中,藏着你的未来
  4. 当谈论迭代器时,我谈些什么?
  5. 抛弃VS Code,我还能用啥编辑器?| 技术头条
  6. 如何更好地玩转GitHub?
  7. 谷歌无人车之父刚推出的“无人驾驶入门”课,到底能学到啥?
  8. Spring 事务失效?看这篇文章就够了!
  9. 大厂也在用的 6种 数据脱敏方案,别做泄密内鬼
  10. zuul如果两个filter的order一样,是如何排序的?