大家好,之前我在写程序的时候遇到一个需求,就是获取到一段源代码
然后需要把这段源代码只显示文本,其他HTML代码全部清楚掉。
这种我们应该怎么办呢?
以下是我个人的方法,代码如下:
#coding:utf8
# 清除HTML所有格式并且 删除换行与回车等,只显示文本
import re
def HtmlFormat_Clear(content="你需要清除HTML格式的内容"):dr = re.compile(r'<[^>]+>',re.S)  #将正则表达式编辑成一个对像  意思是从<开始匹配,匹配所有不是>的内容,至到出现>为止content = dr.sub('',content)  #把所有<>之间的所有字符全替换为空content=re.sub('n','',content)   #去除换行content=re.sub('s','',content)  #去除空白字符  s是指空白,包括空格、换行、tab缩进等所有的空白  S刚好相反content=re.sub('&nbsp;','',content)   #去除空格print content# return content
if __name__=="__main__":content="""<p style="font-family:'Microsoft YaHei', SimSun, Helvetica, sans-serif;font-size:14px;"><b>所属公司:</b>深圳吉祥</p><p style="font-family:'Microsoft YaHei', SimSun, Helvetica, sans-serif;font-size:14px;"><b>从业经历:</b>10年</p><p style="font-family:'Microsoft YaHei', SimSun, Helvetica, sans-serif;font-size:14px;"><strong>擅长风格</strong>:现代简约,欧式,新中式,现代奢华,美式 ,地中海</p><p style="font-family:'Microsoft YaHei', SimSun, Helvetica, sans-serif;font-size:14px;"><strong>主要作品</strong>:公园大地 万科城别墅 星河时代&nbsp; 百合盛世洋房 保利上城</p><p style="font-family:'Microsoft YaHei', SimSun, Helvetica, sans-serif;font-size:14px;"><strong>设计理念</strong>:<span>设计以人为本,,细节决定完美,设计的精髓能使设计更具有个性化和专业化。</span></p>"""HtmlFormat_Clear(content)

为了方便举例,我直接随便找了一段源代码,也就是content这段字符串
大家可以看一下运行后的效果:

如上图,运行之后得到了我们需要的文本文字如下:所属公司:深圳吉祥从业经历:10年擅长风格:现代简约,欧式,新中式,现代奢华,美式,地中海主要作品:公园大地万科城别墅星河时代百合盛世洋房保利上城设计理念:设计以人为本,,细节决定完美,设计的精髓能使设计更具有个性化和专业化
其实代码非常简单,只用了大概五行代码搞定,python真的很方便,大家以后可以用我写好的,直接拿来调用,拿走不谢!
好了,今天就分享到这里,你学会了吗?
李亚涛简介-一个没有才华的python程序员,关注我学习更多python知识

html 换行_李亚涛:清除HTML所有格式并且删除换行与回车,只显示文本相关推荐

  1. python爬虫保存图片到指定文件夹_李亚涛:python抓取某房源户型图并自动保存到文件夹...

    大家好,今天来给大家分享一下如何抓取某房产网站房源户型图的所有图片,而且自动以房源名称命名一个文件夹,把所有图片放到文件夹中. 大概的思路是: 1.获取网页源代码 2.获取图片地址与房源名称 3.在当 ...

  2. python网页编程测试_李亚涛:python编写友情链接检测工具

    原标题:李亚涛:python编写友情链接检测工具 友情链接是网站外链的非常重要的来源,作为一个网站运营推广人员,需要定期对网站的友链进行更新与检查,如果有人下掉你的链接,这样你可以及时的检测并清除掉. ...

  3. python 批量查询网页导出结果_李亚涛:python批量查询网页收录情况并计算收录率...

    想要一个关键词有排名 第一件事就是保证有一个页面布局了这个关键词,而且这个页面已经被收录了. 所以,我们网站在更新一些信息的时候,比如发布资讯,如果没有被收录,那就无法获得排名,也就没办法带来流量. ...

  4. python中文件分类_李亚涛:python实现电脑文件一键分类

    原标题:李亚涛:python实现电脑文件一键分类 python还挺好玩的,可以做蛮多事情! 比如桌面非常非常多的文件,想要整理一下,也可以用到python 比如我就自己写了个程序,整理文件就是运行一下 ...

  5. python网页优化_李亚涛:python辅助seo优化让你更轻松

    原标题:李亚涛:python辅助seo优化让你更轻松 一个专业的seo其实要学习非常多的知识点,因为SEO涉及的东西比较多: 学习seo要掌握哪些技能呢? 之前我写过一篇文章有给大家介绍:0基础学SE ...

  6. 李亚涛:python抓取某房源户型图并自动保存到文件夹

    大家好,今天来给大家分享一下如何抓取某房产网站房源户型图的所有图片,而且自动以房源名称命名一个文件夹,把所有图片放到文件夹中. 大概的思路是: 1.获取网页源代码 2.获取图片地址与房源名称 3.在当 ...

  7. python3x完全兼容python2x_李亚涛:一台电脑python2x与python3x如何都可以用?

    大家知道python版本分为python2和python3. 官方宣布,2020 年 1 月 1 日, 停止 Python 2 的更新. Python 2.7 被确定为最后一个 Python 2.x ...

  8. 李亚涛:python判断日志中的IP是否为百度蜘蛛

    大家好,今天给大家分享一下如何利用python判断网站日志中的IP是否为百度蜘蛛IP 大家知道网站日志其实是后缀是.log的文件,自己有网站的可以下载日志,比如我下载的日志文件: 打开如下图: 转存失 ...

  9. 李亚涛:python知道长尾关键词挖掘工具

    之前因为要写文章,有时候需要采集一些数据,还有一些关键词作为参考,所以就想到了通过百度知道来查询,后来就自己编写了一个知道长尾关键词挖掘的工具 觉得还蛮好用的,可以根据关键词一键采集所有长尾巴词. 先 ...

最新文章

  1. 刷爆全网的动态条形图,原来 5 行 Python 代码就能实现!
  2. JDBC编程专题4之JDBC驱动程序类型
  3. mysql聚合函数不存在的数据_SELECT子句中不存在聚合函数时的GROUP BY行为
  4. 发布一个很COOL的图片验证码程序[含源码]
  5. boost::hof::apply_eval用法的测试程序
  6. [CF995F] Cowmpany Cowmpensation(树形dp,拉格朗日插值)
  7. 可以直接考甲级吗_成人高考可以考本科吗?成人高考可以考研究生吗?
  8. 搜索的php mysql代码生成器_四款强大的PHP代码生成器
  9. mysql 权限 机器_msyql 权限配置 (mysql 其他机器连不上 )
  10. 不懂 NumPy 算什么 Python 程序员? | CSDN 博文精选
  11. ======第一章操作系统引论======
  12. linux ftp解压命令 cannot fid or open,系统中无卷
  13. java 多线程为什么不建议使用onstop onsuspend_java多线程stop,suspend使用代码实际例子...
  14. spring boot redis分布式锁
  15. 惠普暗影精灵2更新bios系统,防止电池鼓包
  16. typora输入LATEX数学公式语法总结
  17. 后台业务管理系统高保真Axure原型模板
  18. 徐思 201771010132
  19. 云存储——fileserve
  20. 杨永信和他荒唐至极的 “网瘾电击疗法”

热门文章

  1. 苹果ios15.4RC版发布:新增口罩面容解锁功能
  2. 上海市消保委:春节长假期间 共受理消费者投诉4600件
  3. 对抗微软?索尼36亿美金收购游戏开发商Bungie
  4. 贾跃亭:在性能、奢华和科技综合评比中 FF 91战胜了奔驰S迈巴赫、库里南
  5. 华为与奔驰展开合作 HMS for Car登陆S级轿车
  6. 曾是微信最大对手的它,如今却黯然退场,一代即时通讯App就此谢幕!
  7. iPhone销售额第四财季同比下滑21% 苹果市值蒸发约千亿美元
  8. 中国“鸭王”失宠的第8年,终于撑不住了!
  9. 三星Galaxy Note 20相机细节曝光:这个镜头略显鸡肋或被舍弃
  10. 疫情下的十大堵城:复工后整体拥堵下降37.3%