首先放结果:

(\n|[ \t])*<([^>"']*|"[^"]*"|'[^']*')*>(\n|[ \t])*

创作步骤:

  1. 最简单最基础的匹配模式:

    <[^>]*>

  2. 如果标签中的文本属性中含有 <> 字符怎么办呢?一开始考虑用平衡组,想了一下感觉杀鸡用牛刀,直接选用了 "[^"]*" 模式:
    <([^>"]*|"[^"]*")*>

  3. 同理,增加 '[^']*' 模式:
    <([^>"']*|"[^"]*"|'[^']*')*>

  4. 按道理到了这里就可以结束了,如果想要一次性到位将多余的换行和前导后导空白也匹配上的话可以略做修饰:
    (\n|[ \t])*<([^>"']*|"[^"]*"|'[^']*')*>(\n|[ \t])*

  5. 将所有匹配到的文本全部替换为空文本即可。

转载于:https://www.cnblogs.com/rexfield/p/9185630.html

匹配标签的正则(用于抽取纯文本)相关推荐

  1. html中如何显示纯文本,从Html中取出纯文本

    需求来源 从后台返回的数据是一个数组,每个数组元素是html字符串,可以显示在一个UIWebView中. 在显示这个html字符串的详情页面的上一级是一个列表,展示标题和内容简介.但是,后台返回的数据 ...

  2. 从html富文本中提取纯文本

    其实从html富文本中提取纯文本很简单,富文本基本上是使用html标签给文本加上丰富多彩的样式. 所以只需要将富文本字符串中的"<.....>"标签剔除,即可得到纯文本 ...

  3. 使用正则 去除标签, 提取HTML 纯文本

    场景: 提取HTML中纯文本 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN" "http://ww ...

  4. IOS使用正则表达式去掉html中的标签元素,获得纯文本

    IOS使用正则表达式去掉html中的标签元素,获得纯文本 content是根据网址获得的网页源码字符串 NSRegularExpression *regularExpretion=[NSRegular ...

  5. explode php 正则,php用preg_replace和explode将li列表分割成纯文本数组

    下面有一段html li 标签列表: $liStr=' 001002003004005 '; 需求是将这些列表转换成纯文本数组,例如: ["001","002" ...

  6. php匹配图片,PHP正则匹配img及标签各属性值(匹配图片函数)

    有一个项目要获取页面中所有img标签中的图片地址,这里我们使用到了preg_match_all正则函数,然后看我下面的一些参数即可实现了. 例 代码如下 复制代码 $ext = 'jpg|jpeg|g ...

  7. 文本处理去除html标签,删除html标签得到纯文本可处理嵌套的标签

    方法基本上来自THinkphp中的源码,但是被我修改了一下 /* *@Description:删除HTML标签,得到纯文本.可以处理嵌套的标签 * */ class deleteHtmlTags{ p ...

  8. web爬虫,scrapy模块标签选择器下载图片,以及正则匹配标签

    标签选择器对象 HtmlXPathSelector()创建标签选择器对象,参数接收response回调的html对象 需要导入模块:from scrapy.selector import HtmlXP ...

  9. 4、web爬虫,scrapy模块标签选择器下载图片,以及正则匹配标签

    标签选择器对象 HtmlXPathSelector()创建标签选择器对象,参数接收response回调的html对象 需要导入模块:from scrapy.selector import HtmlXP ...

最新文章

  1. python中plot实现即时数据动态显示方法_python中plot实现即时数据动态显示方法
  2. boost::log::attribute_value_set用法的测试程序
  3. mysql 日期查询今天_Mysql 日期查询今天、昨天、近7天、近30天、本月、上一月、本季...
  4. python -- join()
  5. hdu5486 Difference of Clustering 暴力
  6. 解决一个用Idea的Docker插件远程部署SpringBoot的失败问题
  7. 《2019年数据及存储发展研究报告》十大洞察
  8. Cocos2dx游戏源码合集
  9. 信息学奥赛一本通 1196:踩方格 | OpenJudge NOI 2.6 4982:踩方格
  10. shell+curl+fortune+pushplus–>每日一言
  11. 第四周day19-三剑客之awk
  12. HashMap 底层源码详解(jdk1.8)
  13. CTF-隐写术(七)
  14. halcon提取区域的拐点、折点
  15. 使用qt linguist设置双语配置
  16. QGIS使用之基本介绍和安装教程
  17. 上转换纳米颗粒无机复合材料中近红外调控研究应用
  18. 翻译_第五章:《Explainable Recommendation: A Survey and New Perspectives》可解释推荐系统综述
  19. html input跳转页面,html input type=button 页面跳转
  20. 有趣的手机软件分享,感兴趣的朋友来瞧瞧

热门文章

  1. python print时清除上一行_python3,如何用print清除行覆盖?
  2. 3D塔防游戏实现 5.2 3D怪物死亡(Feekood语言)
  3. 计算机往届生考研失败找工作,往届生考研心路:更多坎坷 更多回忆
  4. 知乎|推荐10个大学生需要收藏的良心网站
  5. AcWing 3725. 卖罐头
  6. 360流量卫士android 9,360流量卫士
  7. bzoj4605: 崂山白花蛇草水 权值线段树套KDtree
  8. 大连市金州区石河计算机学校,2021大连市金州区安全教育平台登录入口网址【最新】...
  9. 游戏服务器框架概括分析
  10. 06.简书项目实战三:详情页面和登录功能实现