/*** 去掉文本中的html标签** @param inputString* @return*/public static String html2Text(String inputString) {if (StringUtils.isEmpty(inputString)) {return null;}String htmlStr = inputString;String textStr = "";java.util.regex.Pattern p_script;java.util.regex.Matcher m_script;java.util.regex.Pattern p_style;java.util.regex.Matcher m_style;java.util.regex.Pattern p_html;java.util.regex.Matcher m_html;java.util.regex.Pattern p_html1;java.util.regex.Matcher m_html1;try {String regEx_script = "<[\\s]*?script[^>]*?>[\\s\\S]*?<[\\s]*?\\/[\\s]*?script[\\s]*?>"; // 定义script的正则表达式{或<script[^>]*?>[\\s\\S]*?<\\/script>// }String regEx_style = "<[\\s]*?style[^>]*?>[\\s\\S]*?<[\\s]*?\\/[\\s]*?style[\\s]*?>"; // 定义style的正则表达式{或<style[^>]*?>[\\s\\S]*?<\\/style>// }String regEx_html = "<[^>]+>"; // 定义HTML标签的正则表达式String regEx_html1 = "<[^>]+";p_script = Pattern.compile(regEx_script,Pattern.CASE_INSENSITIVE);m_script = p_script.matcher(htmlStr);htmlStr = m_script.replaceAll(""); // 过滤script标签
p_style = Pattern.compile(regEx_style, Pattern.CASE_INSENSITIVE);m_style = p_style.matcher(htmlStr);htmlStr = m_style.replaceAll(""); // 过滤style标签
p_html = Pattern.compile(regEx_html, Pattern.CASE_INSENSITIVE);m_html = p_html.matcher(htmlStr);htmlStr = m_html.replaceAll(""); // 过滤html标签
p_html1 = Pattern.compile(regEx_html1, Pattern.CASE_INSENSITIVE);m_html1 = p_html1.matcher(htmlStr);htmlStr = m_html1.replaceAll(""); // 过滤html标签
textStr = htmlStr;// 替换&amp;nbsp;textStr = textStr.replaceAll("&amp;", "").replaceAll("nbsp;", "");} catch (Exception e) {System.err.println("Html2Text: " + e.getMessage());}return textStr;// 返回文本字符串}

java 使用正则表达式过滤HTML中标签相关推荐

  1. java用正则表达式判断字符串中是否仅包含英文字母、数字和汉字_灵思致远Leansmall的博客-CSDN博客_java判断字符串只包含数字字母

    import java.util.regex.Matcher; import java.util.regex.Pattern;public class StrValidate {// 纯数字priva ...

  2. java使用正则表达式获取字符串中的所有英文单词或数字

    偶然发现网上贴出的使用正则表达式获取字符串中的所有英文单词或数字的方法,很实用,就摘下来了 import java.util.regex.Pattern;   import java.util.reg ...

  3. java 通过正则表达式替换字符串中部分内容

    最近开发遇到个需求,需要使用正则来替换字符串中间的一部分内容,也是面向百度探索了一番,之前还没怎么在实际中用过正则_,这里记录一下. 话不多说,直接上代码(解释在后面): public static ...

  4. python 正则表达式过滤文本中的html标签 源代码解析

    #py2.7 #coding:utf-8import re import os import chardetdef filter_tag(htmlstr):re_cdata = re.compile( ...

  5. python文本筛选html_python 正则表达式过滤文本中的html标签 源代码解析

    #py2.7 #coding:utf-8 import re import os import chardet def filter_tag(htmlstr): re_cdata = re.compi ...

  6. java利用正则表达式提取字符串中的整数和小数部分

    最近开发遇到一个新的东西,就是前端传过来一个字符串,需要将里面的数字提取出来,倒腾了一天,最后还是没有倒腾出来,最后还是借鉴大佬的方法.记录一下. 首先是前端传来的字符串"小明通过扫码向你付 ...

  7. asp.net 用正则表达式过滤内容中的电话,qq,email

    /// <summary>         /// 去除标记         /// </summary>         /// <param name="H ...

  8. Java使用正则表达式从字符串中提取 IP 地址

    import java.util.regex.Matcher; import java.util.regex.Pattern;public class ExtractIP {public static ...

  9. java用正则表达式判断字符串中是否仅包含英文字母、数字和汉字

    /*判断字符串中是否仅包含字母数字和汉字       *各种字符的unicode编码的范围:      * 汉字:[0x4e00,0x9fa5](或十进制[19968,40869])      * 数 ...

最新文章

  1. Xcode终端常用的指令-终端输入
  2. 【Python】生成器有啥用?
  3. disconf(二):服务端使用总结
  4. sql 命令使用简单记录
  5. 过去一年顶级借贷服务商BTC总托管资产平均增长超700%
  6. MyBatis框架parameterType为哈希类型的别名映射和resultMap映射
  7. 蓝桥杯 ADV-154 算法提高 质数的后代
  8. PKM2 - PKManager (基于内容的个人知识管理工具) 5M 绿色免费
  9. Tomcat8.5访问HTML页面出现乱码
  10. 大连发展中韩跨境电子商务势在必行
  11. 学计算机到35岁后转行容易吗,本人已经35岁了,转行学IT风险是不是很大?
  12. 笔记本电脑需要计算机管理员提供的,笔记本电脑设置了管理员权限钉钉软件安装不了咋办呢...
  13. /var/log/journal日志清理
  14. 编写程序判断变量X的值 是偶数还是奇数,偶数buf为1,奇数buf为0
  15. java使用drawtext重叠_DrawText的使用
  16. 【概率论与数理统计 Probability and Statistics 8】—— 深入地理解二维随机变量及其分布函数、分布密度函数的意义
  17. 【Python+Pycharm】单词底部有波浪线,提示typo in word时
  18. ArcGIS中克里金插值操作
  19. Ecmoban.com坑爹的商创模板堂
  20. 蓝桥杯 试题 算法训练 无聊的逗

热门文章

  1. oracle链接字符串java,java连Oracle连接字符串写法
  2. 串口发送tcp数据 源端口号_三分钟基础知识:用动画给面试官解释 TCP 三次握手过程...
  3. 记录使用Spartan-6 FPGA进行一次3-8译码器实验
  4. Vue源码探究-全局API
  5. ROW_NUMBER() OVER()函数用法;(分组,排序),partition by
  6. 自定义Quartz超实用工具类
  7. 前端开发面试题--html
  8. No subject
  9. word中复制、双击打开编辑公式(Axmath/mathtype)出现卡死(无响应)现象的解决方案
  10. windows中PyCharm的安装和使用