//定义script的正则表达式
private static String regEx_script="<script[^>]*?>[\\s\\S]*?<\\/script>";

//定义style的正则表达式
private static String regEx_style="<style[^>]*?>[\\s\\S]*?<\\/style>";

//定义HTML标签的正则表达式
private static String regEx_html="<[^>]+>";

//定义空格回车换行符
private static String regEx_space = "\\s*|\t|\r|\n";//定义空格回车换行符

/**
* 验证名称中是否含有标签,并返回字符串
* @param htmlStr
* @return
*/
public static String delHTMLTag(String htmlStr) {
Pattern p_script = Pattern.compile(regEx_script, Pattern.CASE_INSENSITIVE);
Matcher m_script = p_script.matcher(htmlStr);
htmlStr = m_script.replaceAll(""); // 过滤script标签

Pattern p_style = Pattern.compile(regEx_style, Pattern.CASE_INSENSITIVE);
Matcher m_style = p_style.matcher(htmlStr);
htmlStr = m_style.replaceAll(""); // 过滤style标签

Pattern p_html = Pattern.compile(regEx_html, Pattern.CASE_INSENSITIVE);
Matcher m_html = p_html.matcher(htmlStr);
htmlStr = m_html.replaceAll(""); // 过滤html标签

Pattern p_space = Pattern.compile(regEx_space, Pattern.CASE_INSENSITIVE);
Matcher m_space = p_space.matcher(htmlStr);
htmlStr = m_space.replaceAll(""); // 过滤空格回车标签
return htmlStr.trim(); // 返回文本字符串
}
/**
* 获取标签中的字符串
* @param htmlStr
* @return
*/
public static String getTextFromHtml(String htmlStr){
htmlStr = delHTMLTag(htmlStr);
htmlStr = htmlStr.replaceAll("&nbsp;","");
//htmlStr = htmlStr.substring(0, htmlStr.indexOf("。")+1);
return htmlStr;
}

public static void main(String[] args) {
String str = "<html>alert(2)</html>";
System.out.println(getTextFromHtml(str));
}

转载于:https://www.cnblogs.com/yaomajor/p/6019570.html

java 去掉html/style/css等标签相关推荐

  1. JAVA去掉HTMl以及CSS样式

    封装方法如下 public String delHTMLTag(String htmlStr){ String regEx_style="<style[^>]*?>[\\s ...

  2. java去掉html中的图片,java去掉html标签工具

    java去掉html标签工具 [2021-01-31 16:18:56]  简介: php去掉所有标签的方法:1.使用"strip_tags"方法去掉HTML及PHP的标记:2.通 ...

  3. java 使用正则表达式过滤HTML中标签

    /*** 去掉文本中的html标签** @param inputString* @return*/public static String html2Text(String inputString) ...

  4. CSS常用标签·定位

    CSS常用标签,定位 display 属性设置元素如何显示. text-decoration 属性规定添加到文本的修饰. list-style属性,设置列表项标记的类型为空,即列表项前无标记.默认列表 ...

  5. java 去除HTML中的所有标签,获取TEXT文本

    原文 主要是java的正则表达式和replaceAll()方法. /*** 去除文章内容页页面代码里的HTML标签* Created by yanyl on 2018/6/4.*/ public cl ...

  6. Java去除掉HTML里面所有标签的两种方法——开源jar包和自己写正则表达式

    Java去除掉HTML里面所有标签,主要就两种,要么用开源的jar处理,要么就自己写正则表达式.自己写的话,可能处理不全一些自定义的标签.企业应用基本都是能找开源就找开源,实在不行才自己写-- 1,开 ...

  7. Div+CSS布局入门教程(五) 页面制作-用好border和clear 附加:1.DIV+CSS设计原则 2.DIV+CSS中标签ul ol li dl dt dd用法

    这一节里面,主要就是想告诉大家如何使用好border和clear这两个属性. 首先,如果你曾用过table制作网页,你就应该知道,如果要在表格中绘制一条虚线该如何做,那需要制作一个很小的图片来填充,其 ...

  8. CSS - 选择器(标签选择器、类选择器、ID选择器)

    CSS - 选择器(标签选择器.类选择器.ID选择器) <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN&qu ...

  9. 隐式 Style–CSS 在反爬虫中的应用

    文章作者:「夜幕团队 NightTeam」 - 戴煌金 润色.校对:「夜幕团队 NightTeam」 - Loco 什么是隐式 Style–CSS 先来唠唠什么是 隐式 Style–CSS: CSS中 ...

  10. css中如何设置hr的样式?css hr标签多种样式(图文)

    在对html网页进行美化的时候,肯定少不了要用的hr标签进行修饰页面,但默认的hr标签样式对页面的修饰起不到什么好的作用,有经验的前端工作者就会通过使用css样式来对hr标签进行一些美化的操作.那么如 ...

最新文章

  1. ECCV2020 | 即插即用,涨点明显!FPT:特征金字塔Transformer
  2. [置顶] 软件设计之道_读书纪要.doc
  3. html百度地图中心点不正确,百度地图嵌入弹出层,无法准确正确显示marker标记到中心位置的问题...
  4. CodeForces - 1168B Good Triple(思维+暴力)
  5. C++ windows 平台的 Hook
  6. dynamic的一些使用心得
  7. 怎么解决php页面编码问题,PHP页面编码问题
  8. GIL与线程进程小知识点
  9. [linux]centOS 7.6 安装ntp
  10. 计算机教育考试多少分及格,全国职称计算机考试多少分及格?
  11. js吧键值对变成对象_【面试题】和Vue.js有关的41个基础问题
  12. HFSS Wave Port设置
  13. varnish---vcl语法
  14. 存储容量及相关计算单位
  15. element-ui表格的滚动条样式修改(当固定table表格高度时默认滚动条样式太丑)
  16. 【英语】大学英语CET考试,听力部分2(长选项关键词,答题技巧总结)
  17. 雷军微博拧螺丝,CFO为粉丝数发愁
  18. InternalError: Failed to create session.錯誤及解決方式
  19. 懒汉式单例模式的多线程问题
  20. python 凸多边形面积

热门文章

  1. 【Knowledge Fragment】
  2. 基于麻雀算法的投影寻踪模型 - 附代码
  3. 【LeetCode】【字符串】题号:*12. 整数转罗马数字
  4. 《剑指offer》面试题46、47、49
  5. Conditional Generative Adversarial Nets论文翻译
  6. day7--pandas
  7. ArcGIS TIN地表面与栅格地表面的生成与互相转换
  8. shp文件各部分的含义和中文乱码解决
  9. 【ArcGIS|空间分析|网络分析】8 查找能够为需求点对提供服务的最佳路径
  10. 【ArcGIS|空间分析】志愿者分配管理区域内共享单车(全国大学生GIS技能大赛试题)