一、背景

业务开发中可能需要将html的标签全部去掉,本文将多种方法综合在这里,供大家参考。

二、方法

2.1 纯正则方法

import java.util.regex.Matcher;
import java.util.regex.Pattern; public class HTMLSpirit{ public static String delHTMLTag(String htmlStr){ String regEx_script="<script[^>]*?>[\\s\\S]*?<\\/script>"; //定义script的正则表达式 String regEx_style="<style[^>]*?>[\\s\\S]*?<\\/style>"; //定义style的正则表达式 String regEx_html="<[^>]+>"; //定义HTML标签的正则表达式 Pattern p_script=Pattern.compile(regEx_script,Pattern.CASE_INSENSITIVE); Matcher m_script=p_script.matcher(htmlStr); htmlStr=m_script.replaceAll(""); //过滤script标签 Pattern p_style=Pattern.compile(regEx_style,Pattern.CASE_INSENSITIVE); Matcher m_style=p_style.matcher(htmlStr); htmlStr=m_style.replaceAll(""); //过滤style标签 Pattern p_html=Pattern.compile(regEx_html,Pattern.CASE_INSENSITIVE); Matcher m_html=p_html.matcher(htmlStr); htmlStr=m_html.replaceAll(""); //过滤html标签 return htmlStr.trim(); //返回文本字符串 }
}

2.2 使用  javax.swing.text.html.HTMLEditorKit

import java.io.IOException;
import java.io.FileReader;
import java.io.Reader;
import java.util.List;
import java.util.ArrayList;import javax.swing.text.html.parser.ParserDelegator;
import javax.swing.text.html.HTMLEditorKit.ParserCallback;
import javax.swing.text.html.HTML.Tag;
import javax.swing.text.MutableAttributeSet;public class HTMLUtils {private HTMLUtils() {}public static List<String> extractText(Reader reader) throws IOException {final ArrayList<String> list = new ArrayList<String>();ParserDelegator parserDelegator = new ParserDelegator();ParserCallback parserCallback = new ParserCallback() {public void handleText(final char[] data, final int pos) {list.add(new String(data));}public void handleStartTag(Tag tag, MutableAttributeSet attribute, int pos) { }public void handleEndTag(Tag t, final int pos) {  }public void handleSimpleTag(Tag t, MutableAttributeSet a, final int pos) { }public void handleComment(final char[] data, final int pos) { }public void handleError(final java.lang.String errMsg, final int pos) { }};parserDelegator.parse(reader, parserCallback, true);return list;}public final static void main(String[] args) throws Exception{FileReader reader = new FileReader("java-new.html");List<String> lines = HTMLUtils.extractText(reader);for (String line : lines) {System.out.println(line);}}
}

2.3 使用Jsoup框架

import java.io.IOException;
import java.io.FileReader;
import java.io.Reader;
import java.io.BufferedReader;
import org.jsoup.Jsoup;public class HTMLUtils {private HTMLUtils() {}public static String extractText(Reader reader) throws IOException {StringBuilder sb = new StringBuilder();BufferedReader br = new BufferedReader(reader);String line;while ( (line=br.readLine()) != null) {sb.append(line);}String textOnly = Jsoup.parse(sb.toString()).text();return textOnly;}public final static void main(String[] args) throws Exception{FileReader reader = new FileReader("C:/RealHowTo/topics/java-language.html");System.out.println(HTMLUtils.extractText(reader));}

2.4 使用Apache Tika

mport java.io.FileInputStream;
import java.io.InputStream;import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.Parser;
import org.apache.tika.sax.BodyContentHandler;
import org.xml.sax.ContentHandler;public class ParseHTMLWithTika {public static void main(String args[]) throws Exception {InputStream is = null;try {is = new FileInputStream("C:/Temp/java-x.html");WriteOutContentHandler contenthandler = new WriteOutContentHandler(100000000);Metadata metadata = new Metadata();Parser parser = new AutoDetectParser();parser.parse(is, contenthandler, metadata, new ParseContext());System.out.println(contenthandler.toString());}catch (Exception e) {e.printStackTrace();}finally {if (is != null) is.close();}}
}

注意这里经过本人实验有个小坑,WriteOutContentHandler参数是限制的字符数,这个如果不设置默认是1万,超过会报异常。

具体的jar包请自行到中央仓库里搜索依赖配置

https://search.maven.org/  和 https://mvnrepository.com/

三、提供一个工具类

可以将资源路径的文本类型文件(如json/html)读取成字符串

public class ResourceUtil {/*** 根据当前类路径,获取资源文件夹对应文件的所有字符串** @param currentClass 如 this.class* @param resourcePath 如 /data/json/xxx.json (相对于resources文件夹)*/public static String resource2String(Class currentClass, String resourcePath) throws IOException {return IOUtils.toString(new FileReader(new File(currentClass.getResource(resourcePath).getFile())));}}

四、总结

这里提供了多种去除html标签的方式,建议先测试好再实际使用。

测试时读取资源文件可以使用第三节提供的工具类。

如果正则表达式无法满足你的需求,自己进一步优化即可。

如果其他方式仍然有特殊情况没有考虑到,可以自己先用正则去除这种特殊情况。

总之这里只是一种参考,提供了多种解决方案。

创作不易,如果觉得本文对你有帮助,欢迎点赞,欢迎关注我,如果有补充欢迎评论交流,我将努力创作更多更好的文章。

另外欢迎加入我的知识星球,知识星球ID:15165241 一起交流学习。

https://t.zsxq.com/Z3bAiea  申请时标注来自CSDN。

Java去掉html标签的各种姿势相关推荐

  1. java去掉html中的图片,java去掉html标签工具

    java去掉html标签工具 [2021-01-31 16:18:56]  简介: php去掉所有标签的方法:1.使用"strip_tags"方法去掉HTML及PHP的标记:2.通 ...

  2. java字符串去掉html标签

    说明:content,是含有html标签的字符串. String str = content.replaceAll("\\&[a-zA-Z]{1,10};", " ...

  3. python去掉html标签_python 去除html标签的几种方法

    #! /usr/bin/python # -*- coding:utf-8 -*- ''' created on 2013-12-18 @author: java ''' import re from ...

  4. html标签转换字符类型,java把html标签字符转换成普通字符(反转换成html标签)

    package net.jasonjiang.web; import org.junit.Test; import org.springframework.web.util.HtmlUtils; /* ...

  5. java 转换html标签,java转化html标签

    java转化html标签 [2021-02-08 19:59:19]  简介: php去除nbsp的方法:首先创建一个PHP代码示例文件:然后通过"preg_replace("/( ...

  6. java 拼html页面返回,java返回html标签

    java返回html标签 [2021-02-03 19:08:44]  简介: php删除html标签的方法:可以利用strip_tags函数来进行删除,如[strip_tags("Hell ...

  7. java 保存html页面,java保存html标签

    java保存html标签 [2021-02-02 19:39:15]  简介: php去除nbsp的方法:首先创建一个PHP代码示例文件:然后通过"preg_replace("/( ...

  8. java输出中写html标签,java 输出html标签

    java 输出html标签 [2021-02-01 07:37:44]  简介: php去除nbsp的方法:首先创建一个PHP代码示例文件:然后通过"preg_replace("/ ...

  9. html5ul消除圆点,overflow清楚浮动 + 去掉li标签的小圆点

    原文链接:http://blog.163.com/qqabc20082006@126/blog/static/22928525201031211212955/ 测试用例: 无标题文档 #wrapper ...

最新文章

  1. 如何利用装饰者模式在不改变原有对象的基础上扩展功能
  2. 计算机组成原理主存储器知识点,【考研】2020考研:计算机组成原理知识点主存储器与CPU的连接...
  3. 【机器学习基础】常见二分类损失函数、距离度量的Python实现
  4. matlab中boxplot函数的参数设置_matlab中boxplot字体大小设置
  5. read web.config
  6. 老年痴呆与LDL-C 低密度脂蛋白
  7. python完成‘21点游戏’
  8. python全排列速度最快_python 写的两种打印全排列的方法速度对比
  9. SpringMVC 文件上传及下载
  10. 内部类、抽象类、接口基本知识详解
  11. opencv 作图函数
  12. 零基础带你学习MySQL—not null 非空(二十四)
  13. python购物车进阶(函数)
  14. mongodb添加登陆验证
  15. 淘宝店铺装修如何实现全屏轮播
  16. 兰大《银行会计学》命题作业离线作业
  17. C++:实现量化daycounters 日计数器测试实例
  18. 读《楚汉传奇》中历史故事悟项目管理
  19. python geometry用法_Arcgis python geometry
  20. 射影几何----交比是最基本的射影不变量

热门文章

  1. Mysql索引优化实战一
  2. R语言中读取excel数据的常用方式有哪些?
  3. linux免安装版,Linux下配置免安装版Tomcat
  4. 前端使用支付宝和微信进行移动支付
  5. 用JS做了一个贪吃蛇小游戏,求顶贴..
  6. 深度学习(4)--手写数字mnist实现
  7. 关于图片阿里云OSS的处理x-oss-process
  8. 启动磁盘不能被分区或恢复成单个分区-解决了
  9. EasyCVR构建城市污水在线监测平台,助力城市智慧环保监管
  10. MAX3485使用记录