Java去掉html标签的各种姿势
一、背景
业务开发中可能需要将html的标签全部去掉,本文将多种方法综合在这里,供大家参考。
二、方法
2.1 纯正则方法
import java.util.regex.Matcher;
import java.util.regex.Pattern; public class HTMLSpirit{ public static String delHTMLTag(String htmlStr){ String regEx_script="<script[^>]*?>[\\s\\S]*?<\\/script>"; //定义script的正则表达式 String regEx_style="<style[^>]*?>[\\s\\S]*?<\\/style>"; //定义style的正则表达式 String regEx_html="<[^>]+>"; //定义HTML标签的正则表达式 Pattern p_script=Pattern.compile(regEx_script,Pattern.CASE_INSENSITIVE); Matcher m_script=p_script.matcher(htmlStr); htmlStr=m_script.replaceAll(""); //过滤script标签 Pattern p_style=Pattern.compile(regEx_style,Pattern.CASE_INSENSITIVE); Matcher m_style=p_style.matcher(htmlStr); htmlStr=m_style.replaceAll(""); //过滤style标签 Pattern p_html=Pattern.compile(regEx_html,Pattern.CASE_INSENSITIVE); Matcher m_html=p_html.matcher(htmlStr); htmlStr=m_html.replaceAll(""); //过滤html标签 return htmlStr.trim(); //返回文本字符串 }
}
2.2 使用 javax.swing.text.html.HTMLEditorKit
import java.io.IOException;
import java.io.FileReader;
import java.io.Reader;
import java.util.List;
import java.util.ArrayList;import javax.swing.text.html.parser.ParserDelegator;
import javax.swing.text.html.HTMLEditorKit.ParserCallback;
import javax.swing.text.html.HTML.Tag;
import javax.swing.text.MutableAttributeSet;public class HTMLUtils {private HTMLUtils() {}public static List<String> extractText(Reader reader) throws IOException {final ArrayList<String> list = new ArrayList<String>();ParserDelegator parserDelegator = new ParserDelegator();ParserCallback parserCallback = new ParserCallback() {public void handleText(final char[] data, final int pos) {list.add(new String(data));}public void handleStartTag(Tag tag, MutableAttributeSet attribute, int pos) { }public void handleEndTag(Tag t, final int pos) { }public void handleSimpleTag(Tag t, MutableAttributeSet a, final int pos) { }public void handleComment(final char[] data, final int pos) { }public void handleError(final java.lang.String errMsg, final int pos) { }};parserDelegator.parse(reader, parserCallback, true);return list;}public final static void main(String[] args) throws Exception{FileReader reader = new FileReader("java-new.html");List<String> lines = HTMLUtils.extractText(reader);for (String line : lines) {System.out.println(line);}}
}
2.3 使用Jsoup框架
import java.io.IOException;
import java.io.FileReader;
import java.io.Reader;
import java.io.BufferedReader;
import org.jsoup.Jsoup;public class HTMLUtils {private HTMLUtils() {}public static String extractText(Reader reader) throws IOException {StringBuilder sb = new StringBuilder();BufferedReader br = new BufferedReader(reader);String line;while ( (line=br.readLine()) != null) {sb.append(line);}String textOnly = Jsoup.parse(sb.toString()).text();return textOnly;}public final static void main(String[] args) throws Exception{FileReader reader = new FileReader("C:/RealHowTo/topics/java-language.html");System.out.println(HTMLUtils.extractText(reader));}
2.4 使用Apache Tika
mport java.io.FileInputStream;
import java.io.InputStream;import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.Parser;
import org.apache.tika.sax.BodyContentHandler;
import org.xml.sax.ContentHandler;public class ParseHTMLWithTika {public static void main(String args[]) throws Exception {InputStream is = null;try {is = new FileInputStream("C:/Temp/java-x.html");WriteOutContentHandler contenthandler = new WriteOutContentHandler(100000000);Metadata metadata = new Metadata();Parser parser = new AutoDetectParser();parser.parse(is, contenthandler, metadata, new ParseContext());System.out.println(contenthandler.toString());}catch (Exception e) {e.printStackTrace();}finally {if (is != null) is.close();}}
}
注意这里经过本人实验有个小坑,WriteOutContentHandler参数是限制的字符数,这个如果不设置默认是1万,超过会报异常。
具体的jar包请自行到中央仓库里搜索依赖配置
https://search.maven.org/ 和 https://mvnrepository.com/
三、提供一个工具类
可以将资源路径的文本类型文件(如json/html)读取成字符串
public class ResourceUtil {/*** 根据当前类路径,获取资源文件夹对应文件的所有字符串** @param currentClass 如 this.class* @param resourcePath 如 /data/json/xxx.json (相对于resources文件夹)*/public static String resource2String(Class currentClass, String resourcePath) throws IOException {return IOUtils.toString(new FileReader(new File(currentClass.getResource(resourcePath).getFile())));}}
四、总结
这里提供了多种去除html标签的方式,建议先测试好再实际使用。
测试时读取资源文件可以使用第三节提供的工具类。
如果正则表达式无法满足你的需求,自己进一步优化即可。
如果其他方式仍然有特殊情况没有考虑到,可以自己先用正则去除这种特殊情况。
总之这里只是一种参考,提供了多种解决方案。
创作不易,如果觉得本文对你有帮助,欢迎点赞,欢迎关注我,如果有补充欢迎评论交流,我将努力创作更多更好的文章。
另外欢迎加入我的知识星球,知识星球ID:15165241 一起交流学习。
https://t.zsxq.com/Z3bAiea 申请时标注来自CSDN。
Java去掉html标签的各种姿势相关推荐
- java去掉html中的图片,java去掉html标签工具
java去掉html标签工具 [2021-01-31 16:18:56] 简介: php去掉所有标签的方法:1.使用"strip_tags"方法去掉HTML及PHP的标记:2.通 ...
- java字符串去掉html标签
说明:content,是含有html标签的字符串. String str = content.replaceAll("\\&[a-zA-Z]{1,10};", " ...
- python去掉html标签_python 去除html标签的几种方法
#! /usr/bin/python # -*- coding:utf-8 -*- ''' created on 2013-12-18 @author: java ''' import re from ...
- html标签转换字符类型,java把html标签字符转换成普通字符(反转换成html标签)
package net.jasonjiang.web; import org.junit.Test; import org.springframework.web.util.HtmlUtils; /* ...
- java 转换html标签,java转化html标签
java转化html标签 [2021-02-08 19:59:19] 简介: php去除nbsp的方法:首先创建一个PHP代码示例文件:然后通过"preg_replace("/( ...
- java 拼html页面返回,java返回html标签
java返回html标签 [2021-02-03 19:08:44] 简介: php删除html标签的方法:可以利用strip_tags函数来进行删除,如[strip_tags("Hell ...
- java 保存html页面,java保存html标签
java保存html标签 [2021-02-02 19:39:15] 简介: php去除nbsp的方法:首先创建一个PHP代码示例文件:然后通过"preg_replace("/( ...
- java输出中写html标签,java 输出html标签
java 输出html标签 [2021-02-01 07:37:44] 简介: php去除nbsp的方法:首先创建一个PHP代码示例文件:然后通过"preg_replace("/ ...
- html5ul消除圆点,overflow清楚浮动 + 去掉li标签的小圆点
原文链接:http://blog.163.com/qqabc20082006@126/blog/static/22928525201031211212955/ 测试用例: 无标题文档 #wrapper ...
最新文章
- 如何利用装饰者模式在不改变原有对象的基础上扩展功能
- 计算机组成原理主存储器知识点,【考研】2020考研:计算机组成原理知识点主存储器与CPU的连接...
- 【机器学习基础】常见二分类损失函数、距离度量的Python实现
- matlab中boxplot函数的参数设置_matlab中boxplot字体大小设置
- read web.config
- 老年痴呆与LDL-C 低密度脂蛋白
- python完成‘21点游戏’
- python全排列速度最快_python 写的两种打印全排列的方法速度对比
- SpringMVC 文件上传及下载
- 内部类、抽象类、接口基本知识详解
- opencv 作图函数
- 零基础带你学习MySQL—not null 非空(二十四)
- python购物车进阶(函数)
- mongodb添加登陆验证
- 淘宝店铺装修如何实现全屏轮播
- 兰大《银行会计学》命题作业离线作业
- C++:实现量化daycounters 日计数器测试实例
- 读《楚汉传奇》中历史故事悟项目管理
- python geometry用法_Arcgis python geometry
- 射影几何----交比是最基本的射影不变量