原文

主要是java的正则表达式和replaceAll()方法。

/*** 去除文章内容页页面代码里的HTML标签* Created by yanyl on 2018/6/4.*/
public class DelTagsUtil {/*** 去除html代码中含有的标签* @param htmlStr* @return*/public static String delHtmlTags(String htmlStr) {//定义script的正则表达式,去除js可以防止注入String scriptRegex="<script[^>]*?>[\\s\\S]*?<\\/script>";//定义style的正则表达式,去除style样式,防止css代码过多时只截取到css样式代码String styleRegex="<style[^>]*?>[\\s\\S]*?<\\/style>";//定义HTML标签的正则表达式,去除标签,只提取文字内容String htmlRegex="<[^>]+>";//定义空格,回车,换行符,制表符String spaceRegex = "\\s*|\t|\r|\n";// 过滤script标签htmlStr = htmlStr.replaceAll(scriptRegex, "");// 过滤style标签htmlStr = htmlStr.replaceAll(styleRegex, "");// 过滤html标签htmlStr = htmlStr.replaceAll(htmlRegex, "");// 过滤空格等htmlStr = htmlStr.replaceAll(spaceRegex, "");return htmlStr.trim(); // 返回文本字符串
    }/*** 获取HTML代码里的内容* @param htmlStr* @return*/public static String getTextFromHtml(String htmlStr){//去除html标签htmlStr = delHtmlTags(htmlStr);//去除空格" "htmlStr = htmlStr.replaceAll(" ","");return htmlStr;}public static void main(String[] args){String htmlStr= "<script type>var i=1; alert(i)</script><style> .font1{font-size:12px}</style><span>少年中国说。</span>红日初升,其道大光。<h3>河出伏流,一泻汪洋。</h3>潜龙腾渊, 鳞爪飞扬。乳 虎啸  谷,百兽震惶。鹰隼试翼,风尘吸张。奇花初胎,矞矞皇皇。干将发硎,有作其芒。天戴其苍,地履其黄。纵有千古,横有" +"八荒。<a href=\"www.baidu.com\">前途似海,来日方长</a>。<h1>美哉我少年中国,与天不老!</h1><p>壮哉我中国少年,与国无疆!</p>";System.out.println(getTextFromHtml(htmlStr));}}

main输出内容:

少年中国说。红日初升,其道大光。河出伏流,一泻汪洋。潜龙腾渊,鳞爪飞扬。乳虎啸谷,百兽震惶。鹰隼试翼,风尘吸张。奇花初胎,矞矞皇皇。干将发硎,有作其芒。天戴其苍,地履其黄。纵有千古,横有八荒。前途似海,来日方长。美哉我少年中国,与天不老!壮哉我中国少年,与国无疆!

后注:本文来源网上转载,为交流学习之用。如有侵权,联系614506425@qq.com删除。

转载于:https://www.cnblogs.com/xiaoshen666/articles/10641002.html

java 去除HTML中的所有标签,获取TEXT文本相关推荐

  1. java过滤html标签获取纯文本信息

    转载自 java过滤html标签获取纯文本信息 package com.lyt.base.util;import java.util.regex.Pattern;public class Filter ...

  2. Java去除字符串中空格的方法详解

    昨天写了一个关于Excel文件处理的脚本,在字符串匹配功能上总是出现多余不正确的匹配,debug调试之后,发现一个坑. 代码中字符串使用了replaceAll()方法,去除了所有空格(其中包括:首尾空 ...

  3. php去除字符串样式,php去除字符串中的HTML标签方法总结

    php去除字符串中的HTML标签方法有很多的今天在做一个采集小功能时发现了有N种方法,下面我为各位整理一下有原创的也有整理的,希望对大家有帮助. 先来看自己的写法  代码如下 复制代码 str_rep ...

  4. VBA读取html表格内容,科学网—VBA读取word文档表格中table的cell的text文本 - 付安民的博文...

    VBA读取word文档表格中table的cell的text文本 已有 11546 次阅读 2010-6-4 16:40 |个人分类:学习篇|系统分类:科研笔记 Sub Readtable() Dim ...

  5. java如何去掉html标签_Java后端去掉HTML标签获取纯文本-Fun言

    今天又对我的博客首页进行了一次版本的更新,使其自适应屏幕,获得更好的用户体验,然后就出现点小问题,那就是原来的摘要是人为添加的,有长有短,对自适应屏幕有影响,所以我们现在是截取文章的前200个字来完成 ...

  6. java 去除数组中重复的元素

    要求:清除数组中重复的元素 思路:因为开始时我以为是不能用集合(使用集合的方式在文章底部),所以绞尽脑汁在不用集合的情况下去除数组中重复的元素,需要些一个去除重复内容的方法,我首先想到的的需要一个存储 ...

  7. java全文检索word中的内容_java获取word里面的文本

    需求场景 开发的web办公系统如果需要处理大量的Word文档(比如有成千上万个文档),用户一定提出查找包含某些关键字的文档的需求,这就要求能够读取 word 中的文字内容,而忽略其中的文字样式.表格. ...

  8. Java 去除字符串中乱码

    浅记一下 处理去除字符串中乱码可以使用正则表达式,配合unicode 举一个小的例子就是, 我要从包含乱码的字符串中提取非乱码字符,就可以用以下正则语句配合replaceAll方法使用 正则表达式的意 ...

  9. 从富文本中截取图片_JS 获取富文本中的第一张图片 (正则表达式)

    JS 获取富文本中的第一张图片 (正则表达式) JS 获取富文本中的第一张图片 url 正则公式及去除字符串里面的 html 标签 后台发来一个富文本字符串里面可能包含了 0,1,2,3... 个图片 ...

最新文章

  1. 链表问题(6)-----排序
  2. 筷子兄弟--11度青春系列电影之《老男孩》
  3. 【收藏】部署Kubernetes(k8s)时,为什么要关闭swap、selinux、防火墙?
  4. QT通过JavaScript动态创建QML对象
  5. 机器学习之数据预处理
  6. 仿豆丁百度文库网页版阅读器完整解决方案
  7. arraychangekeycase php,浅谈php数组array_change_key_case() 函数和array_chunk()函数
  8. 旷视COCO获奖团队亲述:我们是如何两年拿下7个冠军的
  9. 为什么数据可视化很重要
  10. 硬核图书系列:《Spring Boot编程思想(核心篇)》
  11. SVN自动定时更新方法
  12. linux pro*c环境配置,Pro*C 环境配置(RedHat +Oracle 10g)
  13. 佳能600D入门秘籍(三)
  14. 年仅30岁!腾讯游戏程序员毛星云意外身故。。。
  15. H.265流媒体播放器EasyPlayer.js的属性、方法及事件的调用汇总
  16. 最新AI产品经理求职动态:卡年龄、卡学历,这么卷,怎么办?
  17. 51 PWM调速蓝牙小车
  18. php转为图片,php中base64转换为图片的方法
  19. Rimworld Mod教程 第十一章:术语名字
  20. 陈怡暖:非农克星LMCI数据今晚出炉

热门文章

  1. Google 图片搜索算法
  2. 同程旅行Hadoop集群跨机房迁移实践
  3. 如何用代理解决api接口跨域问题
  4. 【转】我都30岁了,零基础想转行去学编程,靠谱吗?
  5. 大学的python选修课好学吗_中国大学MOOC(慕课)_用Python玩转数据_章节考试选修课答案...
  6. 毕业礼物——“广工云毕业”小程序开发
  7. 一种基于模板匹配的图像配准方法
  8. 量子计算机与易经,易经卦象的演化过程,就是一个量子计算机模型
  9. java分层窗格_java_拆分窗格_JSplitPane_图形界面
  10. linux 安装配置java环境 jdk1.6 jdk-6u45-linux-x64.bin