使用爬虫爬取网站数据,有时会将HTML相关的标签也一并获取,如何将这些无关的标签去除呢,往下看:

直接写个Test类:

    void deleteHtmlTags() {//定义字符串String htmlStr = "<script type>var i=1; alert(i)</script><style> .font1{font-size:12px}</style><span>少年中国说。</span>红日初升,其道大光。<h3>河出伏流,一泻汪洋。</h3>潜龙腾渊, 鳞爪&nbsp;&nbsp;飞扬。乳 虎啸  谷,百兽震惶。鹰隼试翼,风尘吸张。奇花初胎,矞矞皇皇。干将发硎,有作&nbsp其芒。天戴其苍,地履其黄。纵有千古,横有" +"八荒。<a href=\"www.baidu.com\">前途似海,来日方长</a>。<h1>美哉我少年中国,与天不老!</h1><p>壮哉我中国少年,与国无疆!</p>";//定义script的正则表达式,去除js可以防止注入String scriptRegex = "<script[^>]*?>[\\s\\S]*?<\\/script>";//定义style的正则表达式,去除style样式,防止css代码过多时只截取到css样式代码String styleRegex = "<style[^>]*?>[\\s\\S]*?<\\/style>";//定义HTML标签的正则表达式,去除标签,只提取文字内容String htmlRegex = "<[^>]+>";//定义空格,回车,换行符,制表符String spaceRegex = "\\s*|\t|\r|\n";// 过滤script标签htmlStr = htmlStr.replaceAll(scriptRegex, "");// 过滤style标签htmlStr = htmlStr.replaceAll(styleRegex, "");// 过滤html标签htmlStr = htmlStr.replaceAll(htmlRegex, "");// 过滤空格等htmlStr = htmlStr.replaceAll(spaceRegex, "");// 过滤&nbsp;htmlStr = htmlStr.replace("&nbsp;", "");// 过滤&nbsphtmlStr = htmlStr.replace("&nbsp", "");// 返回文本字符串htmlStr = htmlStr.trim();//去除空格" "htmlStr = htmlStr.replaceAll(" ", "");System.out.println(htmlStr);}

最终的结果如下:

原先爬取的字符串中的script、style、html等标签,以及空格、&nbsp都已经筛除了。

如果该文章对您有用,麻烦点赞 收藏 加关注哦!!! 万分感谢。

Java如何去除字符串中的HTML标签相关推荐

  1. java:去除字符串中空格 、 oracle (+) 、 mysql中数值运算符和函数

    java:去除字符串中空格 http://www.cnblogs.com/LiuChunfu/p/5661810.html oracle:oracle (+) https://zhidao.baidu ...

  2. php去除字符串样式,php去除字符串中的HTML标签方法总结

    php去除字符串中的HTML标签方法有很多的今天在做一个采集小功能时发现了有N种方法,下面我为各位整理一下有原创的也有整理的,希望对大家有帮助. 先来看自己的写法  代码如下 复制代码 str_rep ...

  3. java 正则表达式去除字符串中的转义字符(/b /u0002 /u001D等)

    代码: public class Test {public static void main(String args[]){String x ="\u001FJesusDelAlamo也在会 ...

  4. 在mysql中去除字符串中html标签SQL语句集中方法

    在日常开发中,我们会遇到需要在数据库中对通过web网站中文本编辑器提交上来的内容进行一些特殊处理等,此处是针对mysql数据库中去除字符串中的html标签SQL语句. 直接贴上代码: SET GLOB ...

  5. java字符串去掉中文_Java——去除字符串中的中文

    import java.util.regex.Matcher; import java.util.regex.Pattern; public class RemoveStrChinese { priv ...

  6. java字符串去重复_java去除字符串中重复、不重复、消除重复后字符

    java去除字符串中重复.不重复.消除重复后字符 import java.util.HashSet; import java.util.Set; public class Main { public ...

  7. java 去除引号_java如何用replaceAll去除字符串中的引号

    Java如何使用replaceAll删除字符串中的引号,如下: ①."\"是本义字符,除\b,\t,\n,\r等非凡字符能够写成单个\,其余字符是没有答应的,因而间接将字符串配置为 ...

  8. Java详解去除字符串中空格的方法

    Java去除字符串中空格的方法详解 代码中字符串使用了replaceAll()方法,去除了所有空格(其中包括:首尾空格.中间空格) 遂整理下java关于字符串去除空格的方法. 1.方法分类 str.t ...

  9. Java去除字符串中空格的方法详解

    昨天写了一个关于Excel文件处理的脚本,在字符串匹配功能上总是出现多余不正确的匹配,debug调试之后,发现一个坑. 代码中字符串使用了replaceAll()方法,去除了所有空格(其中包括:首尾空 ...

最新文章

  1. 简单总结一下 XSS
  2. SparkSQL ThriftServer 安全相关功能的现状分析
  3. docker 删除容器_Docker (二) Windows10专业版安装教程
  4. 17.C#类型判断和重载决策(九章9.4)
  5. 一起学nRF51xx 20 -  移植SDK蓝牙例程
  6. ASP.NET 2.0 中的资源与本地化
  7. android apk自动安装包下载,Android实现应用下载并自动安装apk包
  8. 网络信息系统(NIS服务器)
  9. windows简易版本 Redis 使用 demo样例(ssm框架下)
  10. 作者:吴城文,男,清华大学计算机科学与技术系硕士生。
  11. [C++]Qt 如何处理密集型耗时的事情(频繁调用QApplication::processEvents)
  12. Android 系统(53)---关于触摸屏快速点击事件误识别为滑动事件
  13. 把文本框的值转换成Image
  14. Android 开发环境搭建之——ADT-Bundle for Windows
  15. java 汉字区位码表_汉字编码解析
  16. 使用DirectX播放音频数据流
  17. 苹果cms小主题模板
  18. web前端笔试题整合
  19. 深圳福田区特殊住房申请学位需要哪些材料 具体材料汇总
  20. 什么是图形加速卡(二)

热门文章

  1. Mysql table_definition_cache
  2. 小白学习Python的第十六天之正则表达式
  3. Vue中slot与slot-scope的理解及使用
  4. 解决:cv2.error: OpenCV(4.6.0) D:\a\opencv-python\opencv-python\opencv\modules\imgproc\src\contours.cpp
  5. Proxy用法——让我们创建一个API代理器
  6. 朴素Bayes组合-集成分类器
  7. Spring之魔丸降世
  8. Ubuntu系统实用软件推荐
  9. 杰奇不支持mysql8,【教程】杰奇小说手机端安装使用说明
  10. 慕课网——MySQL优化