本文来自我的个人博客: java 正则表达式提取html纯文本

做内容的大家都知道,从html中直接提取纯文本是一个非常大的问题。现将我做的正则匹配贴上:

import java.util.regex.Matcher;
import java.util.regex.Pattern;public class TestReg {static String reg = "<[a-zA-Z]+.*?>([\s\S]*?)</[a-zA-Z]*>";public static void main(String[] args) {// TODO Auto-generated method stubString str = "<p></p><p>&nbsp;&nbsp;&nbsp;&nbsp;我们以Buffer类開始对java.nio包的浏览历程。"+ "这些类是java.nio的构造基础。这个系列中。我们将尾随《java NIO》书籍一起深入研究缓冲区。"+ "了解各种不同的类型,并学会如何使用。</p><p>&nbsp;&nbsp;&nbsp;&nbsp;一个Buffer对象"+ "是固定数量的数据容器。

其作用是一个存储器,或者分段运输区,在这里数据可被存储并在之后用于检索。

" + "</p><p>&nbsp;&nbsp;&nbsp;&nbsp;Buffer类的家谱:</p><p>&nbsp;&nbsp;&nbsp;&nbsp;" + "<img src="http://photo.jfq24.com/image/bigger/blog/server/upload/2014-07/user_2/13711406446068247.png" " + "title="2014-07-27_1527.png"></p><p>&nbsp;&nbsp;&nbsp;&nbsp;<strong>一,缓冲区基础</strong>" + "</p><p>&nbsp;&nbsp;&nbsp; 1.缓冲区的属性:</p><p>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;" + "容量(capacity):缓冲区可以容纳的数据元素的最大数量,这一容量是在缓冲区被创建时设置的,而且永远不能被改变</p>" + "<p>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;上界(limit): 缓冲区的第一个不能被读或写的元素。" + "或者说。缓冲区中现存元素的计数。</p><p>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;位置(position): " + "下一个要被读或写的元素的索引,位置会自己主动由对应的get()和put()函数更新。</p><p>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;" + "&nbsp;&nbsp;&nbsp;标记(mark): 一个备忘位置,调用mark()来设定mark=position.调用reset()设定position=mark。" + "标记在设定前是没有定义的(undefied)。</p><p>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;这四个属性的关系例如以下:</p"; Pattern p = Pattern.compile(reg, Pattern.MULTILINE); str = str.replace("&nbsp;", ""); Matcher m = p.matcher(str); while(m.find()) { String data = m.group(1).trim(); if(!"".equals(data)) { System.out.println(data); } } } }

版权声明:本文博客原创文章。博客,未经同意,不得转载。

转载于:https://www.cnblogs.com/mfrbuaa/p/4661126.html

java 正则表达式提取html纯文本相关推荐

  1. java使用htmlparser提取网页纯文本例子

    转载自   java使用htmlparser提取网页纯文本例子 这篇文章主要介绍了java使用htmlparser提取网页纯文本例子,需要的朋友可以参考下 package com.test; impo ...

  2. Java正则表达式提取字符的方法实例

    正好遇到一个需求需要将字符串中特定的字符全部提取出来,这个如果是按常规的字符串处理的话非常的繁琐.于是想到用正则表达式来完成,对java正则表达式提取字符的方式实例感兴趣的朋友一起学习吧 正好遇到一个 ...

  3. java 正则表达式 提取ip_java正则表达式提取地址中的ip和端口号

    由于我需要用到java正则表达式提取地址中的ip和端口号,所以我就写了一个demo,测试一下,下面是demo public class Test0810_1 { public static void ...

  4. 使用正则 去除标签, 提取HTML 纯文本

    场景: 提取HTML中纯文本 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN" "http://ww ...

  5. java正则表达式提取需要的字符并放入数组

    1.java使用正则表达式将字符串中的数字提取,然后放到数组中 String regex = "\\d+"; String input = "XX交罚[2019]322号 ...

  6. java正则表达式提取html中的图片标签img src=

    需求:将网页分享给其他人,JShare的分享模板如下: 其中有标题(红色).内容(黄色).图片(绿色),但是接口中没有给图片的URL,而html格式的内容中有<img src="htt ...

  7. htmlparser 获取html,根据htmlparser写的一个提取页面纯文本的C#程序

    c#的网页内容提取程序,在vs2010下调试完全通过,且无乱码现象 using System; using System.Collections.Generic; using System.Compo ...

  8. java正则表达式提取字符串中的中文信息

    package com.tool; import java.util.regex.Matcher; import java.util.regex.Pattern; public class Patte ...

  9. java 正则表达式提取价格

    实例代码: public static void main(String[] args) {String str="11000.00元";Pattern pattern = Pat ...

最新文章

  1. 大厂围城:千辛万苦杀进来,为何他们选择出逃?
  2. 如何在CentOS 7中禁止IPv6
  3. python 动态导入类_从动态导入模块中类的字符串名动态实例化?
  4. 【年少的风】C#小学生算式×××2
  5. 5分绩点转4分_高考语文如何考上120分?衡中老师建议:这5点高中生必须重视
  6. 8. COM编程——CoCreateInstance创建COM对象
  7. selenium3降级到selenium2详细步骤
  8. 雨木林风linux系统,雨林木风开源系统下载-ylmf.os(雨林木风开源系统)v4.0 正式版 - 极光下载站...
  9. 学计算机专业开学要买笔记本电脑吗,大一开学需要买电脑吗 大学开学电脑买什么好...
  10. C语言编程练习 7.13个人围成一圈,从第1个人开始顺序报号1、2、3,凡报到3的人退出圈子。
  11. 通过ffmpeg生成AAC数据
  12. 闲聊Robots协议
  13. 微信小程序 关于下载文件、打开文件预览文件(wx.downloadFile和wx.openDocument)
  14. 怪异盒模型和标准盒模型
  15. Unity AssetBundle的打包 发布 下载与加载
  16. 命运交响曲计算机弹奏,贝多芬命运交响曲弹奏方法和介绍-雅马哈电子琴排行榜...
  17. 服务器拒绝连接怎么修复服务器,服务器拒绝了连接怎么修复
  18. excel自定义格式分钟计时_巧用EXCEL制作计时器
  19. 强化学习 Reinforcement Learning(三)——是时候用 PARL 框架玩会儿 DOOM 了!!!(下)
  20. Linux字符界面与图形界面的切换

热门文章

  1. python成绩转换_Python格式化输出%与format能不能互相转换?
  2. opencv基本的图像处理函数
  3. 同一字段降序个升序_5个打印小技巧,表格打印没烦恼
  4. linux指令诀窍大全,六个优雅的Linux命令行技巧
  5. Focal Loss 分类问题 pytorch实现代码(简单实现)
  6. Linux网络实时流量监测工具iftop的安装使用
  7. 毕设日志——在faster rcnn pytorch上训练KITTI数据集
  8. SQLmap学习使用
  9. 基于shell 脚本处理文本数据流程
  10. 9.思科交换路由基本命令操作