java 正则表达式提取html纯文本
本文来自我的个人博客: java 正则表达式提取html纯文本
做内容的大家都知道,从html中直接提取纯文本是一个非常大的问题。现将我做的正则匹配贴上:
import java.util.regex.Matcher;
import java.util.regex.Pattern;public class TestReg {static String reg = "<[a-zA-Z]+.*?>([\s\S]*?)</[a-zA-Z]*>";public static void main(String[] args) {// TODO Auto-generated method stubString str = "<p></p><p> 我们以Buffer类開始对java.nio包的浏览历程。"+ "这些类是java.nio的构造基础。这个系列中。我们将尾随《java NIO》书籍一起深入研究缓冲区。"+ "了解各种不同的类型,并学会如何使用。</p><p> 一个Buffer对象"+ "是固定数量的数据容器。
其作用是一个存储器,或者分段运输区,在这里数据可被存储并在之后用于检索。
" + "</p><p> Buffer类的家谱:</p><p> " + "<img src="http://photo.jfq24.com/image/bigger/blog/server/upload/2014-07/user_2/13711406446068247.png" " + "title="2014-07-27_1527.png"></p><p> <strong>一,缓冲区基础</strong>" + "</p><p> 1.缓冲区的属性:</p><p> " + "容量(capacity):缓冲区可以容纳的数据元素的最大数量,这一容量是在缓冲区被创建时设置的,而且永远不能被改变</p>" + "<p> 上界(limit): 缓冲区的第一个不能被读或写的元素。" + "或者说。缓冲区中现存元素的计数。</p><p> 位置(position): " + "下一个要被读或写的元素的索引,位置会自己主动由对应的get()和put()函数更新。</p><p> " + " 标记(mark): 一个备忘位置,调用mark()来设定mark=position.调用reset()设定position=mark。" + "标记在设定前是没有定义的(undefied)。</p><p> 这四个属性的关系例如以下:</p"; Pattern p = Pattern.compile(reg, Pattern.MULTILINE); str = str.replace(" ", ""); Matcher m = p.matcher(str); while(m.find()) { String data = m.group(1).trim(); if(!"".equals(data)) { System.out.println(data); } } } }
版权声明:本文博客原创文章。博客,未经同意,不得转载。
转载于:https://www.cnblogs.com/mfrbuaa/p/4661126.html
java 正则表达式提取html纯文本相关推荐
- java使用htmlparser提取网页纯文本例子
转载自 java使用htmlparser提取网页纯文本例子 这篇文章主要介绍了java使用htmlparser提取网页纯文本例子,需要的朋友可以参考下 package com.test; impo ...
- Java正则表达式提取字符的方法实例
正好遇到一个需求需要将字符串中特定的字符全部提取出来,这个如果是按常规的字符串处理的话非常的繁琐.于是想到用正则表达式来完成,对java正则表达式提取字符的方式实例感兴趣的朋友一起学习吧 正好遇到一个 ...
- java 正则表达式 提取ip_java正则表达式提取地址中的ip和端口号
由于我需要用到java正则表达式提取地址中的ip和端口号,所以我就写了一个demo,测试一下,下面是demo public class Test0810_1 { public static void ...
- 使用正则 去除标签, 提取HTML 纯文本
场景: 提取HTML中纯文本 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN" "http://ww ...
- java正则表达式提取需要的字符并放入数组
1.java使用正则表达式将字符串中的数字提取,然后放到数组中 String regex = "\\d+"; String input = "XX交罚[2019]322号 ...
- java正则表达式提取html中的图片标签img src=
需求:将网页分享给其他人,JShare的分享模板如下: 其中有标题(红色).内容(黄色).图片(绿色),但是接口中没有给图片的URL,而html格式的内容中有<img src="htt ...
- htmlparser 获取html,根据htmlparser写的一个提取页面纯文本的C#程序
c#的网页内容提取程序,在vs2010下调试完全通过,且无乱码现象 using System; using System.Collections.Generic; using System.Compo ...
- java正则表达式提取字符串中的中文信息
package com.tool; import java.util.regex.Matcher; import java.util.regex.Pattern; public class Patte ...
- java 正则表达式提取价格
实例代码: public static void main(String[] args) {String str="11000.00元";Pattern pattern = Pat ...
最新文章
- 大厂围城:千辛万苦杀进来,为何他们选择出逃?
- 如何在CentOS 7中禁止IPv6
- python 动态导入类_从动态导入模块中类的字符串名动态实例化?
- 【年少的风】C#小学生算式×××2
- 5分绩点转4分_高考语文如何考上120分?衡中老师建议:这5点高中生必须重视
- 8. COM编程——CoCreateInstance创建COM对象
- selenium3降级到selenium2详细步骤
- 雨木林风linux系统,雨林木风开源系统下载-ylmf.os(雨林木风开源系统)v4.0 正式版 - 极光下载站...
- 学计算机专业开学要买笔记本电脑吗,大一开学需要买电脑吗 大学开学电脑买什么好...
- C语言编程练习 7.13个人围成一圈,从第1个人开始顺序报号1、2、3,凡报到3的人退出圈子。
- 通过ffmpeg生成AAC数据
- 闲聊Robots协议
- 微信小程序 关于下载文件、打开文件预览文件(wx.downloadFile和wx.openDocument)
- 怪异盒模型和标准盒模型
- Unity AssetBundle的打包 发布 下载与加载
- 命运交响曲计算机弹奏,贝多芬命运交响曲弹奏方法和介绍-雅马哈电子琴排行榜...
- 服务器拒绝连接怎么修复服务器,服务器拒绝了连接怎么修复
- excel自定义格式分钟计时_巧用EXCEL制作计时器
- 强化学习 Reinforcement Learning(三)——是时候用 PARL 框架玩会儿 DOOM 了!!!(下)
- Linux字符界面与图形界面的切换