nekohtml解析html(string或是文件流)
一、dom解析html
DOMParser parser = new DOMParser();
XMLInputSource source = new XMLInputSource(null, "", null,
new StringReader("<html><head></head><body>"
+ sugg.getSuggContent() + "</body></html>"), "utf-8");
try {
parser.parse(source);
} catch (XNIException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
}
Document document = parser.getDocument();
String ss = document.getDocumentElement().getTextContent();
二、去除文本中多余的换行
InputStream is = null;
InputStreamReader isr = null;
try {
is = new ByteArrayInputStream(ss.getBytes("utf-8"));//这是关键,不然会出现乱码
isr = new InputStreamReader(is, "utf-8");//编码
} catch (UnsupportedEncodingException e2) {
e2.printStackTrace();
}
BufferedReader br = new BufferedReader(isr);
StringBuffer sb = new StringBuffer();
try {
String line = br.readLine();
while (null != line) {
if (!"".equals(line.trim())) {
sb.append(line + "\r");
}
line = br.readLine();
}
} catch (IOException e1) {
e1.printStackTrace();
}
String fstr = sb.toString();
nekohtml解析html(string或是文件流)相关推荐
- vue解析后台传来的文件流实现文件下载功能并兼容ie
后台传来的文件流: 下载并兼容了ie: export function downloadFile(data, fileName, http, url) {axios({method: http,dat ...
- react接收后端文件_React获取Java后台文件流并下载Excel文件流程解析
记录使用blob对象接收java后台文件流并下载为xlsx格式的详细过程,关键部分代码如下. 首先在java后台中设置response中的参数: public void exportExcel(Htt ...
- NekoHtml解析 html 文件
最近做了一个 html 解析的 小项目,用的是 NekoHtml, 解析静态的html页面,提取需要的信息 成jason对象并放到一个文件中. 思路是, 先使用Netko可以快速的将需要的html中的 ...
- c++语言文件流,C++ IO类、文件输入输出、string流详细讲解
新的C++标准中有三分之二的内容都是描述标准库.接下来重点学习其中几种核心库设施,这些是应该熟练掌握的. 标准库的核心是很多容器类(顺序容器和关联容器等)和一簇泛型算法(该类算法通常在顺序容器一定范围 ...
- C++ 流的操作 | 初识IO类、文件流、string流的使用
文章目录 前言 IO头文件 iostream fstream sstream 流的使用 不能拷贝或对 IO对象 赋值 条件状态与 iostate 类型 输出缓冲区 文件流 fstream类型 文件模式 ...
- vue+axios 实现Excel下载,并解析文件流
功能:导出表格数据,形成一个excel文件,可打开查看内容. 1. axios请求设置头部和请求方法 const serviceHttp = axios.create({baseURL: proces ...
- js接收excel文件流并解析下载文件
情景:后端为post请求,且接口返回为excel文件流 方法: 1.使用原生XMLHttpRequest 2.使用原生fetch 3.使用axios import qs from 'qs'import ...
- golang mysql大量写入_Golang 实现分片读取http超大文件流和并发控制
分片读取http超大文件流 Golang中的HTTP发送get请求,在获取内容有两种情况. Golang发送http get请求方式 resp, err := http.Get(sendUrl) if ...
- java文件流下载excel_React获取Java后台文件流下载Excel文件
记录使用blob对象接收java后台文件流并下载为xlsx格式的详细过程,关键部分代码如下. 首先在java后台中设置response中的参数: public void exportExcel(Htt ...
最新文章
- referer 访问控制
- nvidia显卡cuda的性能_性能追平上代万元旗舰!NVIDIA GeForce RTX 3070规格解析
- android 6.0权限封装,Android6.0------权限申请管理(单个权限和多个权限申请)
- python3爬虫(8)爬虫框架scrapy安装和使用
- 为什么那些每三年跳一次槽的人越跳越好? - 震撼
- js中注册标识符流程
- stm32 SPI架构
- 软件能力成熟度CMMI3管理过程域
- Linux中对两文件处理
- java多线程访问beans对象_java-多线程同时操作同一个对象之解决方法:读写锁ReadWriteLock的使用...
- c++ 4种新型的类型static_cast、dynamic_cast、reinterpret_cast、const_cast转换运算符
- Random Forests预测森林植被类型
- Landsat遥感影像下载
- 云服务器ubuntu建网站,云服务器ubuntu建网站
- discuz模板机制解析
- .NET项目使用EF+Migration
- 从春招到秋招,算法工程师养成记
- 计算机学校迎新条幅,学校迎新条幅内容
- tls协议 android 证书,Android TLS连接和自签名证书
- 故障申报系统php源码,seay源代码全自动在线审计系统,PHP源代码缺陷自动审计平台-在线工具...