一、dom解析html

DOMParser parser = new DOMParser();

XMLInputSource source = new XMLInputSource(null, "", null,
new StringReader("<html><head></head><body>"
+ sugg.getSuggContent() + "</body></html>"), "utf-8");
try {
parser.parse(source);
} catch (XNIException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
}
Document document = parser.getDocument();

String ss = document.getDocumentElement().getTextContent();

二、去除文本中多余的换行

InputStream is = null;
InputStreamReader isr = null;
try {
is = new ByteArrayInputStream(ss.getBytes("utf-8"));//这是关键,不然会出现乱码
isr = new InputStreamReader(is, "utf-8");//编码
} catch (UnsupportedEncodingException e2) {
e2.printStackTrace();
}
BufferedReader br = new BufferedReader(isr);
StringBuffer sb = new StringBuffer();
try {
String line = br.readLine();
while (null != line) {
if (!"".equals(line.trim())) {
sb.append(line + "\r");
}
line = br.readLine();
}
} catch (IOException e1) {
e1.printStackTrace();
}
String fstr = sb.toString();

nekohtml解析html(string或是文件流)相关推荐

  1. vue解析后台传来的文件流实现文件下载功能并兼容ie

    后台传来的文件流: 下载并兼容了ie: export function downloadFile(data, fileName, http, url) {axios({method: http,dat ...

  2. react接收后端文件_React获取Java后台文件流并下载Excel文件流程解析

    记录使用blob对象接收java后台文件流并下载为xlsx格式的详细过程,关键部分代码如下. 首先在java后台中设置response中的参数: public void exportExcel(Htt ...

  3. NekoHtml解析 html 文件

    最近做了一个 html 解析的 小项目,用的是 NekoHtml, 解析静态的html页面,提取需要的信息 成jason对象并放到一个文件中. 思路是, 先使用Netko可以快速的将需要的html中的 ...

  4. c++语言文件流,C++ IO类、文件输入输出、string流详细讲解

    新的C++标准中有三分之二的内容都是描述标准库.接下来重点学习其中几种核心库设施,这些是应该熟练掌握的. 标准库的核心是很多容器类(顺序容器和关联容器等)和一簇泛型算法(该类算法通常在顺序容器一定范围 ...

  5. C++ 流的操作 | 初识IO类、文件流、string流的使用

    文章目录 前言 IO头文件 iostream fstream sstream 流的使用 不能拷贝或对 IO对象 赋值 条件状态与 iostate 类型 输出缓冲区 文件流 fstream类型 文件模式 ...

  6. vue+axios 实现Excel下载,并解析文件流

    功能:导出表格数据,形成一个excel文件,可打开查看内容. 1. axios请求设置头部和请求方法 const serviceHttp = axios.create({baseURL: proces ...

  7. js接收excel文件流并解析下载文件

    情景:后端为post请求,且接口返回为excel文件流 方法: 1.使用原生XMLHttpRequest 2.使用原生fetch 3.使用axios import qs from 'qs'import ...

  8. golang mysql大量写入_Golang 实现分片读取http超大文件流和并发控制

    分片读取http超大文件流 Golang中的HTTP发送get请求,在获取内容有两种情况. Golang发送http get请求方式 resp, err := http.Get(sendUrl) if ...

  9. java文件流下载excel_React获取Java后台文件流下载Excel文件

    记录使用blob对象接收java后台文件流并下载为xlsx格式的详细过程,关键部分代码如下. 首先在java后台中设置response中的参数: public void exportExcel(Htt ...

最新文章

  1. referer 访问控制
  2. nvidia显卡cuda的性能_性能追平上代万元旗舰!NVIDIA GeForce RTX 3070规格解析
  3. android 6.0权限封装,Android6.0------权限申请管理(单个权限和多个权限申请)
  4. python3爬虫(8)爬虫框架scrapy安装和使用
  5. 为什么那些每三年跳一次槽的人越跳越好? - 震撼
  6. js中注册标识符流程
  7. stm32 SPI架构
  8. 软件能力成熟度CMMI3管理过程域
  9. Linux中对两文件处理
  10. java多线程访问beans对象_java-多线程同时操作同一个对象之解决方法:读写锁ReadWriteLock的使用...
  11. c++ 4种新型的类型static_cast、dynamic_cast、reinterpret_cast、const_cast转换运算符
  12. Random Forests预测森林植被类型
  13. Landsat遥感影像下载
  14. 云服务器ubuntu建网站,云服务器ubuntu建网站
  15. discuz模板机制解析
  16. .NET项目使用EF+Migration
  17. 从春招到秋招,算法工程师养成记
  18. 计算机学校迎新条幅,学校迎新条幅内容
  19. tls协议 android 证书,Android TLS连接和自签名证书
  20. 故障申报系统php源码,seay源代码全自动在线审计系统,PHP源代码缺陷自动审计平台-在线工具...

热门文章

  1. 搬砖:数据结构之链表基本操作总结
  2. 自然语言处理——文本分类概述
  3. Oracle not in 范围超过 1000 报错问题及解决方案
  4. Python基础必掌握的5种数据类型和8种内置函数基本操作
  5. EOS智能合约开发系列(十): 抵御彩虹攻击
  6. JAVA卸载报错无法访问网络位置
  7. kali-dirBuster简单使用
  8. 项目管理理论和实施方法论的关系是什么?
  9. 针对安卓app的爬虫路程
  10. php网页增加音乐代码,js给网页加上背景音乐及选择音效的方法