Atitit 索引法 html文件转txt纯文本索引 适用于 evernote索引,导入imap邮箱,方便检索 /sumdoclist/src/aPkg/html2txtIndexFile.jav
Atitit 索引法 html文件转txt纯文本索引
适用于 evernote索引,导入imap邮箱,方便检索
/sumdoclist/src/aPkg/html2txtIndexFile.java
package aPkg;
import java.awt.Toolkit;
import java.awt.datatransfer.Clipboard;
import java.awt.datatransfer.DataFlavor;
import java.awt.datatransfer.Transferable;
import java.io.File;
import java.io.IOException;
import java.nio.file.FileVisitResult;
import java.nio.file.Files;
import java.nio.file.Path;
import java.nio.file.Paths;
import java.nio.file.SimpleFileVisitor;
import java.nio.file.attribute.BasicFileAttributes;
import java.util.List;
import org.apache.commons.io.FileUtils;
import org.apache.commons.io.FilenameUtils;
import org.apache.commons.io.IOUtils;
import org.apache.log4j.Logger;
import org.jsoup.Jsoup;
import com.alibaba.fastjson.JSON;
import comattilax.sumdoclist.FileTraveList;
@SuppressWarnings("all")
public class html2txtIndexFile {
static org.apache.log4j.Logger logger = Logger.getLogger(FileTraveList.class);
public static void main(String[] args) throws Exception {
Clipboard clipboard = Toolkit.getDefaultToolkit().getSystemClipboard();
Transferable Transferable1_clipboardContent = clipboard.getContents(null);
// 获取文本中的Transferable对象
// DataFlavor.
// List<File> list = (List<File>) (Transferable1_clipboardContent.getTransferData(DataFlavor.javaFileListFlavor));
String dir = (String) Transferable1_clipboardContent.getTransferData(DataFlavor.stringFlavor);
Files.walkFileTree(Paths.get(dir), new SimpleFileVisitor<Path>() {
// 澶勭悊鏂囦欢
public FileVisitResult visitFile(Path file, BasicFileAttributes attrs) throws IOException {
// return super.visitFile(file, attrs);
try {
String fpath = file.toString();
String ext=FilenameUtils.getExtension(fpath);
if(ext.toLowerCase().equals("htm") || ext.toLowerCase().equals("html") )
{
logger.info(fpath);
String fname=FilenameUtils.getName(fpath);
String t=FileUtils.readFileToString(file.toFile(),"utf8");
String text = Jsoup.parse(t).text();
System.out.println(text);
FileUtils.writeStringToFile(new File( "d:\\0outputEvernoteAccAtti2\\EvernoteAccAtt2.txt"), text+"\r\n\r\n--------------------\r\n\r\n", true);
}
//FileUtils.writeStringToFile(new File(listrztfile), fpath2 + "\r\n", true);
} catch (Exception e) {
logger.error(e);
}
return FileVisitResult.CONTINUE; // 娌℃壘鍒扮户缁壘
}
});
logger.info("--fi");
}
}
Atitit 索引法 html文件转txt纯文本索引 适用于 evernote索引,导入imap邮箱,方便检索 /sumdoclist/src/aPkg/html2txtIndexFile.jav相关推荐
- python-批量提取srt文件中的纯文本
python-批量提取srt文件中的纯文本 1.功能介绍 为了方便日常的使用,我将批量提取 srt 文件中纯文本的程序打包成了 exe 文件,这样就不用安装 python 环境和相关的库了. 现在版本 ...
- AkelPad-支持大文件快速打开的纯文本开源编辑器
http://akelpad.sourceforge.net/en/index.php AkelPad-是纯文本的开源编辑器.它被设计为小型且快速. 特征 单窗口(SDI),多窗口(MDI)和伪多窗口 ...
- HTML中强制换行和自动换行,网页中的纯文本如何强制换行(txt文件)
有的时候需要把文本文件中的内容显示到网页中,显示效果非常糟糕,比txt文本文件还差,不但没有行间距,连段落也没有了,所有段落被合并成一段,可阅读性变得十分差,可能阅读一会就不想读了.通常的处理方法是把 ...
- 1.6python网络爬虫--读取和处理纯文本格式(CSV,PDF,docx)
目录: 前言: 一,文档编码 二,纯文本 1.对一般简单的纯文本的介绍: 2.文本编码介绍和使用 (1)编码类型简介 (2)使用编码 三,CSV 四,PDF 五, 微软Word和.docx 六,拓展: ...
- word 转为 html5,怎么把word转化为纯文本
如何将有 流程图的图片文件 转换 成纯文本的word?而且要保证 流程图不乱. 大侠们了.急用埃万分感激. 方法是:使用文字识别工具这类软件(例如:Office中的"Microsoft Of ...
- csv文件,不是excel格式的,不是excel格式的,不是excel格式的,其实csv就是纯文本格式即txt,可以用txt打开
csv文件,不是excel格式的,不是excel格式的,不是excel格式的,其实csv就是纯文本格式即txt,可以用txt打开 很多人认为,csv就是xls格式的,因为windows系统下,csv文 ...
- linux读书摘要--正规表示法与文件格式化处理
声明:本文章为<鸟哥的Linux私房菜>读书摘要! 正规表示法 正规表示法(Regular Expression, RE,或称为常规表示法)是透过一些特殊字符的排列,用以『搜寻/取代/删除 ...
- 爬取词库,使用jieba分词库,自定义dict.txt文件+将搜狗词库.scel文件为.txt文件
一:爬取词库,使用jieba分词库,自定义dict.txt文件 import jiebafrom urllib.request import urlopen from bs4 import Beaut ...
- 利用MATLAB将图片转换成coe文件、TXT文件、mif文件、bin文件
利用MATLAB将图片转换成coe文件.TXT文件.mif文件 利用MATLAB将图片转换成coe文件 利用MATLAB将图片转换成txt文件 利用MATLAB将图片转换成mif文件 利用MATLAB ...
- R语言︱文件读入、读出一些方法罗列(批量xlsx文件、数据库、文本txt、文件夹)
笔者寄语:小规模的读取数据的方法较为简单并且多样,但是,批量读取目前看到有以下几种方法:xlsx包.RODBC包.批量转化成csv后读入. R语言中还有一些其他较为普遍的读入,比如代码包,R文件,工作 ...
最新文章
- 数据结构--树和二叉树
- 学Linux的你还在为正则表达式而挠头?
- 【 FPGA 】FIR 滤波器之半带插值器(Half-band Interpolator)
- java 白皮书_java第三天学习内容回顾——java白皮书第四章
- 分子生物学-肽和多肽
- 带有Spring Cloud Config和JHipster的Java微服务
- 基于 opencv 的图像处理入门教程
- 【学习笔记】第一章——操作系统的中断和异常
- c++ raiseexception产生异常_Day17_异常,线程
- Java学习笔记2.5.2 循环结构 - 计数循环
- 数据分析和数据挖掘相关模块
- FusionCharts 分类以及各个属性参数列表
- BT种子下载软件uTorrent Pro v3.5.5.45972
- .net构建轻微博实时热搜新闻站
- 天朝理工学院SQL脚本
- 解决Vscode Unable to start debugging
- NOIP提高组1890~1900集合答案(之前的文章标题错了,应该是1820开始的,不是1520开始的)
- 中国剩余定理 (51nod 1079)
- 小时候看过一部漫画,忘记名字了。。。
- 未配置商户号配置怎么设置_设置和配置
热门文章
- hdfs 中chunk_HDFS读写流程
- 计算机功能性英语作文,2017考研英语作文:10个功能性“仿写”句型
- c++做界面_一看就会做系列 SmartLink远程诊断发布需求指南简单版
- 适合人工智能开发的5种最佳编程语言优缺点对比
- 爱加密:APP安全防护 靠技术实力说爱你
- Kurento Tree 简介
- hbase由于一台regionserver和datanode挂死导致hlog split问题
- .NET简谈互操作(一:开篇介绍)
- javascript窗口属性示意图
- Spring MVC-学习笔记(4)数据绑定流程