Atitit 索引法 html文件转txt纯文本索引

适用于 evernote索引,导入imap邮箱,方便检索

/sumdoclist/src/aPkg/html2txtIndexFile.java

package aPkg;

import java.awt.Toolkit;

import java.awt.datatransfer.Clipboard;

import java.awt.datatransfer.DataFlavor;

import java.awt.datatransfer.Transferable;

import java.io.File;

import java.io.IOException;

import java.nio.file.FileVisitResult;

import java.nio.file.Files;

import java.nio.file.Path;

import java.nio.file.Paths;

import java.nio.file.SimpleFileVisitor;

import java.nio.file.attribute.BasicFileAttributes;

import java.util.List;

import org.apache.commons.io.FileUtils;

import org.apache.commons.io.FilenameUtils;

import org.apache.commons.io.IOUtils;

import org.apache.log4j.Logger;

import org.jsoup.Jsoup;

import com.alibaba.fastjson.JSON;

import comattilax.sumdoclist.FileTraveList;

@SuppressWarnings("all")

public class html2txtIndexFile {

static org.apache.log4j.Logger logger = Logger.getLogger(FileTraveList.class);

public static void main(String[] args) throws Exception {

Clipboard clipboard = Toolkit.getDefaultToolkit().getSystemClipboard();

Transferable Transferable1_clipboardContent = clipboard.getContents(null);

// 获取文本中的Transferable对象

// DataFlavor.

// List<File> list = (List<File>) (Transferable1_clipboardContent.getTransferData(DataFlavor.javaFileListFlavor));

String dir =  (String) Transferable1_clipboardContent.getTransferData(DataFlavor.stringFlavor);

Files.walkFileTree(Paths.get(dir), new SimpleFileVisitor<Path>() {

// 澶勭悊鏂囦欢

public FileVisitResult visitFile(Path file, BasicFileAttributes attrs) throws IOException {

// return super.visitFile(file, attrs);

try {

String fpath = file.toString();

String ext=FilenameUtils.getExtension(fpath);

if(ext.toLowerCase().equals("htm") || ext.toLowerCase().equals("html") )

{

logger.info(fpath);

String fname=FilenameUtils.getName(fpath);

String t=FileUtils.readFileToString(file.toFile(),"utf8");

String text = Jsoup.parse(t).text();

System.out.println(text);

FileUtils.writeStringToFile(new File( "d:\\0outputEvernoteAccAtti2\\EvernoteAccAtt2.txt"), text+"\r\n\r\n--------------------\r\n\r\n", true);

}

//FileUtils.writeStringToFile(new File(listrztfile), fpath2 + "\r\n", true);

catch (Exception e) {

logger.error(e);

}

return FileVisitResult.CONTINUE; // 娌℃壘鍒扮户缁壘

}

});

logger.info("--fi");

}

}

Atitit 索引法 html文件转txt纯文本索引 适用于 evernote索引,导入imap邮箱,方便检索 /sumdoclist/src/aPkg/html2txtIndexFile.jav相关推荐

  1. python-批量提取srt文件中的纯文本

    python-批量提取srt文件中的纯文本 1.功能介绍 为了方便日常的使用,我将批量提取 srt 文件中纯文本的程序打包成了 exe 文件,这样就不用安装 python 环境和相关的库了. 现在版本 ...

  2. AkelPad-支持大文件快速打开的纯文本开源编辑器

    http://akelpad.sourceforge.net/en/index.php AkelPad-是纯文本的开源编辑器.它被设计为小型且快速. 特征 单窗口(SDI),多窗口(MDI)和伪多窗口 ...

  3. HTML中强制换行和自动换行,网页中的纯文本如何强制换行(txt文件)

    有的时候需要把文本文件中的内容显示到网页中,显示效果非常糟糕,比txt文本文件还差,不但没有行间距,连段落也没有了,所有段落被合并成一段,可阅读性变得十分差,可能阅读一会就不想读了.通常的处理方法是把 ...

  4. 1.6python网络爬虫--读取和处理纯文本格式(CSV,PDF,docx)

    目录: 前言: 一,文档编码 二,纯文本 1.对一般简单的纯文本的介绍: 2.文本编码介绍和使用 (1)编码类型简介 (2)使用编码 三,CSV 四,PDF 五, 微软Word和.docx 六,拓展: ...

  5. word 转为 html5,怎么把word转化为纯文本

    如何将有 流程图的图片文件 转换 成纯文本的word?而且要保证 流程图不乱. 大侠们了.急用埃万分感激. 方法是:使用文字识别工具这类软件(例如:Office中的"Microsoft Of ...

  6. csv文件,不是excel格式的,不是excel格式的,不是excel格式的,其实csv就是纯文本格式即txt,可以用txt打开

    csv文件,不是excel格式的,不是excel格式的,不是excel格式的,其实csv就是纯文本格式即txt,可以用txt打开 很多人认为,csv就是xls格式的,因为windows系统下,csv文 ...

  7. linux读书摘要--正规表示法与文件格式化处理

    声明:本文章为<鸟哥的Linux私房菜>读书摘要! 正规表示法 正规表示法(Regular Expression, RE,或称为常规表示法)是透过一些特殊字符的排列,用以『搜寻/取代/删除 ...

  8. 爬取词库,使用jieba分词库,自定义dict.txt文件+将搜狗词库.scel文件为.txt文件

    一:爬取词库,使用jieba分词库,自定义dict.txt文件 import jiebafrom urllib.request import urlopen from bs4 import Beaut ...

  9. 利用MATLAB将图片转换成coe文件、TXT文件、mif文件、bin文件

    利用MATLAB将图片转换成coe文件.TXT文件.mif文件 利用MATLAB将图片转换成coe文件 利用MATLAB将图片转换成txt文件 利用MATLAB将图片转换成mif文件 利用MATLAB ...

  10. R语言︱文件读入、读出一些方法罗列(批量xlsx文件、数据库、文本txt、文件夹)

    笔者寄语:小规模的读取数据的方法较为简单并且多样,但是,批量读取目前看到有以下几种方法:xlsx包.RODBC包.批量转化成csv后读入. R语言中还有一些其他较为普遍的读入,比如代码包,R文件,工作 ...

最新文章

  1. 数据结构--树和二叉树
  2. 学Linux的你还在为正则表达式而挠头?
  3. 【 FPGA 】FIR 滤波器之半带插值器(Half-band Interpolator)
  4. java 白皮书_java第三天学习内容回顾——java白皮书第四章
  5. 分子生物学-肽和多肽
  6. 带有Spring Cloud Config和JHipster的Java微服务
  7. 基于 opencv 的图像处理入门教程
  8. 【学习笔记】第一章——操作系统的中断和异常
  9. c++ raiseexception产生异常_Day17_异常,线程
  10. Java学习笔记2.5.2 循环结构 - 计数循环
  11. 数据分析和数据挖掘相关模块
  12. FusionCharts 分类以及各个属性参数列表
  13. BT种子下载软件uTorrent Pro v3.5.5.45972
  14. .net构建轻微博实时热搜新闻站
  15. 天朝理工学院SQL脚本
  16. 解决Vscode Unable to start debugging
  17. NOIP提高组1890~1900集合答案(之前的文章标题错了,应该是1820开始的,不是1520开始的)
  18. 中国剩余定理 (51nod 1079)
  19. 小时候看过一部漫画,忘记名字了。。。
  20. 未配置商户号配置怎么设置_设置和配置

热门文章

  1. hdfs 中chunk_HDFS读写流程
  2. 计算机功能性英语作文,2017考研英语作文:10个功能性“仿写”句型
  3. c++做界面_一看就会做系列 SmartLink远程诊断发布需求指南简单版
  4. 适合人工智能开发的5种最佳编程语言优缺点对比
  5. 爱加密:APP安全防护 靠技术实力说爱你
  6. Kurento Tree 简介
  7. hbase由于一台regionserver和datanode挂死导致hlog split问题
  8. .NET简谈互操作(一:开篇介绍)
  9. javascript窗口属性示意图
  10. Spring MVC-学习笔记(4)数据绑定流程