Atitit.论垃圾文件的识别与清理 文档类型垃圾文件 与api概要设计pa6.doc

1. 俩个问题::识别垃圾文件与清理策略1

1.1. 文件类型:pic,doc,v,m cc,isho pose,prj,codelib,doc mana(inputmethod,acc)1

2. 如何识别垃圾文件2

2.1. 体积过小文件2

2.2. 过大文件2

2.3. 清理非文档类型(doc docx txt html )的文件2

2.4. 转换文件类型以及索引html即可2

2.5. 清理重复文件(此结果不能加入指纹库)2

2.6. 非本类别垃圾文件2

3. 误删除的文件专门集中放在xx_manu文件夹中,人工处理2

4. 垃圾图片文件指纹库3

4.1. 根据垃圾文件指纹库(模式结果固化)3

4.2. 根据垃圾文件路径名称库(加快性能比对速度,md5可能比较慢)3

5. 人工识别垃圾图片策略3

6. 清理策略3

7. 大概每年doc文档的规模300M3

8. Code3

8.1. 文件去重4

8.2. 生成垃圾文件指纹库(by Md5)4

1. 俩个问题::识别垃圾文件与清理策略

1.1. 文件类型:pic,doc,v,m cc,isho pose,prj,codelib,doc mana(inputmethod,acc)

作者:: 老哇的爪子 Attilax 艾龙,  EMAIL:1466519819@qq.com

转载请注明来源: http://www.cnblogs.com/attilax/

2. 如何识别垃圾文件

2.1. 体积过小文件

2.2. 过大文件

2.3. 清理非文档类型(doc docx txt html )的文件

Pic(gif,jpg,bmp,gif)

Js

2.4. 转换文件类型以及索引html即可

2.5.  清理重复文件(此结果不能加入指纹库)

2.6. 非本类别垃圾文件

搜索×,按照扩展名分组排序

3. 误删除的文件专门集中放在xx_manu文件夹中,人工处理

4. 垃圾图片文件指纹库

4.1. 根据垃圾文件指纹库(模式结果固化)

4.2. 根据垃圾文件路径名称库(加快性能比对速度,md5可能比较慢)

5. 人工识别垃圾图片策略

不好的isho

不能like的pic

误删除的文件专门集中放在isho_manu文件夹中,人工处理

6. 清理策略

生成清理脚本(或者直接java程序模式)

移动到制定文件夹(推荐)

7. 大概每年doc文档的规模300M

8. Code

AtibrowPrj

public class ClrerPicClrer extends ClrerAbs {

public static void main(String[] args) {

ClrerPicClrer c=new ClrerPicClrer();

c.dir="d:\\ati\\isheo";

//c.GabFileRecongers.add(new NoPicReconer());

tooMiniPixPicClrerPartImp ClrerPartImp = new tooMiniPixPicClrerPartImp();

ClrerPartImp.dir=c.dir;

ClrerPartImp.targetDir="d:\\ati\\tooMiniPixPic_files";

c.IClrerParts.add(ClrerPartImp);

tooMinSizePicClrerPartImp tmsc=new tooMinSizePicClrerPartImp();

tmsc.dir=c.dir;

tmsc.targetDir="d:/ati/tooMinSize_files";

c.IClrerParts.add(tmsc);

c.traveDir(c.dir);

System.out.println("--f");

}

8.1. 文件去重

DeduliAbs_ByMoveToNewFolder.java

8.2. 生成垃圾文件指纹库(by Md5)

com.attilax.clr.ClrByMd5  -gene -output_file "d:\ati\isho_gabFileMd5.txt" -dir "d:\ati\gabFilesFingers"

Atitit.论垃圾文件的识别与清理 文档类型垃圾文件 与api概要设计pa6.doc相关推荐

  1. 离线配置xml的文档类型定义文件(xml语法规则) dtd

    step1)将jar文件解压,并找到对应的 dtd文件: step2)不带引号复制 dtd uri: http://mybatis.org/dtd/mybatis-3-config.dtd step3 ...

  2. 超过20G的文件怎么保存_金山文档怎么保存文件-金山文档保存文件的方法

    金山文档是一款功能十分强大的文档创作软件,该软件界面简单直观,可以实时协作编辑,支持Word.PDF.Excel等格式的文件编辑,是一款十分好用的电脑办公软件.无论使用什么办公软件编辑文档,一般情况下 ...

  3. DCMTK:将XML文档转换为DICOM文件或数据集

    DCMTK:将XML文档转换为DICOM文件或数据集 将XML文档转换为DICOM文件或数据集 将XML文档转换为DICOM文件或数据集 #include "dcmtk/config/osc ...

  4. python在word文档里插入文件对象

    工作需要制作每周一次的汇总报表,除了正文以外,还需要把上周的各种报表以附件的方式打包到报表里,有word文档,有excel表格,手工操作是这样的:插入-对象-由文件创建-勾选显示为图标-选择文件-确认 ...

  5. Atitit.论图片类型 垃圾文件的识别与清理  流程与设计原则 与api概要设计 v2 pbj...

    Atitit.论图片类型 垃圾文件的识别与清理  流程与设计原则 与api概要设计 v2 pbj 1. 俩个问题::识别垃圾文件与清理策略1 2. 如何识别垃圾图片1 2.1. 体积过小文件<1 ...

  6. 录音文件/音频实现mp3等文件语音转换文字txt文档提取文字精准高效识别

    音频录音文件实现语音转换识别文字最后文档输出结果 实现对mp3等录音文件进行语音识别成文字,最终获取文档格式或者其它定义格式文件,也可以进行提取数据处理逻辑,轻松实现大文件的语音文字转换功能,精准高效 ...

  7. 如何将CSDN文档输出PDF文件?

    简 介: 根据生成文档的需要,在CSDN上寻找一些介绍将MARKDOWN文档生成PDF博文.根据他们介绍的方法,测试打印的效果.特别是对于CSDN新增加的一些显示元素的清理,可以生成更加干净完整的PD ...

  8. 声纹识别demo_声纹识别 iOS SDK 文档

    # 声纹识别 iOS SDK 文档 # 1.简介 声纹识别(Voiceprint Recognition),是一项提取说话人声音特征和说话内容信息,自动核验说话人身份的技术.MSC SDK 声纹识别( ...

  9. 使用360文档卫士监控文件修改操作

    使用360文档卫士监控文件修改操作 工具名称:360文档卫士 下载地址: 360文档卫士 功能:在程序部署安装前后 ,或在清理程序挂马后 ,通过添加所需监控文件后缀,以达到对相应后缀文件修改监控作用, ...

最新文章

  1. 协程和任务 异步IO 重点
  2. 编程异常——假设你报createSQLQuery is not valid without active transaction,...
  3. java exception e抛异常_抛出的异常在上层catch到,但是e.getMessage()为NULL,为什么会这样?...
  4. u3d 逐个点运动,路径运动。 U3d one by one, path motion.
  5. 网络字节序 —— 主机字节序 (Socket编程) 转
  6. python输出日期语句_如何从Python的原始语句中提取时间-日期-时间段信息
  7. php $表达式,PHP表达式概念及实例详解
  8. CCF201403试题
  9. MySQL 存储过程的变量
  10. SQL中SELECT INTO和INSERT INTO SELECT语句介绍
  11. oracle-pl/sql之二
  12. linux4.12 交叉编译链,交叉编译工具链(很详细)
  13. 大数据平台以及一些核心组件介绍
  14. 一阶电路实验报告心得_一阶rc电路实验总结
  15. WordPress插件曝出零日漏洞,已被积极在野利用
  16. 百度、腾讯、滴滴,如何看2019智能网联汽车发展 | 2019互联网岳麓峰会...
  17. 乐视汽车仅靠老贾的哽咽和激情是不够的
  18. OpenCV的Scalar对象怎样初始化,如何取分量值,如何与标量相乘?
  19. C++11标准模板(STL)- 算法(std::nth_element)
  20. 无代码BPM平台的使用和推荐

热门文章

  1. 【J2EE】第四章 SpringMVC
  2. 编程之美计算0到N中包含数字1的个数
  3. onmousewheel
  4. 三维视觉传感器的类型
  5. 基于HTTP Live Streaming(HLS) 搭建在线点播系统
  6. 运算符重载:即为函数
  7. Java过滤HTML标签工具类
  8. Angular面试从喜剧到悲剧的十个问题
  9. [PHP] Laravel常见报错总结(持续更新)
  10. Java集合源码学习(四)HashMap