Atitit.论垃圾文件的识别与清理 文档类型垃圾文件 与api概要设计pa6.doc
Atitit.论垃圾文件的识别与清理 文档类型垃圾文件 与api概要设计pa6.doc
1. 俩个问题::识别垃圾文件与清理策略1
1.1. 文件类型:pic,doc,v,m cc,isho pose,prj,codelib,doc mana(inputmethod,acc)1
2. 如何识别垃圾文件2
2.1. 体积过小文件2
2.2. 过大文件2
2.3. 清理非文档类型(doc docx txt html )的文件2
2.4. 转换文件类型以及索引html即可2
2.5. 清理重复文件(此结果不能加入指纹库)2
2.6. 非本类别垃圾文件2
3. 误删除的文件专门集中放在xx_manu文件夹中,人工处理2
4. 垃圾图片文件指纹库3
4.1. 根据垃圾文件指纹库(模式结果固化)3
4.2. 根据垃圾文件路径名称库(加快性能比对速度,md5可能比较慢)3
5. 人工识别垃圾图片策略3
6. 清理策略3
7. 大概每年doc文档的规模300M3
8. Code3
8.1. 文件去重4
8.2. 生成垃圾文件指纹库(by Md5)4
1. 俩个问题::识别垃圾文件与清理策略
1.1. 文件类型:pic,doc,v,m cc,isho pose,prj,codelib,doc mana(inputmethod,acc)
作者:: 老哇的爪子 Attilax 艾龙, EMAIL:1466519819@qq.com
转载请注明来源: http://www.cnblogs.com/attilax/
2. 如何识别垃圾文件
2.1. 体积过小文件
2.2. 过大文件
2.3. 清理非文档类型(doc docx txt html )的文件
Pic(gif,jpg,bmp,gif)
Js
2.4. 转换文件类型以及索引html即可
2.5. 清理重复文件(此结果不能加入指纹库)
2.6. 非本类别垃圾文件
搜索×,按照扩展名分组排序
3. 误删除的文件专门集中放在xx_manu文件夹中,人工处理
4. 垃圾图片文件指纹库
4.1. 根据垃圾文件指纹库(模式结果固化)
4.2. 根据垃圾文件路径名称库(加快性能比对速度,md5可能比较慢)
5. 人工识别垃圾图片策略
不好的isho
不能like的pic
误删除的文件专门集中放在isho_manu文件夹中,人工处理
6. 清理策略
生成清理脚本(或者直接java程序模式)
移动到制定文件夹(推荐)
7. 大概每年doc文档的规模300M
8. Code
AtibrowPrj
public class ClrerPicClrer extends ClrerAbs {
public static void main(String[] args) {
ClrerPicClrer c=new ClrerPicClrer();
c.dir="d:\\ati\\isheo";
//c.GabFileRecongers.add(new NoPicReconer());
tooMiniPixPicClrerPartImp ClrerPartImp = new tooMiniPixPicClrerPartImp();
ClrerPartImp.dir=c.dir;
ClrerPartImp.targetDir="d:\\ati\\tooMiniPixPic_files";
c.IClrerParts.add(ClrerPartImp);
tooMinSizePicClrerPartImp tmsc=new tooMinSizePicClrerPartImp();
tmsc.dir=c.dir;
tmsc.targetDir="d:/ati/tooMinSize_files";
c.IClrerParts.add(tmsc);
c.traveDir(c.dir);
System.out.println("--f");
}
8.1. 文件去重
DeduliAbs_ByMoveToNewFolder.java
8.2. 生成垃圾文件指纹库(by Md5)
com.attilax.clr.ClrByMd5 -gene -output_file "d:\ati\isho_gabFileMd5.txt" -dir "d:\ati\gabFilesFingers"
Atitit.论垃圾文件的识别与清理 文档类型垃圾文件 与api概要设计pa6.doc相关推荐
- 离线配置xml的文档类型定义文件(xml语法规则) dtd
step1)将jar文件解压,并找到对应的 dtd文件: step2)不带引号复制 dtd uri: http://mybatis.org/dtd/mybatis-3-config.dtd step3 ...
- 超过20G的文件怎么保存_金山文档怎么保存文件-金山文档保存文件的方法
金山文档是一款功能十分强大的文档创作软件,该软件界面简单直观,可以实时协作编辑,支持Word.PDF.Excel等格式的文件编辑,是一款十分好用的电脑办公软件.无论使用什么办公软件编辑文档,一般情况下 ...
- DCMTK:将XML文档转换为DICOM文件或数据集
DCMTK:将XML文档转换为DICOM文件或数据集 将XML文档转换为DICOM文件或数据集 将XML文档转换为DICOM文件或数据集 #include "dcmtk/config/osc ...
- python在word文档里插入文件对象
工作需要制作每周一次的汇总报表,除了正文以外,还需要把上周的各种报表以附件的方式打包到报表里,有word文档,有excel表格,手工操作是这样的:插入-对象-由文件创建-勾选显示为图标-选择文件-确认 ...
- Atitit.论图片类型 垃圾文件的识别与清理 流程与设计原则 与api概要设计 v2 pbj...
Atitit.论图片类型 垃圾文件的识别与清理 流程与设计原则 与api概要设计 v2 pbj 1. 俩个问题::识别垃圾文件与清理策略1 2. 如何识别垃圾图片1 2.1. 体积过小文件<1 ...
- 录音文件/音频实现mp3等文件语音转换文字txt文档提取文字精准高效识别
音频录音文件实现语音转换识别文字最后文档输出结果 实现对mp3等录音文件进行语音识别成文字,最终获取文档格式或者其它定义格式文件,也可以进行提取数据处理逻辑,轻松实现大文件的语音文字转换功能,精准高效 ...
- 如何将CSDN文档输出PDF文件?
简 介: 根据生成文档的需要,在CSDN上寻找一些介绍将MARKDOWN文档生成PDF博文.根据他们介绍的方法,测试打印的效果.特别是对于CSDN新增加的一些显示元素的清理,可以生成更加干净完整的PD ...
- 声纹识别demo_声纹识别 iOS SDK 文档
# 声纹识别 iOS SDK 文档 # 1.简介 声纹识别(Voiceprint Recognition),是一项提取说话人声音特征和说话内容信息,自动核验说话人身份的技术.MSC SDK 声纹识别( ...
- 使用360文档卫士监控文件修改操作
使用360文档卫士监控文件修改操作 工具名称:360文档卫士 下载地址: 360文档卫士 功能:在程序部署安装前后 ,或在清理程序挂马后 ,通过添加所需监控文件后缀,以达到对相应后缀文件修改监控作用, ...
最新文章
- 协程和任务 异步IO 重点
- 编程异常——假设你报createSQLQuery is not valid without active transaction,...
- java exception e抛异常_抛出的异常在上层catch到,但是e.getMessage()为NULL,为什么会这样?...
- u3d 逐个点运动,路径运动。 U3d one by one, path motion.
- 网络字节序 —— 主机字节序 (Socket编程) 转
- python输出日期语句_如何从Python的原始语句中提取时间-日期-时间段信息
- php $表达式,PHP表达式概念及实例详解
- CCF201403试题
- MySQL 存储过程的变量
- SQL中SELECT INTO和INSERT INTO SELECT语句介绍
- oracle-pl/sql之二
- linux4.12 交叉编译链,交叉编译工具链(很详细)
- 大数据平台以及一些核心组件介绍
- 一阶电路实验报告心得_一阶rc电路实验总结
- WordPress插件曝出零日漏洞,已被积极在野利用
- 百度、腾讯、滴滴,如何看2019智能网联汽车发展 | 2019互联网岳麓峰会...
- 乐视汽车仅靠老贾的哽咽和激情是不够的
- OpenCV的Scalar对象怎样初始化,如何取分量值,如何与标量相乘?
- C++11标准模板(STL)- 算法(std::nth_element)
- 无代码BPM平台的使用和推荐