Graccvs组件为Lucene/CLucene, Elasticsearch, Sphinx等全文检索工具,OA, ERP, CRM,网盘,文件管理等其他系统提供文件摘要及搜索前置服务。可以为安全网关,邮件内容监控,内网安全等系统提供文件搜索及监控服务底层技术支持。本组件可以为机器学习、自然语言处理提供文本挖掘和文本信息抽取技术支持。

本组件全部用go语言实现,不依赖外部工具,效率高,安全性非常好。可以直接在操作系统上开发使用,不要求JAVA等其他环境支持,而且从设计上避免了环境依赖或者解析器框架带来的占用CPU过高和安全性问题。

本组件提取文本速度快,质量高,跨平台,支持多任务并发,开发简单成本低。提供多种语言接口及使用示例。

一: 平台支持:

组件提供多种操作系统动态链接库

1: Windows平台: (32bit和64bit)

提供dll格式及GCC、VC、JAVA、C#、delphi调用示例。

2:Linux平台: (64bit)

内核版本4.x及以上, 中标麒麟7.0.0(64bit)及以上。

注:内核版本(64bit)2.6.23到4.0具体以实际情况为准。

提供so格式文件及GCC、JAVA调用示例,其他语言完善中。

3:Android平台:

提供aar格式文件及Android Studio调用示例

4:苹果ios平台:

提供xcframework格式文件及xcode+objective-c调用示例

 二: 组件现在可以提取的文件类型(新增提取文件类型请关注官网):

A: pdf文件

B: office word文件 ".doc", ".odt", ".docx", ".dotm", ".docm"

C: wps文档 ".wps"

D: office excel文件 ".xls", ".xlsx", ".xlsm", ".xltm"

E: wps表格 ".et"

F: office powerPoint文件 ".ppt", ".pptx", ".potm", ".pptm", ".ppsm"

G: wps演示 ".dps"

H: 开放文档格式 ".ofd", 注:常见于“电子发票版式文件”

I: 富文本类型 ".rtf"

J: HTML页面文件  ".html", ".htm", ".mht", ".mhtml"

K: 邮件格式文件 ".eml", 注:默认提取前5个附件

L: 部分思维导图格式文件 ".emmx", "xmind", "gmind"

M: UTF8编码, Unicode编码, Ansi编码的文本文件,

".txt", ".c", ".h", ".cpp", ".m", ".asp", ".aspx", ".cs", ".pas",

".php", ".vb", ".bas", ".js", ".css", ".java", ".jsp", ".go",

".pl", ".perl", ".ps", ".py", ".python", ".sql", ".rs", ".dart"

注:可以在配置文件中增加纯文本文件后缀 

N: 帮助文件 “*.chm",注:此格式仅限Windows平台

O: 压缩文件 ".zip", 注:默认提取前5个文件

三:其他

返回字符串及文本文件为UTF-8编码,提取最大文件默认为200M,配置文件可以设置此阀值。

企业版本提供异步多线程函数,可以同时批量处理多个文件。

四:详细文档

系统提供组件调用方式说明,参数说明等详细资料。

具体使用请访问 Graccvs文件正文提取开发组件--在线帮助

五:各种语言调用示例

组件下载地址(Windows/ Linux/Android/苹果ios):

模板OCR识别工具--Graccvs文件正文提取开发组件--软件下载

系统组件提供各种语言调用示例及说明:

Windows Java示例 https://www.gaya-soft.cn/dfgr/v2/gr_win_java.zip

Windows C#示例 https://www.gaya-soft.cn/dfgr/v2/gr_win_net.zip

Windows VC示例 https://www.gaya-soft.cn/dfgr/v2/gr_win_vc.zip

Windows GCC示例 https://www.gaya-soft.cn/dfgr/v2/gr_win_gcc.zip

Windows Delphi示例 https://www.gaya-soft.cn/dfgr/v2/gr_win_delphi.zip

Linux GCC 示例  https://www.gaya-soft.cn/dfgr/v2/gr_linux_gcc.zip

Linux Java示例 https://www.gaya-soft.cn/dfgr/v2/gr_linux_java.zip

Android Java 示例 https://www.gaya-soft.cn/dfgr/v2/gr_android.zip

苹果ios Objective-C示例 https://www.gaya-soft.cn/dfgr/v2/gr_ios.zip

Graccvs文件正文提取开发组件--文件内容搜索的利器相关推荐

  1. Delphi文件正文提取开发组件--文件内容搜索的高效工具

    Graccvs文件正文提取开发组件支持各种文件提取正文,为Lucene/CLucene, Elasticsearch, Sphinx等全文检索工具,为OA,ERP,CRM系统使用文件提供文件正文使用和 ...

  2. linux下压缩gz文件怎么打开,在Linux系统中打开或解压缩.gz文件及提取tar.gz文件的方法...

    本文本文介绍如何打开(或解压缩).gz文件的方法.Gzip是一种流行的压缩算法,可在保持原始文件模式.所有权和时间戳的同时减小文件大小,此算法通常用于压缩Web元素,以加快页面加载速度.按照约定,使用 ...

  3. java对文件读取_java开发中文件读取的方法总结

    1.按字节读取文件内容 2.按字符读取文件内容 3.按行读取文件内容 4.随机读取文件内容 public class ReadFromFile { /** * 以字节为单位读取文件,常用于读二进制文件 ...

  4. android文件加解密开发,Android文件加密解密的实现

    [实例简介] 最近项目中需要用到加解密功能,言外之意就是不想让人家在反编译后通过不走心就能获取文件里一些看似有用的信息 [实例截图] [核心代码] TestCipher └── TestCipher ...

  5. Android系统中如何得到各种格式的文件正文(office文件,PDF,邮件,html,zip等)

    在Android平台下,办公系统,ERP,CRM等开发过程中,需要对Doc, docx, xls, xlsx, ppt, ppts, pdf, html等各种格式的文件内容进行搜索和查找,实现这些格式 ...

  6. VC语言文件正文分析器--支持格式常用文件格式

    Graccvs文件正文提取开发组件支持各种文件提取正文,为OA,ERP,CRM系统使用文件提供文件正文使用和搜索,支持常见各种文件格式".pdf", ".doc" ...

  7. Linux 平台下如何使用GCC得到各种格式的文件正文(office文件,PDF,邮件,html,zip等)

    在文件数据挖掘处理技术中,如何从文本数据中抽取有价值的信息和知识是一个重要的数据挖据分支,是机器学习.自然语言处理.数理统计的基础技术之一,是信息检索,机器学习,AI智能等高端技术的的底层技术支持之一 ...

  8. Linux + JAVA得到各种格式的文件正文(office文件,PDF,邮件,html,zip等)

    在文件数据挖掘处理技术中,如何从文本数据中抽取有价值的信息和知识是一个重要的数据挖据分支,是机器学习.自然语言处理.数理统计的基础技术之一,是信息检索,机器学习,AI智能等高端技术的的底层技术支持之一 ...

  9. Windows+GCC得到各种格式的文件正文(office文件,PDF,邮件,html,zip等)

    Graccvs组件智能分析提取其他各种文件中文本,为自然语言信息检索,机器学习等高端技术提供底层支持的技术组件,是Lucene/CLucene, Elasticsearch, Sphinx等全文检索工 ...

最新文章

  1. CodeArt SharePoint Permission Extension 1.0 beta publish
  2. 神经网络其实和人一样懒惰,喜欢走捷径......
  3. linux下aio异步读写详解与实例
  4. 从6篇经典论文看问题生成及其相关技术
  5. JavaScript实现strongly Connected Components 强连通分量算法(附完整源码)
  6. Python-类与文件读取结合
  7. Github上如何找到自己想要的开源项目(小技巧:精确搜索)
  8. 回车键的ASCII值
  9. 什么是云?云里雾里——最流行的云时代
  10. 管家婆普及版_昆明逸马软件 — 管家婆服装普及版
  11. html大作业【NBA篮球介绍 22个页面】学生网页设计源码
  12. Oracle 同义词详解(synonym)
  13. EMV TLV 总结
  14. 融360|简普科技《维度》报告:超过三成受访者遇过理财投资陷阱 90后受害最深
  15. 算法的时间复杂度详解
  16. 新手向,从用Spark求平均值到reduceByKey详解
  17. Caffe源码解析(一) —— caffe.proto
  18. Vue.extend构造器
  19. Java生成条形码图片,并保存在指定路径
  20. x86 LEA 指令

热门文章

  1. 放肆的使用UIBezierPath和CAShapeLayer画各种图形(含仿微信视频眼镜Demo)
  2. 运动员(射击)的成绩可以用脑电技术预测吗?
  3. 【量化笔记】Markowitz均值-方差模型
  4. 在windows生成SSH秘钥连接linux远程主机
  5. angularjs 同步請求_AngularJS 应用请求设置同步问题~
  6. Linux系统在线安装和查看git版本
  7. TP房产系统_Tphouse_tpfangchan 1.2.7升级开源版多站点多城市房产系统源码带小程序
  8. 20189320《网络攻防》第六周作业
  9. 【机器学习实战系列】读书笔记之DecisionTree(ID3算法)(三)
  10. h5(网页) 调用相机拍照和相册,实现图片上传功能