1024是2的十次方,也是二进制计数的基本计量单位之一,每年的10月24日因此成为了中国程序员的盛会。近期,CSDN(中国开发者网络)第三届“1024程序员节”(简称“大会”)顺利举办,来自Linaro等开源组织的领导者和微软、腾讯、华为、合合信息等企业的技术专家接连登陆主论坛重磅活动《全体大会:2022技术英雄会》,与观众云端话科技。

生产生活中,被整齐记录在二维表结构里的“结构化”数据只是少数。据国际数据公司(IDC)预测,全球非结构化数据将在2025年占据数据总量的80%至90%。智能文档处理技术能够对各种文件、图片中的非结构化数据进行内容识别和抽取,对推进企业数字化转型意义重大。

怎样从数据中发现更多的价值,找到更实用的开发工具,是程序员群体重点关注的话题。合合信息智能创新事业部总经理唐琪受邀分享智能文档处理的技术优化方法及开源渠道介绍,获得了众多开发者的认可。

“智能文档处理”在开发者群体中热度攀升(图源:CSDN官网)

文档处理之困:识别文字还不够,版式理解是基础

智能文档处理技术本质上是把文档里的信息从载体中剥离出来,将其对接到其他系统,以数据的流转实现流程自动化的技术。典型场景如单据的自动审核,就是先对单据进行图像检测,从中提取所需信息并录入到系统里,经过结构化处理,“翻译”成机器能理解的内容后再进行自动判别,达到节省人工成本、提高工作效率的目的。

唐琪在分享中指出,采集设备的不确定性和文档版式的多样性,导致文档在处理过程中经常遇到“看不清、看不准、认不全、难理解”四大类问题。合合信息在弯曲矫正、去摩尔纹(屏幕纹)等图像质量增强领域进行了深入研究,为信息的提取、存储、检索、管理等后续工作创造良好的环境。

合合信息去摩尔纹(屏幕纹)技术处理效果

合合信息弯曲矫正技术处理效果

“在各种场景的实践中我们发现,单纯的文字识别不足以支撑更细致的文档处理需求,版面元素分析才是基础。”唐琪提到,文档处理过程中要重点关注对印章、logo、水印、页眉、二维码、公式等元素的检测,根据检测结果采取对应的版式分析方式,可得到更精准的识别结果。

合合信息对智能文档处理的关键要素的思考

如何让已经接受过市场检验的技术产品惠及更多的开发者?技术服务的共享是促进科技创新的重要渠道。合合信息将在制造业、金融业、物流业等30个行业应用里打磨出的核心技术产品“智能文字识别服务平台”(简称“平台”)以SaaS的形式免费开放给个人开发者,助力使用者们低成本、高效率获取贴合个性化需求的定制模型。

合合信息开源平台:10分钟完成模型构建,10张样本即可做训练

受远程办公趋势发展和环保“无纸化”倡导的影响,社会对智能文档处理技术的需求不断增加。合合信息智能文档处理技术可支持全球超过50种主流语言的印刷体、手写体的高精度识别,以及增值税发票、出租车票等20多种票据的识别,这些通用识别、信息抽取能力被搭载于合合信息智能文字识别服务平台SaaS版中,并于大会上开放试用。

该平台提供了海量训练数据快速生成、自动化模型生成、完整的模型训练和测试等功能,具备低使用门槛、所需样本少、开发周期短的优势,使用者通过云端的简单操作,即可定制提取标准和非标准版式文档的结构化信息,仅需10张样本就可以开始训练。

合合信息智能文字识别服务平台工作流程

现阶段,企业对于OCR的需求趋向于定制化和多样化,却为高昂的开发成本所限,平台可为中小企业的数字化转型提供助力。比起传统的技术方案,企业更希望被赋予人工智能产品开发能力,去搭建基于自有业务场景的识别模型。在平台上,企业可通过简单的配置快速产出结构化识别模型,无需服务器资源与运维投入便可获取技术支持,降低开发、部署与运维环节中的门槛。

据悉,实测中应用人员最短可在10分钟内完成抽取模型开发全流程,可视化界面设计让没有算法基础的业务人员也可顺利使用。

10分钟完成模型开发!合合信息智能文字识别服务平台亮相1024程序员节相关推荐

  1. 能“读懂”古文还可反诈骗, 合合信息智能文字识别“黑科技”亮相2022WAIC

    挑战"大师级"阅读理解,合合信息智能文字识别技术亮相2022世界人工智能大会 "克曰穆朕文且師華父悤譲氒心宁静于猷淑哲氒"要怎么断句?世界人工智能大会期间,一篇 ...

  2. 合合信息——用智能文字识别技术赋能古彝文原籍数字化

    文章目录 1. 背景介绍:古彝文是什么?为什么要保护它?如何保护它? 2. 传统方法保护古彝文:原籍难获.翻译困难 2.1. 古彝文原籍的破损与古法保存 2.2 古彝文原籍的保护与翻译 2.2.1 获 ...

  3. 合合信息递交科创板招股说明书,智能文字识别+商业大数据双轮驱动

    提示:后台回复关键词"合合信息"可下载合合信息证监会完整PDF版招股说明书 数据智能产业创新服务媒体 --聚焦数智 · 改变商业 9月27日,据上海证券交易所官网信息,合合信息已递 ...

  4. AI开发者十问:10分钟了解AI开发的基本过程

    摘要:从AI开发模型.框架.工具,到提升开发效率的学习办法,为AI开发者逐一解答. 本文分享自华为云社区<10分钟了解AI开发的基本过程>,作者:简单坚持. 1.AI开发究竟在开发什么? ...

  5. 【华为云技术分享】文字识别服务(OCR)基于对抗样本的模型可信安全威胁分析初析

    [摘要] 文字识别作为计算机视觉的重要分支之一,面临着视觉方向同样的安全威胁分析.随着人工智能的普及和文字识别服务大规模的商业落地,解决好相关的模型安全威胁问题已经刻不容缓. OCR处理流程融合了多种 ...

  6. 【为生活开发系列之四】图片文字识别与标准文档对比工具

    前言 我:测试?测试?测试? 5s后 测试:刚刚在对比网页上图片上的文字和标准文档里面的文字是不是一样的,看的老娘眼都废了,没空理你. 我:......这么low的吗? 测试:莫非这位兄台有高见? 我 ...

  7. Android进阶: 10分钟实现NDK-JNI 开发教程

    项目简介 JNI:Java Native Interface(Java 本地编程接口),一套编程规范,它提供了若干的 API 实现了 Java 和其他语言的通信(主要是 C/C++).Java 可以通 ...

  8. 领域首创!合合信息与上海大学联合开启贵州原生态古彝文典籍数字化项目

    古彝文传承至今已有数千年历史,是世界上最古老的文字之一.2022年12月21日,合合信息与上海大学社会学院正式签署校企合作协议,双方将合力完成以国家珍贵古籍<西南彝志>为中心的贵州古彝文图 ...

  9. 通用能力及AI核心能力表现优异!合合信息智能文档处理系统(IDP)高评级通过中国信通院评估

    数字经济快速发展的背后,全球数据总量呈现出爆发式增长趋势.智能文档处理(IDP)技术能够高效地从多格式文档中捕捉.提取和处理数据,帮助机构和企业大幅提升文档处理效率,节约时间和人力成本.近期,合合信息 ...

最新文章

  1. [Linux内核]软中断与硬中断
  2. 很好的FireFox addin
  3. Didn‘t find class “android.view.View$OnUnhandledKeyEventListener“,Didn‘t find class “androidx
  4. 在CodeBlocks下配置GoogleTest单元测试框架
  5. 工具包:Safetype Config使用
  6. python为什么用class_python为什么会有@classmethod?
  7. 安装docker和jupyter采坑历程
  8. mysql-libs 5.6.23_利用rpm包手把手教你安装MySQL5.6.23
  9. android退出一个含有listview的activity时报java.lang.IllegalA
  10. flume学习(六):如何使用event header中的key值
  11. 树算法系列之三:GBDT
  12. PHPExcel 根据总列数生成EXCEL列名
  13. 办公、学习不得不收藏的十个网站,有了它效率至少提升十倍
  14. 量子加密欲应用到智能手机 让黑客流泪
  15. Hello, CSDN
  16. 修改mdf ldf文件权限修改方法
  17. 【GANs学习笔记】(十九)CycleGAN、StarGAN
  18. 《Python程序设计(第3版)》[美] 约翰·策勒(John Zelle) 第 9 章 答案
  19. [论文解读]Going out on a limb: Joint Extraction of Entity Mentions and Relations without...
  20. 吴恩达 DeepLearning 第二课第三周题目(包括选择题)

热门文章

  1. 数据库建模工具UML
  2. 如何利用Python破解12306验证码和浏览车次为例!你学会了吗?
  3. 3D游戏恶魔与牧师(动作分离)
  4. 编译器扩展-MenuItem
  5. 基于MVC4+EF5+EasyUI技术实现通用权限管理系统(EpPlus、HignCharts、Reportviewer报表)...
  6. java 判断时间先后顺序_java怎样判断下面的日期的先后
  7. 世界上第一台电子计算机很大 质量为35吨,世界上第一台电子计算机很大.质量为35吨.比一头大象体重的6倍还多0.2吨.一头大象重多少吨? 题目和参考答案——青夏教育精英家教网——...
  8. 耳麦有杂音(电流声)的解决方法
  9. 简单介绍一下关于PTrade量化交易系统的使用权
  10. 频谱分析幅值单位_Chapter1|1.1 声音的时间和频谱特征