文字是传递信息的高效途径,利用OCR技术提取文本信息是各行业向数字智能化转型的第一步。与此同时,针对OCR提取的海量文本信息,利用NLP技术进一步加工提取、分析理解后才能最大化发挥文本信息的价值。NLP技术可以提升OCR准确率,并从文本中抽取关键信息、构建知识图谱,搭建检索、推荐、问答系统等。

虽然各行业智能化产业升级已经在如火如荼的开展中,但是在实际应用落地中却遇到诸多困难,比如:数据样本不够、模型精度不高、预测时延大等。为此,百度飞桨针对真实、高频的产业场景,提供了从数据准备、模型训练优化,到模型部署全流程的案例教程。

听说文档和代码已经开源了,来吧

  • https://github.com/PaddlePaddle/awesome-DeepLearning

OCR + NLP 串联技术难点

市面上有不少开源的OCR、NLP产品,但是如果想直接利用这些工具,会面临底层框架不统一、串联难度高、效果无法保证等问题。PaddleOCR和PaddleNLP是面向产业界的开发库,均基于飞桨开源框架最新版本,能够将OCR和NLP技术无缝结合。

今天我们针对金融行业研报、物流快递单,来看看OCR + NLP信息抽取技术的应用。

OCR + NLP金融研报分析

当前,诸多投资机构都通过研报的形式给出对于股票、基金以及行业的判断,让大众了解热点方向、龙头公司等各类信息。然而,分析和学习研报往往花费大量时间,研报数量的与日俱增也使得研报智能分析诉求不断提高。这里我们采用命名实体识别技术,自动抽取研报中的关键信息,例如,“中国银行成立于1912年。”中包含了组织机构、场景事件、时间等实体信息。

OCR+NLP Pipeline

针对研报数据的命名实体识别与词频统计整体流程如上图所示。首先将研报pdf数据使用fitz包拆分为图像格式,然后利用PaddleOCR套件在研报数据集上微调PP-OCR[1]的检测模型,使用现有的识别模型获得文本信息。PP-OCR是PaddleOCR中由百度自研的明星模型系列,由文本检测、文本方向分类器与文本识别模块串联而成。

PP-OCR Pipeline

对OCR识别出的文本进行整理后,调用PaddleNLP中的Taskflow API抽取文本信息中的组织机构实体。最后对这些实体进行词频统计,就可初步判定当前研报分析的热点机构。

Taskflow使用示意图

目前,Taskflow API 支持自然语言理解(NLU)和生成(NLG)两大场景共八大任务,包括中文分词、词性标注、命名实体识别、句法分析、文本纠错、情感分析、生成式问答和智能写诗,均可一键调用。

物流快递单信息抽取

双十一要到了,想必很多人都预备了一个满满的购物车。去年双十一成交量4982亿元,全国快递企业共处理快件39亿件,这背后则是物流行业工作量的骤增。除了满负荷的长深高速公路,还有繁忙的快递小哥。无论是企业业务汇总,还是寄件信息填写,都少不了关键信息智能提取这一环节,这其中均采用了命名实体识别技术。

命名实体识别大体上有三种方案:字符串匹配、统计语言模型、序列标注。前两种方法需要预先构建词典、穷举所有实体,无法发现新词、变体等。本案例中采用了目前的主流方法——序列标注。

数据集包括1600条训练集,200条训练集和200条测试集,采用BIO体系进行标注。

实体定义和数据集标注示例

针对轻量化、高精度的需求,可以选用RNN+CRF 方案。也可以采用预训练模型,通过模型压缩、动转静加速等方式满足精度和性能的要求。我们采用Ernie-Gram[2] + CRF 获得了最佳效果。

此外,命名实体识别技术可以应用于各类关键信息的提取,例如电商评论中的商品名称、电子发票中的抬头信息、收入证明中的金额、法律文书中的犯罪地点等信息。结合关系抽取、事件抽取技术,还可以构建知识图谱、搭建问答系统等。

直播预告☆

为了便于大家更熟练地使用这些案例教程,百度高工将于10月26-28日围绕四大行业、八大真实场景亲授产业实践案例课,欢迎小伙伴们锁定我们的直播间,来和我们交流吧!

扫码报名直播课,立即加入技术交流群

精彩内容抢先看

  • 官网地址:https://www.paddlepaddle.org.cn

  • PaddleOCR 项目地址:https://github.com/PaddlePaddle/PaddleOCR

  • PaddleNLP 项目地址:https://github.com/PaddlePaddle/PaddleNLP

参考文献

[1] PP-OCR: A Practical Ultra Lightweight OCR System

(https://arxiv.org/pdf/2009.09941.pdf)

[2] ERNIE-Gram: Pre-Training with Explicitly N-Gram Masked Language Modeling for Natural Language Understanding

(https://arxiv.org/pdf/2010.12148.pdf)

OCR+NLP 提取信息并分析,这个开源项目火了!相关推荐

  1. 推荐 7 个 Vue2、Vue3 源码解密分析的开源项目

    大家好,我是你们的 猫哥,那个不喜欢吃鱼.又不喜欢喵 的超级猫 ~ 1. 为什么要学习源码 ? 阅读优秀的代码的目的是让我们能够写出优秀的代码. 不给自己设限,不要让你周围人的技术上限成为你的上限.其 ...

  2. 太骚了!还能这样获取wifi密码?Github这个开源项目火的一塌糊涂!

    点击上方"Github爱好者社区",选择星标 回复"资料",获取小编整理的一份资料 作者:GG哥 来源:GitHub爱好者社区(github_shequ) 这是 ...

  3. 音乐伴奏提取 在线网站和GitHub开源项目

    今天无意间发现了一个音乐伴奏提取的在线网站,试了一下,效果真的不错,在这里分享给大家 http://www.zhiqubz.com/ 2020.10.26更新,发现了一个新的网站.https://ww ...

  4. 大家都收藏了的最新开源项目Top12!CV、NLP、机器学习一应俱全

    参加 2018 AI开发者大会,请点击大会官网 译者 | 林椿眄.Jane 责编 | Jane 出品 | AI科技大本营 [导读]作者整理了近期最新发布及更新的 12 个非常有学习和收藏意义的开源项目 ...

  5. 2021-“新“的开源项目之handpose_x(手势识别交互)

    自己从事算法工作多年,每个算法技术想要真正落地是很难的,或是经历漫长艰辛的过程才得以成功.随着时间自己更多的去思考在这个行业自己的方向.价值在哪里.在算法这个领域,我不属于学者研究型,我想这个领域大多 ...

  6. Repo Jacking:依赖关系仓库劫持漏洞,影响谷歌GitHub等7万多个开源项目的供应链...

     聚焦源代码安全,网罗国内外最新资讯! 编译:奇安信代码卫士团队 三个场景可导致 GitHub 仓库遭劫持.直接组合使用这三个场景可导致恶意代码注入.千万别这么做. 背景 最近的一个客户项目使我们开始 ...

  7. 2.4K Star!450 个重磅前端开源项目合集推荐

    大家好,我是你们的 猫哥,还是那个不喜欢吃鱼.又不喜欢喵 的超级猫 ~ 不知不觉,公众号:前端GitHub 和 GitHub 上的仓库 FrontEndGitHub 都已经更新并运营超过半年了呀, 前 ...

  8. [转]开源项目学习方法ABC

    学习各种开源项目,已经成为很多朋友不可回避的工作内容了.笔者本人也是如此.在接触并学习了若干个开源项目之后,笔者试图对自己工作过程中的若干体会加以总结,以期对一些希望借鉴的朋友有所裨益.        ...

  9. Node 应用篇!推荐 10 个好用的 Node 的开源项目 YYDS

    大家好,我是你们的 猫哥,那个不喜欢吃鱼.又不喜欢喵 的超级猫又在线营业啦 ~ 平时如何发现好的开源项目,可以看看这篇文章:GitHub 上能挖矿的神仙技巧 - 如何发现优秀开源项目 1. puppe ...

  10. 前端月趋势榜:5 月最热门的 20 个前端开源项目 - 2105

    大家好,我是你们的 猫哥,那个不喜欢吃鱼.又不喜欢喵 的超级猫 ~ 相信很多人都没有逛 GitHub 的习惯,因此总会有开源信息的不对称,有哪些优秀的前端开源项目值得学习的也不知道. 从 2018 年 ...

最新文章

  1. 【报告】2021物联网行业研究报告(附PDF下载)
  2. ab压力 failed_Apache ab 压力测试
  3. 大曾幽默打油诗_这才是真正的幽默打油诗,逗人一笑,又引人深思!
  4. linix防火墙设置之顺序设置问题 -- 解决防火墙规则顺序和插入规则到指定序号的问题...
  5. python csv模块用法_python使用csv模块如何将数据存放在一张表的不同行?
  6. 操作系统(王道笔记第三章内存)
  7. CF125E MST company (凸优化+MST)
  8. sublime text插件emmet自定义模板
  9. 求两直线交点程序 C
  10. 维特智能陀螺仪角度传感器原理
  11. android 上拉抽屉,Flutter上拉抽屉实现
  12. 静态手绘图-屁民科普
  13. Spring boot 集成 WebService(简单使用、文件上传下载)
  14. 关于Adams仿真过程中问题的解决记录
  15. unity旗帜飘动shader
  16. C++一本通题库1010
  17. oracle 生成随机姓名_Oracle生成随机日期时间
  18. SQL AUTO INCREMENT
  19. Setup Factory导入注册表时丢失部分语句
  20. 【H5+ Quick-cocos2dx整合】之iOS 二 集成H5+ SDK

热门文章

  1. Jedis与Lua脚本结合
  2. linux下source filename,./filename,. filename,......
  3. 【转】给网站添加X-UA-Compatible标签
  4. 手动在viewpager的最后一页滑到第一页。
  5. jquery页面隐藏和展开之间切换
  6. 献给时尚男女的61句最酷口语(转)
  7. C# MD5加密与解密
  8. #JS 窗口resize避免触发多次
  9. 动态规划-最少硬币问题
  10. 信用评分卡 (part 1 of 7)