点击上方“小白学视觉”,选择加"星标"或“置顶

重磅干货,第一时间送达

导读

人工智能领域中增长最快的子领域之一是自然语言处理(NLP),它处理计算机与人类(自然)语言之间的交互,特别是如何编程计算机以处理和理解大量自然语言数据。

自然语言处理通常涉及语音识别、自然语言理解和自然语言生成等。其中,命名实体识别(NER)等信息提取问题正迅速成为NLP的基础应用之一。在这篇文章中,我们将分享一个解决执行NER时出现的最棘手问题之一的解决方案。

深度学习的最新发展导致了可用于实体提取和其他NLP相关任务的复杂技术的迅速发展。通常,企业级OCR软件(ABBY、ADLIB等)用于将大量非结构化和基于图像的文档转换为完全可搜索的PDF和PDF/A,人们可以使用最先进的算法(BERT、ELMo等)创建高度上下文化的语言模型来推断提取的信息并实现NLP目标。

但实际上,并非所有文档都仅由基于语言的数据组成。文档可以具有许多其他非语言元素,例如单选按钮、签名块或某些其他几何形状,这些元素可能包含有用的信息,但无法通过OCR或上述任何算法轻松处理。因此,需要设计一个专门的解决方案来识别和处理这些元素。

操作步骤

步骤1:将文档(PDF等)转换为图像文件。编写一个基于OpenCV API的启发式代码来提取所有可能的图像片段,此代码应针对覆盖率而不是准确性进行优化。

步骤2:相应地标记步骤1中提取的图像。创建一个基于CNN的深度学习网络,并根据标记的图像对其进行培训,这一步将保证准确性。

步骤3:创建一个Sklearn pipeline,集成上述两个步骤,以便在接收文档时,提取所有潜在图像,然后使用经过训练的CNN模型预测所需形状的图像。

设计细节

需要注意的是,OpenCV代码尽可能多的识别所需形状的图像段。本质上,我们需要有一个宽的检测范围,不必担心误报,它们将由后续的ConvNet模型处理。之所以选择CNN进行图像分类,是因为它易于建模和快速建模,但只要性能和精度在可接受的范围内,就可以使用任何其他选择的算法。Pipelining 在构造ML代码中起着关键作用,它有助于简化工作流程和强制执行步骤的顺序。

实践操作

第1步:OpenCV

此代码具有双重用途:

1)创建训练/测试数据

2)在集成到管道中时提取图像段

提取代码目前可以检测2种类型(单选按钮和复选框),但通过在ShapeFinder类下添加新方法,可以轻松支持其他对象,下面是用于识别正方形/矩形(也称为复选框)的代码片段。

#detect checkbox/square
def extract_quads(self,image_arr,name_arr):if len(image_arr) > 0:for index,original_image in enumerate(image_arr):#to store extracted imagesextracted_quad = []image = original_image.copy()          #grayscale only if its not alreadyif len(image.shape) > 2:gray = cv2.cvtColor(image.copy(), cv2.COLOR_BGR2GRAY)  else:gray = image.copy()#image preprocessing for quadrilateralsimg_dilate = self.do_quad_imageprocessing(gray,self.blocksize,self.thresh_const,self.kernelsize)   if len(img_dilate) > 0:try:#detect contourscnts = cv2.findContours(img_dilate.copy(), cv2.RETR_LIST, cv2.CHAIN_APPROX_SIMPLE)cnts = imutils.grab_contours(cnts)#loop through detected contoursfor c in cnts:peri = cv2.arcLength(c, True)approx = cv2.approxPolyDP(c, (self.epsilon)* peri, True)#bounding rec cordinates(x, y, w, h) = cv2.boundingRect(approx)#get the aspect ratioaspectratio = float(w/h)area = cv2.contourArea(c) if area < self.rec_max_area and area > self.rec_min_area and (aspectratio >= self.aspect_ratio[0] and aspectratio <= self.aspect_ratio[1]):#check if there are 4 corners in the polygonif len(approx) == 4:                 cv2.drawContours(original_image,[c], 0, (0,255,0), 2)roi = original_image[y:y+h, x:x+w]extracted_quad.append(roi)except Exception as e:print('The following exception occured during quad shape detection: ',e)self.extracted_img_data.append([original_image,extracted_quad,name_arr[index]])else:            print('No image is found during the extraction process')

使用pdf2image将pdf转换为图像:

def Img2Pdf(dirname):images = []#get the pdf filefor x in os.listdir(dirname):if (dirname.split('.')[1]) == 'pdf':pdf_filename = ximages_from_path = convert_from_path(os.path.join(dirname),dpi=300, poppler_path = r'C:\Program Files (x86)\poppler-0.68.0_x86\poppler-0.68.0\bin')
for image in images_from_path:images.append(np.array(image))return images

第二步:卷积神经网络

由于提取的图像片段将具有相对较小的尺寸,简单的3层CNN将为我们提供帮助,但我们仍然需要加入一些正则化和Adam来优化输出。

网络应针对每种类型的图像样本分别进行训练,以获得更好的精度。如果添加了新的图像形状,可以创建一个新的网络,但现在我们对复选框和单选按钮都使用了相同的网络。它目前只是一个二进制分类,但进一步的分类也可以这样做:

  • 勾选复选框

  • 空复选框

  • 其他

#keras things
from keras.utils import to_categorical
from keras import layers
from keras import models
from keras.regularizers import l2Y_test_orig = to_categorical(Y_test_orig, num_classes=2)
Y_train_orig = to_categorical(Y_train_orig, num_classes=2)# 3 layer ConvNet
model = models.Sequential()
model.add(layers.Conv2D(32, (3, 3), activation='relu',input_shape=(32,32,1)))
model.add(layers.MaxPooling2D((2, 2)))model.add(layers.Conv2D(64, (3, 3), activation='relu'))
model.add(layers.MaxPooling2D((2, 2)))model.add(layers.Conv2D(128, (3, 3), activation='relu'))
model.add(layers.MaxPooling2D((2, 2)))#dense layer
model.add(layers.Flatten())#add the regulizer
model.add(layers.Dense(128, activation='linear', activity_regularizer=l2(0.0003)))
model.add(layers.Dense(128, activation='relu'))
model.add(layers.Dense(2, activation='sigmoid'))  model.summary()from keras.optimizers import Adam
opt = Adam(lr=0.001)
model.compile(optimizer=opt, loss=keras.losses.categorical_crossentropy, metrics=['accuracy'])ntrain = len(X_train_orig)
nval = len(X_test_orig)
X_train_orig = X_train_orig.reshape((len(X_train_orig),32,32,1))
X_test_orig = X_test_orig.reshape((len(X_test_orig),32,32,1))train_datagen = ImageDataGenerator(rescale = 1./255,rotation_range = 40, width_shift_range = .2,height_shift_range = .2, shear_range = .2, zoom_range =  .2, horizontal_flip = True)val_datagen = ImageDataGenerator(rescale = 1./255)train_generator = train_datagen.flow(X_train_orig,Y_train_orig,batch_size=32)
val_generator = val_datagen.flow(X_test_orig,Y_test_orig,batch_size = 32)#X_train_orig, X_test_orig, Y_train_orig,Y_test_orig
history = model.fit_generator(train_generator,steps_per_epoch = ntrain/32, epochs = 64, validation_data = val_generator, validation_steps = nval/32  )

第3步中,我们将把所有内容整合在一个Sklearn pipeline中,并通过predict函数将其公开。我们没有介绍的一个重要功能是将复选框或单选按钮与文档中相应的文本相关联。在实际应用中,仅仅检测没有关联的元素是毫无用处的。

GITHUB代码链接:

https://github.com/nebuchadnezzar26/Shape-Detector

下载1:OpenCV-Contrib扩展模块中文版教程

在「小白学视觉」公众号后台回复:扩展模块中文教程即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。

下载2:Python视觉实战项目52讲

在「小白学视觉」公众号后台回复:Python视觉实战项目即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。

下载3:OpenCV实战项目20讲

在「小白学视觉」公众号后台回复:OpenCV实战项目20讲即可下载含有20个基于OpenCV实现20个实战项目,实现OpenCV学习进阶。

交流群

欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~

利用OpenCV+ConvNets检测几何图形相关推荐

  1. 利用 OpenCV+ConvNets 检测几何图形

    作者 | 小白 来源 | 小白学视觉 导读 人工智能领域中增长最快的子领域之一是自然语言处理(NLP),它处理计算机与人类(自然)语言之间的交互,特别是如何编程计算机以处理和理解大量自然语言数据. 自 ...

  2. opencv 检测几何图形_使用OpenCV + ConvNets检测几何形状

    opencv 检测几何图形 A simple yet powerful pipeline for detecting shapes in scanned documents 一个简单而强大的管道,用于 ...

  3. 利用OpenCV进行图像的轮廓检测

    简 介: 本文对于OpenCV中的轮廓检测算法进行了讨论,可以看到一些基于轮廓检测的应用.接着对四种不同的提取方式的结果进行了讨论.你还了解了如何将轮廓进行绘制的方法. 关键词: 轮廓检测,二值化 § ...

  4. 利用OpenCV实现人眼的检测与跟踪

    图像处理开发需求.图像处理接私活挣零花钱,请加微信/QQ 2487872782 图像处理开发资料.图像处理技术交流请加QQ群,群号 271891601 本篇博文的基础是  利用OpenCV的级联分类器 ...

  5. 利用OpenCV实现人脸检测

    如何在一副图片中检测到人脸,这涉及到计算机图形学中一些非常复杂的计算,如果这些计算都靠程序员自己来编程,那么工作量就相当大.OpenCV全称是Open Computer Vision,是指开放的计算机 ...

  6. android代码查找图像,Android平台上利用opencv进行图像的边沿检测

    原标题:Android平台上利用opencv进行图像的边沿检测 近开始接触opencv for Android,从网上down了图像的边沿检测的代码. 测试图片: 在Android2.3.1模拟器上跑 ...

  7. 利用OpenCV检测图像中的多个水果

    OpenCV检测图像中的多个水果 最近面试碰到一个图像算法题,要求: (1)检测一副图像中的多个苹果并标识出来. (2)标识时需要将图像中苹果按照从大到小给定序号,显示出来. 基于以上两点,准备利用C ...

  8. OpenCV学习之利用背景建模检测运动物体

    利用背景建模检测运动物体 #include "cv.h" #include "highgui.h" #include <stdio.h> int m ...

  9. [Python从零到壹] 三十五.图像处理基础篇之OpenCV绘制各类几何图形

    欢迎大家来到"Python从零到壹",在这里我将分享约200篇Python系列文章,带大家一起去学习和玩耍,看看Python这个有趣的世界.所有文章都将结合案例.代码和作者的经验讲 ...

最新文章

  1. ThreadLocal的两种用法总结
  2. tomcat GET 编码疑惑
  3. java金字塔等边三角形_java99乘法表的小练习 正三角 倒三角 正金字塔 倒金字塔...
  4. java爬虫入门--用jsoup爬取汽车之家的新闻
  5. 公有链、私有链、联盟链、许可链,这些区块链又分别代表着什么意思?
  6. VS201x的项目属性配置
  7. 极光笔记丨百亿级数据的实时存取优化与实践
  8. Navicat for MySQL 安装以及初始创建连接,新建数据表
  9. 什么是MVC开发模式?
  10. float与定位脱离文档流布局规则
  11. CS224N-HW1
  12. 电脑重装系统忘记备份怎么找回文件
  13. DenseFuse :A Fusion Approach to Infrared and Visible Images解读
  14. DELL电脑开机自检提示please run setup program
  15. 计算两点之间的距离(经度)
  16. 计算机二级题库xp系统安装,计算机二级快题库
  17. 2020.07.24日自编译L大源码openwrt固件x86软路由精简版
  18. 快速搭建一个简易的KMS 服务
  19. 【无人机】【2014.04】基于无人机的森林激光扫描系统研制与应用
  20. 51单片机通过串口打印调试信息

热门文章

  1. 微众银行AI团队开源联邦学习框架,并发布《联邦学习白皮书1.0》
  2. 63万张!旷视发布最大物体检测数据集Objects365 | 技术头条
  3. 发改委:互联网企业没有出现大规模裁员现象
  4. 送书 | 你一定能看懂的算法基础书(代码示例基于Python)
  5. 推荐好用 Spring Boot 内置工具类
  6. 一次搞懂 Runnable、Callable、Future、FutureTask,不懂不要钱!
  7. 真能一快遮百丑?为什么要弃坑FastJson
  8. 为什么 Java 中“1000==1000”为false,而”100==100“为true?
  9. 特征工程(三)Doc2Vec
  10. 深入浅出统计学(十五)相关与回归及PYTHON实现