在日常工作、学习中,我们经常会拿到图片格式的表格数据,然后手动把数据输到excel中,如果数据较少的话,还可以,但是一旦数据较多,这个工作量将是难以想象的。

下面我们介绍一种利用Python+Opencv+pytesser把图像识别为Excel表格的方法。

首先看一下要处理的原始图片:

1.提取原图中的表格部分

对原图做垂直投影,见下图:

对原图做水平投影,见下图:

根据水平投影以及垂直投影的坐标,我们可以得出每个格子对应的图片。

以上图片仅仅是用于处理过程展示,可以根据实际需要进行处理。

2、分别对得到的每个图片进行识别

在这里我们使用用pytesser,OCR in Python using the Tesseract engine from Google。是谷歌OCR开源项目的一个模块,可将图片中的文字转换成文本。

result = pytesseract.image_to_string(Image.fromarray(region), "chi_sim", None, None)

3、重点、难点

由于pytesser对图片内容的要求比较高,所以处理的重点在于表格大小提取处理。在获取到表格位置后,我们可以根据实际情况来应对。在子图中最好能够去除表格的边框,这样识别率会有一个质的提高。

下面是处理结果:

姓 名|年 级|住 址|联 系 方 式|

张 三|42|深 圳 南 山|13812345678|

李 四|45|北 京 朝 阳|13999999999|

王 五|20|上 海 浦 东|13666666666|

赵 六|88|广 州 天 河|13333333333|

这里仅仅对规则表格进行了说明,对于不规则的表格可以采用由大到小递归的方式处理,至于效果如何,还没有进行验证,以后再进一步研究分享。

python图片表格转excel表格_利用Python+Opencv+pytesser把图像识别为Excel表格相关推荐

  1. python把汉字变成拼音英文_利用python将表格中的汉字转化为拼音

    GB18030的字符集标准 http://zbgb5.com/2/StandardDetail479488.htm 缺少包时用pip install 进行安装,例如: pip install xlsx ...

  2. python关闭excel文件_利用Python读取和修改Excel文件(包括xls文件和xlsx文件)

    本文介绍一下使用Python对Excel文件的基本操作,包括使用xlrd模块读取excel文件,使用xlwt模块将数据写入excel文件,使用openpyxl模块读取写入和修改excel文件. 目录 ...

  3. python add picture显示过大_利用Python自带PIL库扩展图片大小给图片加文字描述的方法示例...

    前言 最近的一个项目中需要在图片上添加文字,使用了OpenCV,结果发现利用opencv给图像添加文字有局限.可利用的字体类型比较少,需要安装Freetype扩展,比较复杂.而且不能用putText函 ...

  4. python分析pdf年报 货币现金_利用python tushare pandas进行财报分析

    一.财报分析 大家在购买股票的时候,已经不只是凭感觉去买了,基本上都会对一个股票进行深入的分析. 毕竟购买股票还是一项风险性较高的投资,需要在较为熟悉以后才能去开展,不能蛮干,钱也都不是天上掉下来的. ...

  5. python 替换array中的值_利用Python提取视频中的字幕(文字识别)

    我的CSDN博客id:qq_39783601,昵称是糖潮丽子~辣丽 从今天开始我会陆续将数据分析师相关的知识点分享在这里,包括Python.机器学习.数据库等等. 今天来分享一个Python小项目! ...

  6. python 16bit转8bit的工具_利用python读取YUV文件 转RGB 8bit/10bit通用

    注:本文所指的YUV均为YUV420中的I420格式(最常见的一种),其他格式不能用以下的代码. 位深为8bit时,每个像素占用1字节,对应文件指针的fp.read(1): 位深为10bit时,每个像 ...

  7. python数据库操作批量sql执行_利用Python如何批量修改数据库执行Sql文件

    利用Python如何批量修改数据库执行Sql文件 来源:中文源码网    浏览: 次    日期:2018年9月2日 [下载文档:  利用Python如何批量修改数据库执行Sql文件.txt ] (友 ...

  8. python处理word或者pdf文件_利用python程序生成word和PDF文档的方法

    一.程序导出word文档的方法 将web/html内容导出为world文档,再java中有很多解决方案,比如使用Jacob.Apache POI.Java2Word.iText等各种方式,以及使用fr ...

  9. python头像右上角加红色数字_利用python实现微信头像加红色数字功能

    通过Python实现将你的 QQ 头像(或者微博头像)右上角加上红色的数字,类似于微信未读信息数量那种提示效果. 类似于图中效果 实现过程: 准备两张图片如下: 使用PIL图像处理库,导入moudle ...

  10. python如何爬取sci论文_利用python爬取并翻译GEO数据库

    GEO数据库是NCBI创建并维护的基因表达数据库,始于2000年,收录了世界各国研究机构提交的高通量基因表达数据,现芯片集数据量高达12万以上.想要从这里面挖掘(bai piao)数据,发个sci提前 ...

最新文章

  1. 大数据在犯罪预防中有独特价值
  2. SAP MM供应商主数据表
  3. 危险工种 机器人逃生记_袋料自动搬运机器人为什么能取代人工搬运
  4. 观察者模式及Java实现例子
  5. Dubbo 2.7三大特性详解
  6. 【玩转cocos2d-x之三十三】游戏嵌入Webview网页
  7. iOS屏幕旋转 浅析
  8. Linux 进程概念
  9. memcache 获取key的方法,查询session存储
  10. leetcode题解767-重构字符串
  11. Django模板系统(非常详细)
  12. php 实现静态链接,在PHP中链接静态方法?
  13. java 多线程,android 移动开发,日语学习,各项新闻RSS吐血分享
  14. vue解决mintui中使用MessageBox弹窗拦截,移动端多次点击手机的物理返回键,选择确定后页面返回不正确问题
  15. java excel 加密_Java 加密/解密Excel
  16. python人工智能之:多边形矩阵热图程序实战篇(二)
  17. 用CSS和JS打造一个简单的图片编辑器
  18. SSL/TLS、对称加密和非对称加密和TLSv1.3
  19. Dialer拨号定制功能
  20. 22考研中科大计算机专业经验分享

热门文章

  1. 微控制器STM32L412RBT6,STM32L412CBU6(128KB)MCU+FPU,规格
  2. 工业相机镜头相关知识整理
  3. 通过css和html构建能耗数据分析树状图
  4. DDD(领域驱动设计)概述
  5. python画球面投影_使用opencv-python对图片进行球面投影
  6. win10下u盘检测的到,但是盘符不显示
  7. python拆分PDF
  8. android沙箱,Android沙箱机制
  9. 为什么都说阿里 P7 的晋升是道坎?
  10. 机器人建图算法1、基础的地图结构和建图类型