python图片表格转excel表格_利用Python+Opencv+pytesser把图像识别为Excel表格
在日常工作、学习中,我们经常会拿到图片格式的表格数据,然后手动把数据输到excel中,如果数据较少的话,还可以,但是一旦数据较多,这个工作量将是难以想象的。
下面我们介绍一种利用Python+Opencv+pytesser把图像识别为Excel表格的方法。
首先看一下要处理的原始图片:
1.提取原图中的表格部分
对原图做垂直投影,见下图:
对原图做水平投影,见下图:
根据水平投影以及垂直投影的坐标,我们可以得出每个格子对应的图片。
以上图片仅仅是用于处理过程展示,可以根据实际需要进行处理。
2、分别对得到的每个图片进行识别
在这里我们使用用pytesser,OCR in Python using the Tesseract engine from Google。是谷歌OCR开源项目的一个模块,可将图片中的文字转换成文本。
result = pytesseract.image_to_string(Image.fromarray(region), "chi_sim", None, None)
3、重点、难点
由于pytesser对图片内容的要求比较高,所以处理的重点在于表格大小提取处理。在获取到表格位置后,我们可以根据实际情况来应对。在子图中最好能够去除表格的边框,这样识别率会有一个质的提高。
下面是处理结果:
姓 名|年 级|住 址|联 系 方 式|
张 三|42|深 圳 南 山|13812345678|
李 四|45|北 京 朝 阳|13999999999|
王 五|20|上 海 浦 东|13666666666|
赵 六|88|广 州 天 河|13333333333|
这里仅仅对规则表格进行了说明,对于不规则的表格可以采用由大到小递归的方式处理,至于效果如何,还没有进行验证,以后再进一步研究分享。
python图片表格转excel表格_利用Python+Opencv+pytesser把图像识别为Excel表格相关推荐
- python把汉字变成拼音英文_利用python将表格中的汉字转化为拼音
GB18030的字符集标准 http://zbgb5.com/2/StandardDetail479488.htm 缺少包时用pip install 进行安装,例如: pip install xlsx ...
- python关闭excel文件_利用Python读取和修改Excel文件(包括xls文件和xlsx文件)
本文介绍一下使用Python对Excel文件的基本操作,包括使用xlrd模块读取excel文件,使用xlwt模块将数据写入excel文件,使用openpyxl模块读取写入和修改excel文件. 目录 ...
- python add picture显示过大_利用Python自带PIL库扩展图片大小给图片加文字描述的方法示例...
前言 最近的一个项目中需要在图片上添加文字,使用了OpenCV,结果发现利用opencv给图像添加文字有局限.可利用的字体类型比较少,需要安装Freetype扩展,比较复杂.而且不能用putText函 ...
- python分析pdf年报 货币现金_利用python tushare pandas进行财报分析
一.财报分析 大家在购买股票的时候,已经不只是凭感觉去买了,基本上都会对一个股票进行深入的分析. 毕竟购买股票还是一项风险性较高的投资,需要在较为熟悉以后才能去开展,不能蛮干,钱也都不是天上掉下来的. ...
- python 替换array中的值_利用Python提取视频中的字幕(文字识别)
我的CSDN博客id:qq_39783601,昵称是糖潮丽子~辣丽 从今天开始我会陆续将数据分析师相关的知识点分享在这里,包括Python.机器学习.数据库等等. 今天来分享一个Python小项目! ...
- python 16bit转8bit的工具_利用python读取YUV文件 转RGB 8bit/10bit通用
注:本文所指的YUV均为YUV420中的I420格式(最常见的一种),其他格式不能用以下的代码. 位深为8bit时,每个像素占用1字节,对应文件指针的fp.read(1): 位深为10bit时,每个像 ...
- python数据库操作批量sql执行_利用Python如何批量修改数据库执行Sql文件
利用Python如何批量修改数据库执行Sql文件 来源:中文源码网 浏览: 次 日期:2018年9月2日 [下载文档: 利用Python如何批量修改数据库执行Sql文件.txt ] (友 ...
- python处理word或者pdf文件_利用python程序生成word和PDF文档的方法
一.程序导出word文档的方法 将web/html内容导出为world文档,再java中有很多解决方案,比如使用Jacob.Apache POI.Java2Word.iText等各种方式,以及使用fr ...
- python头像右上角加红色数字_利用python实现微信头像加红色数字功能
通过Python实现将你的 QQ 头像(或者微博头像)右上角加上红色的数字,类似于微信未读信息数量那种提示效果. 类似于图中效果 实现过程: 准备两张图片如下: 使用PIL图像处理库,导入moudle ...
- python如何爬取sci论文_利用python爬取并翻译GEO数据库
GEO数据库是NCBI创建并维护的基因表达数据库,始于2000年,收录了世界各国研究机构提交的高通量基因表达数据,现芯片集数据量高达12万以上.想要从这里面挖掘(bai piao)数据,发个sci提前 ...
最新文章
- 大数据在犯罪预防中有独特价值
- SAP MM供应商主数据表
- 危险工种 机器人逃生记_袋料自动搬运机器人为什么能取代人工搬运
- 观察者模式及Java实现例子
- Dubbo 2.7三大特性详解
- 【玩转cocos2d-x之三十三】游戏嵌入Webview网页
- iOS屏幕旋转 浅析
- Linux 进程概念
- memcache 获取key的方法,查询session存储
- leetcode题解767-重构字符串
- Django模板系统(非常详细)
- php 实现静态链接,在PHP中链接静态方法?
- java 多线程,android 移动开发,日语学习,各项新闻RSS吐血分享
- vue解决mintui中使用MessageBox弹窗拦截,移动端多次点击手机的物理返回键,选择确定后页面返回不正确问题
- java excel 加密_Java 加密/解密Excel
- python人工智能之:多边形矩阵热图程序实战篇(二)
- 用CSS和JS打造一个简单的图片编辑器
- SSL/TLS、对称加密和非对称加密和TLSv1.3
- Dialer拨号定制功能
- 22考研中科大计算机专业经验分享