本文写于2021年2月11日,鼠年除夕夜,祝所有看到本文的朋友们身体健康,万事如意!
之前已经搞定了厦门房地产网签备案的图片下载,接下来就是识别图片的内容。
关于图片识别,网上大量的使用pytesseract进行识别的文章,但是使用了之后,发现对于中文的识别并不好,无奈之下另寻他途,发现百度的OCR还不错,每天5000次的免费额度,对于普通个人来说已经足够了,关于如何使用百度OCR,可见这篇文章https://zoutao.blog.csdn.net/article/details/86705491
以下是识别的具体内容,本文会持续更新至实现作者的全部意图。

第一步:识别图片内容,并读入csv文件


# 百度tesseract-ocr使用from aip import AipOcr
import os
import pandas as pd
from datetime import date
from openpyxl import load_workbook""" API """
APP_ID = '23657473'
API_KEY = 'WG43q2kD6vDUAjkGAse3Ei6y'
SECRET_KEY = 'IMATPqqUmSrmYvMVrwEP1siXjUvHqf44'# 初始化AipFace对象
client = AipOcr(APP_ID, API_KEY, SECRET_KEY)""" 读取图片 """def get_file_content(filePath):with open(filePath, 'rb') as fp:return fp.read()def img_to_str(image_path):""" 可选参数 """options = {}options["language_type"] = "CHN_ENG"  # 中英文混合options["detect_direction"] = "true"  # 检测朝向options["detect_language"] = "true"  # 是否检测语言options["probability"] = "false"  # 是否返回识别结果中每一行的置信度image = get_file_content(image_path)""" 带参数调用通用文字识别 """result = client.basicGeneral(get_file_content(filePath), options)# 格式化输出-提取需要的部分if 'words_result' in result:oldtext = ('\n'.join([w['words'] for w in result['words_result']]))text = oldtext.replace(',','').replace(':',',')''' save '''fs = open(root + '\\' + file[:-4] + '.csv', 'w+', encoding='utf-8')  # 将str,保存到txtfs.write(text)fs.close()csv = pd.read_csv(root + '\\' + file[:-4] + '.csv',encoding = 'utf-8')csv.to_excel(root + '\\' + file[:-4] + '.xlsx', sheet_name='data')os.remove(root + '\\' + file[:-4] + '.csv') # 删除csv,以免文件太多繁杂# print(type(result), "和", type(text))return textif __name__ == '__main__':for root,dirs,files in os.walk(r'C:\data\网签备份' + '\\' + str(date.today())):for file in files:if file[-3:] == 'png':filePath = root + '\\' + file# print(filePath)print(img_to_str(filePath))

厦门房地产网签备案的图片识别之一相关推荐

  1. 只网签没备案 房管局能查到吗_房管局备案_如何查询是否已经备案

    很多人可能不清楚,购买了房屋之后是需要做备案手续的,购房备案也是为了房产交易市场的安全出发的,如果经过备案,那么在网上就可以查询到房屋的买卖交易记录,在进行房屋交易的时候,才可以避免风险,那么购房备案 ...

  2. 全国多地商品房网签采用电子签章,君子签助推房产交易驶入数字化“快车道”

    近年来,随着数字化进程的加快,<电子签名法>等相关法律的完善,国家开始大力提倡网络签约,不仅为网络签约的合法性提供了有力的支撑,也增加了用户对于网络签约的认可度. 今年1月以来,滁州市.阜 ...

  3. 只网签没备案 房管局能查到吗_如何查询已网签且未备案的房产

    随着时代的发展,网络时代已进入5G时代,即使很多人相隔太平洋也能通过网络进行面对面的聊天,我们生活在这个网络的时代,网络基本已经无处不在,包括我们买卖房产就可进行网签,那么,如何查询已网签且未备案的房 ...

  4. 只网签没备案 房管局能查到吗_怎么在房管局查询自己的房子有没备案

    展开全部 1.打开62616964757a686964616fe78988e69d8331333365666262电脑,然后百度搜索你所在地的房产信息网,比如在太原,就搜索太原房产信息网,如图所示: ...

  5. 网店工商信息图片文字提取

    首先非常抱歉,最近一段时间由于学校课程作业较多,外加个人较懒,所以一直没有更新文章,以后一定会勤奋点,多加更新.正如前几天在stormzhang**(张哥)**的公众号里看到的一样,写作其实并不难,每 ...

  6. 二手房网签需要注意的事项

    二手房网签是指买卖双方签订合同后,需要向房地产相关部门申报,在网上公开信息,防止一家多销售.那么进行二手房网签有什么注意事项呢? 1.网签前核实卖家身份. 买卖双方在网签前,必须充分理解协商合同的相关 ...

  7. iOS--OCR图片识别

    应公司财务需求,要做一个收据识别功能.所以在网上搜索了下三方SDK,其中tesseract-ocr受到了大多数网友的推荐.我当然是前往https://github.com/gali8/Tesserac ...

  8. Atitit java 二维码识别 图片识别

    Atitit java 二维码识别 图片识别 1.1. 解码1 1.2. 首先,我们先说一下二维码一共有40个尺寸.官方叫版本Version.1 1.3. 二维码的样例:2 1.4. 定位图案2 1. ...

  9. Dataset之MNIST:MNIST(手写数字图片识别+ubyte.gz文件)数据集简介、下载、使用方法(包括数据增强)之详细攻略

    Dataset之MNIST:MNIST(手写数字图片识别+ubyte.gz文件)数据集简介+数据增强(将已有MNIST数据集通过移动像素上下左右的方法来扩大数据集为初始数据集的5倍) 目录 MNIST ...

最新文章

  1. PyCharm使用笔记
  2. FusionCharts简明教程(一)---建立FusionCharts图形
  3. win8.1计算机开启远程桌面连接不上,启动Win8.1远程桌面不得不知的方案
  4. 7-9 设计一个能处理异常的Loan类 (20 分)
  5. 如何自己找出SMBDA服务使用的端口号
  6. blockchain_eth客户端安装 geth使用 批量转账(二)
  7. 收藏 | 分享 3 种脑洞大开的Excel技巧
  8. 最新!Vicor 270V-28V DCM5614以96%效率提供1300W功率
  9. 当前完整路径_详解关键路径法,这可能是你找得到最详细的了
  10. MySQL 在高并发下的 订单撮合 系统使用 共享锁 与 排他锁 保证数据一致性
  11. rijndael 加密算法
  12. 知识点:西门子仿真PLCWindows平台测试说明
  13. 二维码扫一扫java开发
  14. HTML5 拖放(Drag 和 Drop)(stage1-39)
  15. Win10 快捷操作
  16. java联网游戏_Java实现简易版联网坦克对战小游戏(附源码)
  17. 百雀羚是如何1天创造380万销售额的?
  18. idhttp的socket error # 10054 错误的处理办法
  19. 【转】manifest
  20. 基于李雅普诺夫函数的跟踪控制(二)

热门文章

  1. 你觉得iPhone6s值不值得买
  2. 直播APP开发时:基于腾讯sdk的音视频功能实现
  3. ceac信息化计算机考试试题,计算机ceac考试复习题12套
  4. 一月两邀请 科沃斯旺宝为何受到政府青睐?
  5. cpu对学计算机的,大学生电脑选购指南,选对CPU你就成功一半
  6. java定义构造方法_构造方法的定义
  7. 证书,私钥,公钥,pfx,keystore,pem,der 都是什么?
  8. 中央空调安装html5模板,安装需谨慎 家用中央空调安装注意事项
  9. slam松耦合紧耦合调研
  10. Java 第十章.泛型