华为LAB实验室7-文字识别
各位好,我是乾颐堂大堂子。领取完整实战指南可以私信我,关键词:实战指南
0.1-实验简介
*文字识别(Optical Character Recognition,OCR)是指将图片、扫描件或PDF、OFD文档中的打印字符进行检测识别成可编辑的文本格式。OCR以开放API(Application Programming Interface,应用程序编程接口)的方式提供给用户,用户通过实时访问和调用API获取推理结果,帮助用户自动采集关键数据,打造智能化业务系统,提升业务效率。
*通用文字识别:提取图片内的文字及其对应位置信息,并能够根据文字在图片中的位置进行结构化整理工作。
*通用表格识别:提取表格内的文字和所在行列位置信息,适应不同格式的表格。同时也识别表格外部的文字区域。用于各种单据和报表的电子化,恢复结构化信息。
*手写文字:识别文档中的手写文字、印刷文字信息,并将识别的结构化结果以JSON格式返回给用户。
*文字识别服务通常可以通过以下两种方式进行调用,一种是调用华为云提供的SDK,另一种是调用相应服务的API接口。用户首先需要在华为云“EI企业智能>人工智能>文字识别OCR”
*页面开通相关服务(服务只需要开通一次即可,后面使用时无需再申请)。其次,利用API接口的开发者可以在华为云提供的API Explorer对不同服务的接口进行调测,同时API Explorer上提供有多种编程语言的SDK代码示例可供开发者参考使用。
0.2-实验目的
本实验主要介绍了使用华为云文字识别服务,通过本实验学员将了解如何利用华为云的文字识别服务进行通用文字识别、通用表格识别、手写文字识别功能。目前华为云有提供基于Python语言的文字识别SDK,本实验将指导学员理解和掌握如何使用Python进行通用文字识别、表格识别、手写文字识别业务的开发方法和技巧。
1-开通文字识别服务、准备AK/SK、准备project_id、SDK安装
参考第2小节实验手册“书本识别”步骤进行获取
开通服务
开通文字识别服务:登录文字识别管理控制台(https://console.huaweicloud.com/ocr/?region=cn-north-4),依次选择左侧的“总览”,“通用文字识别”、“通用表格识别”和“手写文字识别”,分别在界面单击“开通服务”。服务开通一次即可,后续使用时无需再开通。相关服务资费详情请参考华为云价格计算器。
SDK安装
2-实验步骤
2.1-导入包
2.2-配置相关参数
2.3-执行通用文字识别任务
GeneralTextRequestBody函数body部分可以填入image、url、detect_direction等参数。
image:图像数据,base64编码,要求base64编码后大小不超过10MB。图片最小边不小于15px,最长边不超过4096px。支持JPEG、JPG、PNG、BMP、TIFF格式。
url:此项与image参数二选一,支持公网HTTP/HTTPS URL,华为云OBS的URL。
detect_direction:图片朝向检测开关,True为检测图片朝向,False为不检测,默认值为False。
quick_mode:快速模式开关,针对单行文字图片(要求图片只包含一行文字,且文字区域占比超过50%),打开时可以更快返回识别结果。True为打开快速模式,False为关闭快速模式,默认值为False。
character_mode:单字符模式开关。True为打开单字符模式,False为关闭单字符模式,默认值为False,即不返回单个文本行的单字符信息。
输出结果:
direction:图片朝向。当detect_direction为false时,该字段为-1。当detect_direction为true时,该字段为图片逆时针旋转角度,值区间为0~359。
words_block_count:检测到的文字块数目。
words_block_list:识别文字块列表。输出顺序从左到右,先上后下。
2.4-执行通用表格识别任务
GeneralTableRequestBody函数body部分可以填入image、url、return_text_location等参数。
image:图像数据,base64编码,要求图片最小边不小于15px,最长边不超过8192px,支持JPEG、JPG、PNG、BMP、TIFF格式。
url:此项与image参数二选一,支持公网HTTP/HTTPS URL,华为云OBS的URL。
return_text_location:返回文本块坐标及单元格坐标信息,True为返回文本块坐标及单元格坐标信息,False为不返回,默认值为False。
return_confidence:返回置信度开关,True为返回置信度,False为不返回,默认值为False。return_excel:
返回表格转换Microsoft Excel的base64编码字段。True为返回'excel'字段,表示xlsx格式的表格识别结果的base64编码,False为不返回,默认值为False。
输出结果:
words_region_count:文字区域数目。
words_region_list:文字区域识别结果列表,输出顺序从左到右,先上后下。
excel:表格图像转换为excel的Base64编码,图像中的文字和表格按位置写入excel。对返回的excel编码可用base64.b64decode解码并保存为.xlsx文件。
2.5-执行手写文字识别服务
HandwritingRequestBody函数body部分可以填入image、url、quick_mode等参数。
image:图像数据,base64编码,要求base64编码后大小不超过10MB。图片最小边不小于8px,最长边不超过8192px,支持JPEG、JPG、PNG、BMP、TIFF格式。
url:此项与image参数二选一,支持公网HTTP/HTTPSURL,华为云OBS的URL。
quick_mode:快速模式开关,针对单行文字图片(要求图片只包含一行文字,且文字区域占比超过50%),打开时可以更快返回识别结果。True为打开快速模式,False为关闭快速模式,默认值为False。
detect_direction:图片朝向检测开关,True为检测图片朝向,False为不检测,默认值为False。
char_set:字符集设置,用户可以根据实际需要限定输出字符集范围。可选“digit”:数字模式,“letter”:大小写字母模式,“digit_letter”:数字+字母模式,“general”:数字+字母+中文模式。
输出结果:
words_block_count:检测到的文字块数目。words_block_list:识别文字块列表。输出顺序从左到右,从上到下。
更多网工提升干货,请关注公众号:乾颐堂网络实验室
华为LAB实验室7-文字识别相关推荐
- 华为LAB实验室-书本识别
各位好,我是乾颐堂大堂子.领取完整实战指南可以私信我,关键词:实战指南 0.1-实验简介 *图像识别,是指利用计算机对图像进行处理.分析和理解,以识别各种不同模式的目标和对象的技术.图像识别以开放AP ...
- 华为LAB实验室5—花卉分类
各位好,我是乾颐堂大堂子.领取完整实战指南可以私信我,关键词:实战指南 0.1-实验简介 自动学习是ModelArts提供的一项服务,可以根据标注数据自动设计模型.自动调参.自动训练.自动压缩和部署模 ...
- 华为LAB实验室4-朴素贝叶斯
各位好,我是乾颐堂大堂子.领取完整实战指南可以私信我,关键词:实战指南 通过 jieba 文字分词库对邮件数据集的垃圾邮件和进行文本处理,提取特征.然后调用 sklearn 机器学习库中的朴素贝叶斯算 ...
- 华为LAB实验室3-机器学习实验:(线性回归)美国King County房价预测训练赛
各位好,我是乾颐堂大堂子.领取完整实战指南可以私信我,关键词:实战指南 导入相关python库 2.数据处理 下载的是两个数据文件,一个是真实数据,一个是测试数据,打开kc_train.csv,能够看 ...
- 华为LAB实验室3-决策树
各位好,我是乾颐堂大堂子.领取完整实战指南可以私信我,关键词:实战指南~ 本实验使用的数据集为tennis.txt,主要包含14个样本,每个样本包含天气相关的特征及是否适合打球 步骤1导入依赖 步骤2 ...
- 华为LAB实验室-2逻辑回归
各位好,我是乾颐堂大堂子.领取完整实战指南可以私信我,关键词:实战指南 在逻辑回归部分,使用的数据集为自定义的房屋租金和面积相关的数据集,在实验初始阶段会进行定义. 步骤1导入依赖 步骤2自定义数据集 ...
- 华为LAB实验室:0-Ubuntu搭建实验环境
各位好,我是乾颐堂大堂子.领取完整实战指南可以私信我,关键词:实战指南 下载Anconda3 新建虚拟环境(tf&ms) 2.1.安装tensorflow 2.1.1.忽略警报 2.2.安装m ...
- 华为LAB实验室-1.线性回归
各位好,我是乾颐堂大堂子.领取完整实战指南可以私信我,关键词:实战指南 步骤1引入相关依赖的包 步骤2构建房价数据集并可视化 步骤3模型训练 步骤4模型的可视化 更多网工提升干货,请关注公众号:乾颐堂 ...
- 华为LAB实验室——1-Ubuntu启动ftpssh
各位好,我是乾颐堂大堂子.领取完整实战指南可以私信我,关键词:实战指南 安装vsftp 修改ftp配置文件 安装ssh 重启服务 5.XFTP连接 更多网工提升干货,请关注公众号:乾颐堂网络实验室
最新文章
- spring boot 临时文件过期
- photoshop CS不能打字,出现死机等现象的解决办法!!
- monkeyrunner自动登录脚本
- js中函数的参数为函数的情况即回调函数
- PCF上的Spring Cloud合同和Spring Cloud Services
- android调用python框架_在Java中从Android应用程序执行Python脚本?
- DeepNude已迅速下线,来看看它涉及的图像修复技术
- oracle 嵌套游标慢,oracle 嵌套游标以及java,oracle的时间处理
- 95-170-046-源码-Time-Flink时间系统系列之ProcessFunction使用分析
- 程序员面试宝典——数据结构之单链表
- opencv算法精解 c++/python
- __init__在python中的用法_如何打“我爱你”的摩斯密码
- 语法长难句——并列句的练习
- android T分屏流程
- 闲聊人工智能产品经理(AIPM)—方法论
- 美团外卖用户评价文本研究
- 使用IDEA编译之配置文件出现乱码(properties、yml、xml)
- python 编写获取阿里巴巴行业分类数据代码
- 拼多多商品详情页 API接口、拼多多商品SKU数据接口 API接口、拼多多关键词搜索接口 API接口 API接口、拼多多关键词采集 API接口、拼多多采集接口 API接口、拼多多详情 API接口
- Gitlab上传代码时报错文件太大无法上传