python提取图片中的文字并生成word文档

python提取图片中的文字并生成word文档

近在学习的过程中发现书中有好多知识点,但本人过于懒惰,不爱翻书、记笔记,于是我就想到了为何不用手机将内容拍下来,然后直接生成word文件。本菜鸟接下来就教大家如何用百度提供的图像识别接口来完成图像文字的提取。

文字识别OCR:https://ai.baidu.com/ai-doc/OCR/Ek3h7yeiq

首先,需要两个模块:baidu-aip、python-docx。如果没有,可以直接用pip命令安装。

pip install baidu-aip

pip install python-docx

其次,导入相关的库,新建对象并设置相关参数。

from aip import AipOcr

from docx import Document

"""相关参数"""

APP_ID = 'APP_ID'

API_KEY = 'API_KEY'

SECRET_KEY = 'SECRET_KEY'

client = AipOcr(APP_ID, API_KEY, SECRET_KEY)

这里的APP_ID、API_KEY、SECRET_KEY通过链接https://login.bce.baidu.com/?redirect=https%3A%2F%2Fconsole.bce.baidu.com%2F%3Ffromai%3D1#/aip/overview

用百度账号登录并创建自己的图像识别应用获取。(免费)

然后、获取图片信息,并配置相关属性

网络图片

imageurl = "图片链接"

本地图片

imagepath = "图片路径"

配置相关属性,并传入参数。

""" 如果有可选参数 """

options = {}#配置字典

options["language_type"] = "CHN_ENG"#识别文字类型

options["detect_direction"] = "true"#是否检测图片的朝向

options["detect_language"] = "true"#是否检测语言

options["probability"] = "true"#是否返回置信度

"""传入参数"""

client = AipOcr(APP_ID, API_KEY, SECRET_KEY)

再然后、读取图片

""" 读取图片 """

def get_file_content(filepath):

with open(filepath, 'rb') as fp:

return fp.read() # 返回文件读取对象

image = get_file_content('example.jpg')

""" 带参数调用通用文字识别, 图片参数为本地图片 """

result = client.basicGeneral(image, options)

""" 带参数调用通用文字识别, 图片参数为远程url图片 """

result = client.basicGeneralUrl(url, options)

结果result为字典类型。

最后,将返回的结果导入word文件

document = Document('word文件路径.docx') # 此处参数可以省略,如省略会创建新的word文件

for i in result["words_result"]:

paragraph = document.add_paragraph(i["words"])

document.save('文件保存路径.docx') # 注意前后一致

<<<<<<<<<<>>>>>>>>>>>>>

完整代码及实例:

from aip import AipOcr

from docx import Document

"""相关参数"""

APP_ID = '用你自己的'

API_KEY = '用你自己的'

SECRET_KEY = '用你自己的'

client = AipOcr(APP_ID, API_KEY, SECRET_KEY)

""" 读取图片 """

def get_file_content(filePath):

with open(filePath, 'rb') as fp:

return fp.read() # 返回文件读取对象

jpg_name = r'F:用你自己的\test.jpg'

image = get_file_content(jpg_name)

""" 如果有可选参数 """

options = {} # 配置字典

options["language_type"] = "CHN_ENG" # 识别文字类型

options["detect_direction"] = "true" # 是否检测图片的朝向

options["detect_language"] = "true" # 是否检测语言

options["probability"] = "true" # 是否返回置信度

""" 带参数调用通用文字识别, 图片参数为本地图片 """

result = client.basicGeneral(image, options)

print("提取图片的文字:" )

document = Document(r'F:\用你自己的\text.docx')

for i in result["words_result"]:

print(i["words"])

paragraph = document.add_paragraph(i["words"])

document.save(r'F:\用你自己的\text.docx')

(注:字体不同,是因为编码方式不同)

python提取图片中的文字并生成word文档相关教程

vscode下Python版本不对的情况解决

vscode下Python版本不对的情况解决 此前,均配置过python2.7和python3.7的环境,但是,诡异之处就在于,左下角选择的是python3.7,但是发现运行出来仍是2.7的版本,之后发现launch.json中path为2.7,就去百度,更改了setting.json和launch.json中的相关, 此

关于h5,页面分享到朋友圈、钉钉、微信等,(base64图片转换成文

关于h5,页面分享到朋友圈、钉钉、微信等,(base64图片转换成文件) 实现内容:将页面分享到朋友圈、钉钉、微信。 主要思想如图: div class=header-right @click=shareDetail分享/div /** * 分享链接(微信、朋友圈、钉钉、工作圈) */ async shareDetail()

python邮件自动发送------(带界面附源码)

python邮件自动发送------(带界面附源码) python邮件自动发送 注:仅用于学习,切莫做其他用途。 SMTP 全称“简单邮件传输协议” 基于TCP/IP的协议 可以对连接进行认证,也可以不认证 可以对连接进行加密,也可以不加密 主要作用: 1、 提交邮件 。当用户在电

从Python代码公式图——轻松理解AdaBoost算法

从Python代码公式图——轻松理解AdaBoost算法 从Python代码公式图——轻松理解AdaBoost算法 一. 原理简述转化为代码 1.1 Boosting 二. 图解AdaBoost算法过程 2.1 第一次分类 1.基学习器--决策树代码实现 2.分类结果 3.计算AdaBoost误差 2.2 第二次分类 1.分类

Python--简单的深度学习CNN睁闭眼分类

Python--简单的深度学习CNN睁闭眼分类 数据集:闭眼(CEW)和睁眼(LFW)两个文件夹,闭眼数据共1189张图片,睁眼数据为LFW中George_W_Bush共530张图片.测试集从中随机复制330张图片.数据集可调整增加. 数据准备:root为数据集地址.将数据转为网络可用的tensor

蓝桥杯python试题集VIP版

蓝桥杯python试题集VIP版 方法一 a = [[i for i in range(10)] for j in range(10)] # 10行10列,每一行内容为[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]print(a)print('=' * 80)b = [[0 for i in range(10)] for j in range(10)] # 10行10列,每一行内容为[0, 0, 0, 0,

图像融合质量评价方法的python代码实现——MS-SSIM

图像融合质量评价方法的python代码实现——MS-SSIM 文章目录 1 前言 2 MS-SSIM介绍 2 MS-SSIM的代码 2.1 matlab代码 2.2 python代码 2.3 效果对比 3 总结 1 前言 在评估融合图像质量时,由于作者使用的是python代码进行融合,但有些评价指标只有matlab代码就

安卓截屏和图片画角线OpenGLES(十一)

安卓截屏和图片画角线OpenGLES(十一) 前言 上一篇文章我们学习了如何在安卓平台搭建opengl es环境,如何通过TextureView加载一张图片。其实,通过前面的学习,那么关于安卓平台如何使用opengl es就掌握了一大部分了,剩下的就是性能等等余下的功能了;本篇文

python提取图片中的文字自动填表,python提取图片中的文字并生成word文档相关推荐

  1. python读取word指定内容_python解析html提取数据,并生成word文档实例解析

    简介 今天试着用ptyhon做了一个抓取网页内容,并生成word文档的功能,功能很简单,做一下记录以备以后用到. 生成word用到了第三方组件python-docx,所以先进行第三方组件的安装.由于w ...

  2. python新建word文档_使用Python 自动生成 Word 文档的教程

    当然要用第三方库啦 :) 使用以下命令安装: pip install python-docx 使用该库的基本步骤为: 1.建立一个文档对象(可自动使用默认模板建立,也可以使用已有文件). 2.设置文档 ...

  3. python自动生成和读取word_使用Python自动生成Word文档的教程

    当然要用第三方库啦 :) 使用以下命令安装: pip install python-docx 使用该库的基本步骤为: 1.建立一个文档对象(可自动使用默认模板建立,也可以使用已有文件). 2.设置文档 ...

  4. 用 Python 自动生成 Word 文档并在指定位置插入图片

    用Python生成Word文档 在指定位置插入图片 首先当然需要第三方库啦(▽) 天才第一步,第三方的库O(∩_∩)O哈哈~ 参照转发的是这位大佬的博客:https://blog.csdn.net/c ...

  5. python 自动生成word文档,python实现的生成word文档功能示例

    python实现的生成word文档功能示例 发布时间:2020-09-23 11:37:44 来源:脚本之家 阅读:108 作者:zhizunyu2009 本文实例讲述了python实现的生成word ...

  6. python 自动生成word文档_python实现的生成word文档功能示例

    本文实例讲述了python实现的生成word文档功能.分享给大家供大家参考,具体如下: 每月1次的测试费用报销,需要做一个文档.干脆花点时间写个程序吧. # -*- coding: utf-8 -*- ...

  7. python生成word文档_python实现的生成word文档功能示例

    本文实例讲述了python实现的生成word文档功能.分享给大家供大家参考,具体如下: 每月1次的测试费用报销,需要做一个文档.干脆花点时间写个程序吧. # -*- coding: utf-8 -*- ...

  8. python实现生成word文档并转为pdf

    python实现生成word文档,格式转为pdf 使用的是python-docx模块,在生成word文档后转为pdf格式是使用的是docx2pdf中的convert(使用convert转换时,要先创建 ...

  9. python-docx中文开发文档_使用Python语言-docx生成Word文档

    本文主要向大家介绍了使用Python语言-docx生成Word文档,通过具体的内容向大家展示,希望对大家学习Python语言有所帮助. < 学会来使用python操作数据表和PDF,今天我们尝试 ...

  10. 关于python-docx自动生成word文档的总结

    目录 一.结构 二.常用的API介绍 三.实例展示 展示一 展示二 最近接到一个需求--把数据库里的数据做成表格,然后形成一本书,打印出来送给客户.由于系统目前没有自动导出word或者excel类似的 ...

最新文章

  1. GdiPlus[44]: IGPGraphics (三) 关于文本绘制续 - IGPStringFormat
  2. Spring四大模块和设计模式
  3. 浪潮服务器测试文档,ESXI6.7注入浪潮服务器raid驱动测试
  4. 阿帕奇骆驼遇见Redis
  5. CSDN Blog 之七宗罪
  6. 1157 全是1的最大子矩阵
  7. java 页面编码_java中文乱码解决之道(七)-----JSP页面编码过程
  8. 考拉Android统一弹框
  9. Resource stopwords not found. Please use the NLTK Downloader to obtain the resource的解决
  10. android悬浮窗工具,Android悬浮窗实例
  11. 【Webcam设计】USB摄像头图片采集+QT显示
  12. Netty学习(四)FastThreadLocal
  13. 设置共享打印机连接提示0x000000bcb错误问题的修复办法
  14. 【jvm jdk】锁状态位之偏向锁
  15. 易语言利用服务器更新,【原创】利用FTP实现软件自动更新
  16. 11210怎么等于24_小学生24点题目大全附答案
  17. Pandas新增数据列
  18. 年金系数用计算机怎么算,年金系数是什么?怎么计算?
  19. 谷歌浏览器在线观看视频有声音但画面黑屏问题解决
  20. Linux 主机巡检脚本(包含 k8s)

热门文章

  1. 手机重装为linux,安卓手机重装系统的方法
  2. 随着年龄增长,我应该怎样对抗肌肉流失?
  3. 绝对最大额定值(ABSOLUTE MAXIMUM RATINGS: ABS)是否可以超过
  4. ODI 11g安装记录
  5. 数据是一把双刃剑,IPFS/FIL存储助力发展,合理应用技术中
  6. 网络安全如何“疏而不漏”,了解一下锐捷大数据安全平台“降维攻击”
  7. python3 collections模块 tree_python3上的ete3模块无法导入TreeStyle、faces、AttrFace、NodeSty...
  8. pragma comment的使用
  9. php整数溢出 ctf,PWN INTEGER OVERFLOW 整数溢出
  10. linux 下的无线网络配置,详解在LINUX环境下怎样设置无线网络配置