点击蓝字关注△ 回复“1024”领取福利大礼包

有时候在爬取数据的时候,需要读取网页中图片中的信息。在读取和处理图像、图像相关的机器学习以及创建图像等任务中,Python一直都是非常出色的语言。有两个库非常流行的库:Pillow和Tesseract。

Pillow 算不上是图像处理功能最全的库,但是它拥有你需要使用的全部功能,除非你 要用 Python 重写一个 Photoshop 或进行更加复杂的研究。它也是一个文档健全且十分易用 的库。

Tesseract 是一个 OCR 库,目前由 Google 赞助(Google 也是一家以 OCR 和机器学习技术 闻名于世的公司)。Tesseract 是目前公认最优秀、最精确的开源 OCR系统。

除了极高的精确度,Tesseract 也具有很高的灵活性。它可以通过训练识别出任何字体,也可以识别出任何 Unicode 字符。

Tesseract是一个 Python 的命令行工具,不是通过 import语句导入的库。安装之后,要用要用tesseract命令在Python的外面运行

今天使用Tesseract来实现一个提取图片中信息的程序。下面这张图片,就是我们需要读取的对象:

安装过程略过,直接看代码:import subprocess

p = subprocess.Popen(["tesseract", "page.png", "page"], stdout=subprocess.PIPE,stderr=subprocess.PIPE)

p.wait()

f = open("page.txt","r")

print(f.read())

f.close()

运行这个程序,应该会输出图片中的文字信息。但是,当文字出现在彩色封面上时,结果就不那么完美了。你可以用 Pillow 库挑选图片进行清理,但是如果想把文字加工成普通人可以看懂的效果,还需要花很多时间去处理。这是只是一个简单的实例。

如果觉得内容还不错,分享给更多朋友,一起提升编程技能。

python提取图片文字_怎样用Python提取图片中的文字相关推荐

  1. python pdf 图片水印_怎样用python给pdf批量添加水印并加密

    很多时候需要给pdf添加水印,而且还要加密文件,这些在Python中是如何实现的呢?学过编程的小伙伴准备好迎接今天的挑战吧. 1.设置路径 import os os.getcwd() os.chdir ...

  2. python改图片颜色_如何使用python改变二值图像的颜色?

    你可以用调色板来做,但这里我做了一个完整的RGB版本.在from PIL import Image from skimage import data from skimage.filters impo ...

  3. open cv提取图片特征值_基于VGG16网络提取Flicker8K数据集图像特征

    # !/usr/bin/env python3 # -*- coding: utf-8 -*- # @Time : ${20200326} ${18:00} # @Author : ZicoZhou ...

  4. 使用百度云识别图片中的文字(二):获取图片中的文字

    使用百度云识别图片中的文字(二):获取图片中的文字 上一篇文章中提到怎样获取access_token.此篇文章就是通过access_token来识别图片中的文字. 先来看看:官方的介绍吧: 本文档主要 ...

  5. python 最准确的图片转文字_使用Tesseract+python进行图片转文字记录

    先把Tesseract的基础部分放上来. 由于对游戏的文案非常感兴趣,所以希望可以将游戏中图片截图,识别图片上的文字转成txt,基于此记录一下学习过程,简单记录. 环境说明: Mac 10.13 py ...

  6. python提取视频字幕_荐利用Python提取视频中的字幕(文字识别)

    学了好久机器学习的内容有些许枯燥,今天我们来做一个Python的小项目来玩耍吧! 项目背景 通过获取百度API实现视频文字识别. 需求阐述 将.MP4格式视频裁剪成一帧一帧的图片再将图片中的字幕摘取出 ...

  7. python识别图片文字_如何利用Python识别图片中的文字

    一.前言 不知道大家有没有遇到过这样的问题,就是在某个软件或者某个网页里面有一篇文章,你非常喜欢,但是不能复制.或者像百度文档一样,只能复制一部分,这个时候我们就会选择截图保存.但是当我们想用到里面的 ...

  8. python将照片转文字_如何使用Python把图片变成文字

    为什么要让孩子学编程?看了这篇文章,你就知道编程的强大之处了! 你遇到以下的情况吗? 你负责整理一些文件,结果发现文件没有word存档,这又需要我们把图片变成word. 或者是在今日头条上看到了某片好 ...

  9. python制作图片墙_利用python生成照片墙的示例代码

    PIL(Python Image Library)是python的第三方图像处理库,但是由于其强大的功能与众多的使用人数,几乎已经被认为是python官方图像处理库了.其官方主页为:PIL. PIL历 ...

  10. python怎么识别图片上的字_python如何识别图片中的文字 | 蒲公英网

    摘要 Python中的PIL库是图片处理的模块库,使用其中的image方法打开图片文件,然后利用pytesseract的image_to_string方法来识别图片中的字符并输出. python如何识 ...

最新文章

  1. Linux-Shell 快捷键
  2. 实验二matlab数值,实验二MATLAB数值计算
  3. flask-sqlalchemy mysql_Flask SQLAlchemy连接到MySQL数据库
  4. python读hadoop_python读取hdfs并返回dataframe教程
  5. 烂泥:NFS做存储与KVM集成
  6. [转] Omnifocus 2 for mac license
  7. 通达信最新 行情服务器,【图】2021年通达信新的高级行情服务器IP_股票,炒股,炒股公式,股票指标,股票论坛_股票软件技术交流论坛_理想论坛 - 股票论坛...
  8. 泛泰A870K去掉相机快门声音的方法
  9. 微信自定义分享链接内容,wx.updateAppMessageShareData、wx.updateTimelineShareData、wx.onMenuShareTimeline
  10. Unity3D_3dsMax-Vray材质导入
  11. 美国医生推荐感冒食疗方
  12. 电脑c盘数据迁移的方法
  13. python数据预测模型算法_Python机器学习 预测分析核心算法
  14. 城乡规划设和计算机应用,城乡规划行业未来展望
  15. Android View学习笔记(三):Scroller的原理剖析及使用(上)
  16. 怎样在网页添加访问计数器?
  17. Cesium中的相机—HeadingPitchRoll
  18. 安卓虚拟键盘_逍遥安卓模拟器对电脑配置有什么要求
  19. JavaScript手机号码摇奖
  20. 计算机课堂如何落实知识点,浅议怎样组织计算机课堂教学原稿

热门文章

  1. 获取openid失败怎么办_微信小程序openid怎么获取 获取微信openid失败解决方法
  2. Axure原型工具Axure RP9安装及Licensee
  3. html 自定义打印模板,如何自定义打印模板
  4. user declined directory sharing Creating xxxx
  5. STM32F4最小系统硬件设计
  6. 学习笔记-MATLAB函数调用关系查看
  7. 如何将Excel的单元格设置成下拉选项?-excel设置下拉菜单
  8. 均方误差与总平方误差(或绝对误差)
  9. “食尸鬼行动”攻击30多个国家超过130家企业 包括中国
  10. Ubuntu可视化监控温度