识别图片中的文字

首先把下载好的tessdata放在自己项目的bin\Debug\tessdata文件夹中。

附一个tessdata的下载地址:https://github.com/tesseract-ocr/tessdata

命名空间:

using System.Drawing;
using Tesseract;
using System.IO;

需要NuGet的包:Tesseract

初始化tesseractEngine(注释的是白名单(能识别到的)和黑名单(不识别的))

private TesseractEngine tesseractEngine;
baseDirectory = Path.GetDirectoryName(Assembly.GetExecutingAssembly().Location);datapath = Path.Combine(baseDirectory, "tessdata");tesseractEngine = new TesseractEngine(datapath, "eng", EngineMode.Default);//tesseractEngine.SetVariable("tessedit_char_whitelist", "0123456789");//tesseractEngine.SetVariable("tessedit_char_blacklist", "!?@#$%&*()<>_-+=/:;'\"");

获取文字

confidence是识别率

//Bitmap bitmap = new Bitmap(fileName);

public string GetText(Bitmap bitmap, out float confidence){var page = tesseractEngine.Process(bitmap);var text = page.GetText();confidence = page.GetMeanConfidence();page.Dispose();return text;}

从Pdf中获取文字

命名空间:

using iTextSharp.text.pdf;
using iTextSharp.text.pdf.parser;

需要NeGet的包:iTextSharp

public string ReadPdfContent(string filePath){PdfReader pdfReader = new PdfReader(filePath);string text = string.Empty;for (int i = 1; i <= pdfReader.NumberOfPages; i++){ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();var temp = PdfTextExtractor.GetTextFromPage(pdfReader, i, strategy);text += temp;}pdfReader.Close();return text;}

C# 获取图片,Pdf中的文字相关推荐

  1. Python提取PDF中的文字和图片

    一,使用Python提取PDF中的文字 # 只能处理包含文本的PDF文件 #coding=utf-8 import sys import importlib importlib.reload(sys) ...

  2. Python 获得pdf中的文字、图片文字方法

    Python 获得pdf中的文字.图片文字方法 下载word版文件 OCR,全称Optical character recognition,中文译名叫做光学文字识别.它把图像中的字符,转换为机器编码的 ...

  3. 使用Adobe Acrobat X Pro在PDF中添加文字和图片

    在pdf中添加文字: 使用右侧"工具">"内容">"添加或编辑文本框"来打开"打字机"工具栏.单击pdf中的 ...

  4. 如何结决PDF中的文字无法复制或选中(使用Adobe Acrobat X Pro转换双重PDF)

    如何结决PDF中的文字无法复制或选中(使用Adobe Acrobat X Pro转换双重PDF) 很多时候我们从网上下载到的PDF无法选中其中的字体,我们又恰好需要这些文字,如果一个一个的自己打出来又 ...

  5. Spring Boot 提取pdf中的文字

    Spring Boot 提取pdf中的文字 提取pdf中的文字,由于字体不同,可能会提取出来乱码.(友情提示:建议先pdf文件转成图片,然后调用百度api提取文字,准确率高.跳转链接:https:// ...

  6. 如何编辑PDF文件,怎么修改PDF中的文字

    相信大家都使用过PDF文件,那么有没有编辑过PDF文件呢,PDF文件的编辑是需要借助PDF编辑器的,PDF文件中的文字要怎么修改呢,Word文档的文字就直接编辑,而PDF文件并非这样,想知道怎么编辑吗 ...

  7. PDF:解决从PDF中复制文字时出现的空方框问题

    PDF:解决从PDF中复制文字时出现的空方框问题 目录 解决问题 解决思路 解决问题 解决从PDF中复制文字时出现的空方框问题 解决思路 将该pdf文档另存为html格式,然后打开html文件,复制文 ...

  8. python获取div标签的id_Python 获取div标签中的文字实例

    预备知识点 compile 函数 compile 函数用于编译正则表达式,生成一个正则表达式( Pattern )对象,供 match() 和 search() 这两个函数使用. 语法格式为: re. ...

  9. PDF中的文字怎么复制到Word?教你两个高效转换的方法

    PDF中的文字怎么复制到Word?PDF文件和Word文件都是两种十分常见的办公文件,特别是在一些重要的文件上,我们尝尝会将两种文件格式混合使用.当我们需要编辑的时候,我们会将PDF文件转换成Word ...

最新文章

  1. tensorflow对应的python版本清单
  2. RYU控制器的学习笔记(三) 利用观察者模式通知app处理报文
  3. Terrarium 1.2
  4. python语言用什么关键字来声明一个类_python使用什么关键字定义类
  5. Android笔记 显式意图demo
  6. python sqlite row
  7. NFC 与 RFID
  8. (2)Mac安装Parallels无法上网
  9. Git(5)-- 获取 Git 仓库(git init 和 git clone命令)
  10. 使用DIDatepicker
  11. python易错盲点排查之+=与+的区别分析以及一些赋值运算踩过的坑
  12. 本特利177230-00-01-CN
  13. C语言之输出孪生素数
  14. 小程序-语音播放动画-animation
  15. Ubuntu18.04 下载的cuda10.1与未安装完全的nvidia-cuda-dev_9.1发生冲突,卸载
  16. UART write过程分析
  17. PotPlayer没有声音解决方案
  18. 驱动器阵列和容错方法(不同RAID的区别)
  19. 转:Android实时获取音量(单位:分贝)
  20. VC++ 获取窗体句柄,并发送键盘消息(这种方法也可以打开某些应用程序)

热门文章

  1. MACBOOK 连接不上wifi的解决办法
  2. 全平台生产力神器-utools
  3. PMBOK项目管理九大知识领域和五大流程 --美国IT项目管理硕士笔记(二)
  4. 有 2*n 的一个长方形方格,用一个1*2 的骨牌铺满方格 编写一个程序,试对给出的任意一个n(n0), 输出铺法总数。
  5. 603. Consecutive Available Seats
  6. Java-常用实现分页查询
  7. 机器学习——统计学三大相关性系数(pearson、spearman、kendall)
  8. 计算机考csp200分啥水平,信息学竞赛CSP诞生多位满分选手,小码王学员包揽多个组别省市第一...
  9. 自学Java day53 使用jvav实现 并查集 数据结构 从jvav到架构师
  10. 简单的卷积神经网络,实现手写英文字母识别