C# 获取图片,Pdf中的文字
识别图片中的文字
首先把下载好的tessdata放在自己项目的bin\Debug\tessdata文件夹中。
附一个tessdata的下载地址:https://github.com/tesseract-ocr/tessdata
命名空间:
using System.Drawing;
using Tesseract;
using System.IO;
需要NuGet的包:Tesseract
初始化tesseractEngine(注释的是白名单(能识别到的)和黑名单(不识别的))
private TesseractEngine tesseractEngine;
baseDirectory = Path.GetDirectoryName(Assembly.GetExecutingAssembly().Location);datapath = Path.Combine(baseDirectory, "tessdata");tesseractEngine = new TesseractEngine(datapath, "eng", EngineMode.Default);//tesseractEngine.SetVariable("tessedit_char_whitelist", "0123456789");//tesseractEngine.SetVariable("tessedit_char_blacklist", "!?@#$%&*()<>_-+=/:;'\"");
获取文字
confidence是识别率
//Bitmap bitmap = new Bitmap(fileName);
public string GetText(Bitmap bitmap, out float confidence){var page = tesseractEngine.Process(bitmap);var text = page.GetText();confidence = page.GetMeanConfidence();page.Dispose();return text;}
从Pdf中获取文字
命名空间:
using iTextSharp.text.pdf;
using iTextSharp.text.pdf.parser;
需要NeGet的包:iTextSharp
public string ReadPdfContent(string filePath){PdfReader pdfReader = new PdfReader(filePath);string text = string.Empty;for (int i = 1; i <= pdfReader.NumberOfPages; i++){ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();var temp = PdfTextExtractor.GetTextFromPage(pdfReader, i, strategy);text += temp;}pdfReader.Close();return text;}
C# 获取图片,Pdf中的文字相关推荐
- Python提取PDF中的文字和图片
一,使用Python提取PDF中的文字 # 只能处理包含文本的PDF文件 #coding=utf-8 import sys import importlib importlib.reload(sys) ...
- Python 获得pdf中的文字、图片文字方法
Python 获得pdf中的文字.图片文字方法 下载word版文件 OCR,全称Optical character recognition,中文译名叫做光学文字识别.它把图像中的字符,转换为机器编码的 ...
- 使用Adobe Acrobat X Pro在PDF中添加文字和图片
在pdf中添加文字: 使用右侧"工具">"内容">"添加或编辑文本框"来打开"打字机"工具栏.单击pdf中的 ...
- 如何结决PDF中的文字无法复制或选中(使用Adobe Acrobat X Pro转换双重PDF)
如何结决PDF中的文字无法复制或选中(使用Adobe Acrobat X Pro转换双重PDF) 很多时候我们从网上下载到的PDF无法选中其中的字体,我们又恰好需要这些文字,如果一个一个的自己打出来又 ...
- Spring Boot 提取pdf中的文字
Spring Boot 提取pdf中的文字 提取pdf中的文字,由于字体不同,可能会提取出来乱码.(友情提示:建议先pdf文件转成图片,然后调用百度api提取文字,准确率高.跳转链接:https:// ...
- 如何编辑PDF文件,怎么修改PDF中的文字
相信大家都使用过PDF文件,那么有没有编辑过PDF文件呢,PDF文件的编辑是需要借助PDF编辑器的,PDF文件中的文字要怎么修改呢,Word文档的文字就直接编辑,而PDF文件并非这样,想知道怎么编辑吗 ...
- PDF:解决从PDF中复制文字时出现的空方框问题
PDF:解决从PDF中复制文字时出现的空方框问题 目录 解决问题 解决思路 解决问题 解决从PDF中复制文字时出现的空方框问题 解决思路 将该pdf文档另存为html格式,然后打开html文件,复制文 ...
- python获取div标签的id_Python 获取div标签中的文字实例
预备知识点 compile 函数 compile 函数用于编译正则表达式,生成一个正则表达式( Pattern )对象,供 match() 和 search() 这两个函数使用. 语法格式为: re. ...
- PDF中的文字怎么复制到Word?教你两个高效转换的方法
PDF中的文字怎么复制到Word?PDF文件和Word文件都是两种十分常见的办公文件,特别是在一些重要的文件上,我们尝尝会将两种文件格式混合使用.当我们需要编辑的时候,我们会将PDF文件转换成Word ...
最新文章
- tensorflow对应的python版本清单
- RYU控制器的学习笔记(三) 利用观察者模式通知app处理报文
- Terrarium 1.2
- python语言用什么关键字来声明一个类_python使用什么关键字定义类
- Android笔记 显式意图demo
- python sqlite row
- NFC 与 RFID
- (2)Mac安装Parallels无法上网
- Git(5)-- 获取 Git 仓库(git init 和 git clone命令)
- 使用DIDatepicker
- python易错盲点排查之+=与+的区别分析以及一些赋值运算踩过的坑
- 本特利177230-00-01-CN
- C语言之输出孪生素数
- 小程序-语音播放动画-animation
- Ubuntu18.04 下载的cuda10.1与未安装完全的nvidia-cuda-dev_9.1发生冲突,卸载
- UART write过程分析
- PotPlayer没有声音解决方案
- 驱动器阵列和容错方法(不同RAID的区别)
- 转:Android实时获取音量(单位:分贝)
- VC++ 获取窗体句柄,并发送键盘消息(这种方法也可以打开某些应用程序)
热门文章
- MACBOOK 连接不上wifi的解决办法
- 全平台生产力神器-utools
- PMBOK项目管理九大知识领域和五大流程 --美国IT项目管理硕士笔记(二)
- 有 2*n 的一个长方形方格,用一个1*2 的骨牌铺满方格 编写一个程序,试对给出的任意一个n(n0), 输出铺法总数。
- 603. Consecutive Available Seats
- Java-常用实现分页查询
- 机器学习——统计学三大相关性系数(pearson、spearman、kendall)
- 计算机考csp200分啥水平,信息学竞赛CSP诞生多位满分选手,小码王学员包揽多个组别省市第一...
- 自学Java day53 使用jvav实现 并查集 数据结构 从jvav到架构师
- 简单的卷积神经网络,实现手写英文字母识别