将PDF转为TXT文本格式提取中文
以下的读取方式,针对个别PDF文件会出现读取内容为乱码的现象,如果有高手有其他办法可以解决,就提供下,大家一起学习
通过引用两个DLL:
IKVM.GNU.Classpath.dll
PDFBox-0.7.3.dll
将两个DLL放在项目的BIN目录下:
FontBox-0.1.0-dev.dll
IKVM.Runtime.dll
//引用的空间,由项目饮用的动态DLL后才能使用
using org.pdfbox.pdmodel;
using org.pdfbox.util;
//按钮事件中的代码
private void button2_Click(object sender, System.EventArgs e)
{
PDDocument txtTmp = PDDocument.load(文件物理路径)
PDFTextStripper pdfStripper = new PDFTextStripper();
textBox1.Text = pdfStripper.getText(txtTmp);
textBox1.Text += textBox1.Text.Length;
/* 如下的以后使用参考
DialogResult dr = folderDialog.ShowDialog();
if(dr != DialogResult.OK)
{
return;
}
//选择文件的路径
folderPath = folderDialog.SelectedPath;
DirectoryInfo dirPDF = new DirectoryInfo(folderPath);
if(!dirPDF.Exists)
{
MessageBox.Show("您录入的文件路径有误,请核实!");
return;
}
FileInfo[] fileOldSystem = dirPDF.GetFiles("*.pdf");
if(fileOldSystem.Length == 0)
{
MessageBox.Show("您选择的文件路径下没有PDF文件,请核实!");
return;
}
foreach(FileInfo file in fileOldSystem)
{
PDDocument txtTmp = PDDocument.load(file.FullName.ToLower());
PDFTextStripper pdfStripper = new PDFTextStripper();
textBox1.Text = pdfStripper.getText(txtTmp);
textBox1.Text += textBox1.Text.Length;
StreamWriter sw = File.AppendText(file.FullName.ToLower().Replace(".pdf",".txt"));
sw.Write(textBox1.Text);
sw.Flush();
sw.Close();
}
*/
}
转载于:https://www.cnblogs.com/hanguoji/archive/2010/01/07/1641460.html
将PDF转为TXT文本格式提取中文相关推荐
- 如何批量提取 PDF 文档内容,将 PDF 格式文档转为 Txt 文本格式
概要:PDF 文档常常用来阅读.预览或者存档一些资料,PDF 支持的内容也是比较丰富的.可以支持图片.文本等多种类型的元素.那有时候我们就需要将一些纯文本的 PDF 文档中的文字提取出来,转为一个 T ...
- 【Python小技巧】将pdf转为txt,并使用edge-tts将txt批量转为MP3(不想看书想听书的转过来,送源代码)
文章目录 前言 一.PDF转为MP3 ? 二.准备工作 1. 安装pdfplumber包,用于将pdf转为txt 2. 安装edge-tts包,用于将txt转为音频 三.代码很简单 四.变更播音员 总 ...
- pandas 将DataFrame 转为txt文本,去除引号问题
pandas 将DataFrame 转为txt文本,去除引号问题 import csv df['列名'].to_csv('excel2txt.txt', sep=' ', index=False,he ...
- html转换txt文本格式方法,hthtml转txtml转换txt文本格式方法
html 转换txt文本格式,让记事本打开. 首先网页html文档直接可以使用记事本打开,如果需要转换转化为txt文本格式,大家只需要将扩展名改为.txt文本格式扩展名即可. html转化txt截图- ...
- 福昕PDF编辑器把PDF转换为富文本格式Word
福昕PDF编辑器把PDF转换为富文本格式Word 今天主要是一个记录 我喜欢用latex写paper,但是有时候需要提交Word版本,所以我昨天刚想到我写大论文还是用latex写,暂时提交就把PDF转 ...
- Python解析pdf转为TXT格式
#完成pdf到TXT转变了,无法完成TXT到Excel转变import xlwt # 写入文件 import xlrd # 打开excel文件 from xlutils.copy import cop ...
- python读取中文txt文本-python读取中文txt文本的方法
对于python2.7 字符串在Python2.7内部的表示是unicode编码,因此,在做编码转换时,通常需要以unicode作为中间编码,即先将其他编码的字符串解码成unicode,再从unico ...
- 经纬度 c代码中定义_如何将TXT文本格式的批量经纬度值导入到奥维成为标签
文本编辑: 示例1:最基本的,只批量导入WGS-84经纬度值成为标签,不需要导入标签名称. 文本编辑格式:经度值+空格+纬度值+换行,如下图: 示例2:除WGS-84经纬度外,还要导入标签名称. 文本 ...
- java 读取txt乱码_java 逐行读取txt文本如何解决中文乱码
java读取txt文本中如含有中文,可能会出现乱码,解决方案是: 1.要统一编码,java工程的编码,txt文本编码,java工程中的java文本编码都统一为utf-8: 2.利用 InputStre ...
- idea对于文件的打开方式设置,如何将某个文件以txt文本格式打开
打开idea的设置,找到File Types 选中Text时,红框2就显示对应的后缀名,表示红框2中的后缀名都以Text文本文件的格式(即txt文本)打开 这样我们就可以在idea上自定义不同后缀名文 ...
最新文章
- volatile的介绍
- 摩托面试续2-终于得到Offer了
- Oracle 11.2.0.2新特性——用户重命名(Rename User)
- 【Linux】一步一步学Linux——ssh命令(176)
- SharePoint 2010 大中小架构的部署
- spring roo_使用Spring Roo进行快速云开发–第1部分:Google App Engine(GAE)
- C++模板类嵌套类内部类局部类的区别
- LeetCode 1276. 不浪费原料的汉堡制作方案(解方程)
- 发送get请求php,如何利用PHP发送GET请求
- css动漫效果库,Animate.css功能强大的纯CSS3动画库 - 资源分享
- C语言基础教程之函数
- php 邮箱附件 大小限制,Exmail+Postfix修改邮件附件大小
- 【Scratch案例实操】scratch西游记师徒谁人气高 scratch编程案例教学 scratch创意编程 少儿编程教案
- python 爬虫--利用百度图片处理OCR识图API进行验证码识别,并通过python、requests进行网站信息爬取(二)实战
- 纯 html 以及 js 多域名跳转
- Mysql基础篇(2)—— 单行函数和聚合函数
- 每日一录20220816—01
- ftl模板文件编辑器
- Java编程基础19——Map集合斗地主案例
- python简易版爬虫
热门文章
- 管理感悟:公司内斗,肯定是闲着的斗干活的
- day01_启动程序装载器 IPL
- python判断中文函数_如何判断(或如何编写)一个没有副作用的python函数?
- vue3 eslint吐槽记录
- excel如何把顺序倒过来_如何在筛选后的表里复制粘贴数据到同行
- oracle windows 优化工具,使用某Windows优化大师对Windows2000操作系统进行了优化,优化完成之后,oracle数据库便无法正常工作...
- python3.5安装tensorflow_如何为Python 3.5安装OpenCV,Tensorflow和机器学习框架运行对象检测应用程序...
- 鸿蒙2.0手机交互体验,鸿蒙 2.0手机应用开发者Beta,来了!全新交互体验
- java 快排_总结Java中的排序算法:选择排序amp;快排amp;堆排序amp;归并排序(后附视频讲解)...
- TI DSP位域寄存器文件(Bit Field and Register-File Struc...