以下的读取方式,针对个别PDF文件会出现读取内容为乱码的现象,如果有高手有其他办法可以解决,就提供下,大家一起学习

winform代码

首先要在网上下载:PDFBox

通过引用两个DLL:
IKVM.GNU.Classpath.dll
PDFBox-0.7.3.dll

将两个DLL放在项目的BIN目录下:
FontBox-0.1.0-dev.dll
IKVM.Runtime.dll

//引用的空间,由项目饮用的动态DLL后才能使用
using org.pdfbox.pdmodel;
using org.pdfbox.util;

//按钮事件中的代码
private void button2_Click(object sender, System.EventArgs e)
{

PDDocument txtTmp = PDDocument.load(文件物理路径)
                PDFTextStripper pdfStripper = new PDFTextStripper();
                textBox1.Text = pdfStripper.getText(txtTmp);
                textBox1.Text += textBox1.Text.Length;

/* 如下的以后使用参考
DialogResult dr = folderDialog.ShowDialog();
            if(dr != DialogResult.OK)
            {
                return;
            }
            //选择文件的路径
            folderPath  = folderDialog.SelectedPath;

DirectoryInfo dirPDF = new DirectoryInfo(folderPath);
            if(!dirPDF.Exists)
            {
                MessageBox.Show("您录入的文件路径有误,请核实!");
                return;
            }

FileInfo[] fileOldSystem = dirPDF.GetFiles("*.pdf");
            if(fileOldSystem.Length == 0)
            {
                MessageBox.Show("您选择的文件路径下没有PDF文件,请核实!");
                return;
            }

foreach(FileInfo file in fileOldSystem)
            {
                PDDocument txtTmp = PDDocument.load(file.FullName.ToLower());
                PDFTextStripper pdfStripper = new PDFTextStripper();
                textBox1.Text = pdfStripper.getText(txtTmp);
                textBox1.Text += textBox1.Text.Length;

StreamWriter sw = File.AppendText(file.FullName.ToLower().Replace(".pdf",".txt"));
                sw.Write(textBox1.Text);
                sw.Flush();
                sw.Close();

}

*/

}

转载于:https://www.cnblogs.com/hanguoji/archive/2010/01/07/1641460.html

将PDF转为TXT文本格式提取中文相关推荐

  1. 如何批量提取 PDF 文档内容,将 PDF 格式文档转为 Txt 文本格式

    概要:PDF 文档常常用来阅读.预览或者存档一些资料,PDF 支持的内容也是比较丰富的.可以支持图片.文本等多种类型的元素.那有时候我们就需要将一些纯文本的 PDF 文档中的文字提取出来,转为一个 T ...

  2. 【Python小技巧】将pdf转为txt,并使用edge-tts将txt批量转为MP3(不想看书想听书的转过来,送源代码)

    文章目录 前言 一.PDF转为MP3 ? 二.准备工作 1. 安装pdfplumber包,用于将pdf转为txt 2. 安装edge-tts包,用于将txt转为音频 三.代码很简单 四.变更播音员 总 ...

  3. pandas 将DataFrame 转为txt文本,去除引号问题

    pandas 将DataFrame 转为txt文本,去除引号问题 import csv df['列名'].to_csv('excel2txt.txt', sep=' ', index=False,he ...

  4. html转换txt文本格式方法,hthtml转txtml转换txt文本格式方法

    html 转换txt文本格式,让记事本打开. 首先网页html文档直接可以使用记事本打开,如果需要转换转化为txt文本格式,大家只需要将扩展名改为.txt文本格式扩展名即可. html转化txt截图- ...

  5. 福昕PDF编辑器把PDF转换为富文本格式Word

    福昕PDF编辑器把PDF转换为富文本格式Word 今天主要是一个记录 我喜欢用latex写paper,但是有时候需要提交Word版本,所以我昨天刚想到我写大论文还是用latex写,暂时提交就把PDF转 ...

  6. Python解析pdf转为TXT格式

    #完成pdf到TXT转变了,无法完成TXT到Excel转变import xlwt # 写入文件 import xlrd # 打开excel文件 from xlutils.copy import cop ...

  7. python读取中文txt文本-python读取中文txt文本的方法

    对于python2.7 字符串在Python2.7内部的表示是unicode编码,因此,在做编码转换时,通常需要以unicode作为中间编码,即先将其他编码的字符串解码成unicode,再从unico ...

  8. 经纬度 c代码中定义_如何将TXT文本格式的批量经纬度值导入到奥维成为标签

    文本编辑: 示例1:最基本的,只批量导入WGS-84经纬度值成为标签,不需要导入标签名称. 文本编辑格式:经度值+空格+纬度值+换行,如下图: 示例2:除WGS-84经纬度外,还要导入标签名称. 文本 ...

  9. java 读取txt乱码_java 逐行读取txt文本如何解决中文乱码

    java读取txt文本中如含有中文,可能会出现乱码,解决方案是: 1.要统一编码,java工程的编码,txt文本编码,java工程中的java文本编码都统一为utf-8: 2.利用 InputStre ...

  10. idea对于文件的打开方式设置,如何将某个文件以txt文本格式打开

    打开idea的设置,找到File Types 选中Text时,红框2就显示对应的后缀名,表示红框2中的后缀名都以Text文本文件的格式(即txt文本)打开 这样我们就可以在idea上自定义不同后缀名文 ...

最新文章

  1. volatile的介绍
  2. 摩托面试续2-终于得到Offer了
  3. Oracle 11.2.0.2新特性——用户重命名(Rename User)
  4. 【Linux】一步一步学Linux——ssh命令(176)
  5. SharePoint 2010 大中小架构的部署
  6. spring roo_使用Spring Roo进行快速云开发–第1部分:Google App Engine(GAE)
  7. C++模板类嵌套类内部类局部类的区别
  8. LeetCode 1276. 不浪费原料的汉堡制作方案(解方程)
  9. 发送get请求php,如何利用PHP发送GET请求
  10. css动漫效果库,Animate.css功能强大的纯CSS3动画库 - 资源分享
  11. C语言基础教程之函数
  12. php 邮箱附件 大小限制,Exmail+Postfix修改邮件附件大小
  13. 【Scratch案例实操】scratch西游记师徒谁人气高 scratch编程案例教学 scratch创意编程 少儿编程教案
  14. python 爬虫--利用百度图片处理OCR识图API进行验证码识别,并通过python、requests进行网站信息爬取(二)实战
  15. 纯 html 以及 js 多域名跳转
  16. Mysql基础篇(2)—— 单行函数和聚合函数
  17. 每日一录20220816—01
  18. ftl模板文件编辑器
  19. Java编程基础19——Map集合斗地主案例
  20. python简易版爬虫

热门文章

  1. 管理感悟:公司内斗,肯定是闲着的斗干活的
  2. day01_启动程序装载器 IPL
  3. python判断中文函数_如何判断(或如何编写)一个没有副作用的python函数?
  4. vue3 eslint吐槽记录
  5. excel如何把顺序倒过来_如何在筛选后的表里复制粘贴数据到同行
  6. oracle windows 优化工具,使用某Windows优化大师对Windows2000操作系统进行了优化,优化完成之后,oracle数据库便无法正常工作...
  7. python3.5安装tensorflow_如何为Python 3.5安装OpenCV,Tensorflow和机器学习框架运行对象检测应用程序...
  8. 鸿蒙2.0手机交互体验,鸿蒙 2.0手机应用开发者Beta,来了!全新交互体验
  9. java 快排_总结Java中的排序算法:选择排序amp;快排amp;堆排序amp;归并排序(后附视频讲解)...
  10. TI DSP位域寄存器文件(Bit Field and Register-File Struc...