itext pdf linux 乱码,iTextSharp读取pdf内容为乱码
private string ReadPpf()
{
string fn = @"E:\PDFReaderTest\article\C#从入门到精通.pdf";
PdfReader p = new PdfReader(fn);
//从每一页读出的字符串
string str = System.String.Empty;
//"[......]"内部字符串
string subStr = System.String.Empty;
//函数返回的字符串
string rtStr = System.String.Empty;
//从每一页读出的8位字节数组
byte[] b = new byte[0];
//"[","]","(",")"在字符串中的位置
Int32 bg = 0, ed = 0, subbg = 0, subed = 0;
//取得文档总页数
int pg = p.NumberOfPages;
System.Text.StringBuilder sb = new System.Text.StringBuilder();
for (int i = 1; i <= pg; i++)
{
bg = 0;
ed = 0;
Array.Resize(ref b, 0);
//取得第i页的内容
b = p.GetPageContent(i);
//下一行是把每一页的取得的字节数据写入一个txt的文件,仅供研究时用
System.IO.File.WriteAllBytes(@"E:\PDFReaderTest\article\xct.txt", b);
//取得每一页的字节数组,将每一个字节转换为字符,并将数组转换为字符串
for (int j = 0; j < b.Length; j++)
{
sb.Append(Convert.ToChar(b[j]));
}
str = sb.ToString() ;
}
return str;
//System.Text.StringBuilder text = new System.Text.StringBuilder();
//string fileName = @"E:\PDFReaderTest\article\xct.pdf";
//if (File.Exists(fileName))
//{
// PdfReader pdfReader = new PdfReader(fileName);
// for (int page = 1; page <= pdfReader.NumberOfPages; page++)
// {
// ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
// string currentText = PdfTextExtractor.GetTextFromPage(pdfReader, page, strategy);
// currentText = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.Default, Encoding.UTF8, Encoding.Default.GetBytes(currentText)));
// text.Append(currentText);
// }
// pdfReader.Close();
//}
//return text.ToString();
//string fileName = @"E:\PDFReaderTest\article\xct.pdf";
//PdfReader reader = new PdfReader(file);
//string text = PdfTextExtractor.GetTextFromPage(reader, 1);
//try { reader.Close(); }
//catch { }
//return text;
//try
//{
// string pdffilename = @"E:\PDFReaderTest\article\未命名.pdf";
// PdfReader pdfReader = new PdfReader(pdffilename);
// int numberOfPages = pdfReader.NumberOfPages;
// string text = string.Empty;
// for (int i = 1; i <= numberOfPages; ++i)
// {
// byte[] bufferOfPageContent = pdfReader.GetPageContent(i);
// text += System.Text.Encoding.UTF8.GetString(bufferOfPageContent);
// }
// pdfReader.Close();
// return text;
//}
//catch (Exception ex)
//{
// return null;
//}
}
itext pdf linux 乱码,iTextSharp读取pdf内容为乱码相关推荐
- php 读取pdf文件内容 显示乱码,PHP读取文件,解决中文乱码UTF-8的方法分析
本文实例讲述了PHP读取文件,解决中文乱码UTF-8的方法.分享给大家供大家参考,具体如下: $opts = array( "file" => array( "en ...
- 【python PDF解析】python 读取PDF文件内容
一.问题描述 利用python,去读取pdf文本内容. 二.效果 三.运行环境 python2.7 四.需要安装的库 pip install pdfminer 五.实现源代码 代码1(win64) # ...
- php读取pdf文件乱码_PHP读取文件,解决中文乱码UTF-8的方法分析
本文实例讲述了PHP读取文件,解决中文乱码UTF-8的方法.分享给大家供大家参考,具体如下: $opts = array( 'file' => array( 'encoding' => & ...
- C# Json数据转DataTable并生成PDF在线下载--iTextSharp生成PDF实例(文件下载,json数据转换,PDF排版一步到位)
前言 本文将重点介绍iTextSharp的使用方法和易踩的一些坑,顺便介绍了json转DataTable的简单快捷高效的方法及二进制流转换文件在线即时下载的方法.经测试生成40页的pdf仅需要1秒,大 ...
- linux网卡驱动 pdf,Linux下网卡驱动程序.pdf
zekairecv 于 2015-10-04 00:58:57发表: 谢谢 weilee1 于 2015-04-19 17:41:05发表: 看看 雪语阑风 于 2014-12-04 11:03:39 ...
- php判断pdf页码,PHP_PHP简单读取PDF页数的实现方法,本文实例讲述了PHP简单读取PDF - phpStudy...
PHP简单读取PDF页数的实现方法 本文实例讲述了PHP简单读取PDF页数的实现方法.分享给大家供大家参考,具体如下: 还是老外比较厚道, 在老外的网站找到了这样一个方法, 我写成了一个函数, 再将函 ...
- python处理pdf实例_Python实现读取PDF文件案例
最近有一个本地客户需求是读取PDF文件,然后做自动化处理.这其实是一种典型的RPA自动化需求,简单而言就是模拟人工来操作文件,网页,客户端系统等,只要操作规则定义清楚,就可以实施这种RPA应用,而如果 ...
- linux除了cat读取文件内容,linux cut命令和cat命令以及查看文件内容命令总结
cut-d: -f 1 /etc/passwd > /tmp/users -d用来定义分隔符,默认为tab键,-f表示需要取得哪个字段 当然也可以通过cut取得文件中每行中特定的几个字符,例如: ...
- java解析pdf 图片文字_Java 读取PDF中的文本和图片
本文将介绍通过Java程序来读取PDF文档中的文本和图片的方法.分别调用方法extractText()和extractImages()来读取. 使用工具:Free Spire.PDF for Java ...
最新文章
- 2020-09-05
- react-native 小米手机和 mac 安装
- 郁闷的 ConfigurationManager.OpenExeConfiguration
- 【WC2016】挑战NPC 【带花树】【建图】
- openfire log4j:ERROR setFile(null,true) call failed.
- tornado学习笔记day06-应用安全
- linux 多个select,Linux select()和多个套接字的FIFO排序?
- XGBoost深度理解
- CUDA Study Notes
- c11 语言,语言学C11-1.ppt
- qlearning算法_通过OpenAI Gym编写第一个强化学习算法
- 一种简便的安装使用 qemu 的方法
- 《Java程序性能优化》、让你的Java程序更快、更稳定(PDF篇)
- OpManager引领智能运维未来的发展方向
- 梵高画作再现?努比亚AI新旗舰Z18携“地外科技”亮相
- java中intern,在Java中什么时候使用String.intern()方法?
- 电子计算机的发展世代
- 考考你、智商题 小明借爸爸500元 又借妈妈500元 买双鞋 970元 还剩30元 还给爸爸10元...
- discuz_result
- 【知识兔】2022年9月份计算机一级开始报名啦+考试资料