php取tet文件内容,PHP中使用PDFlib TET提取PDF中的文本
本文介绍了如何在PHP中使用PDFlib TET提取PDF中的文本:
/* 全局参数表*/
$globaloptlist = "searchpath=../../../resource/cmap";
/* 文档参数表 */
$docoptlist = "";
/* 页面参数表 */
$pageoptlist = "granularity=page";
$infile = $_GET['infile'];
/* 将提取出的文本以UTF-8 编码传送的浏览器 */
header("Content-type: text/html; charset=UTF-8");
print("
");
$tet = TET_new();
if ($infile == "")
{
die("usage: add ?infile=filename.pdf to the URL/n");
}
TET_set_option($tet, $globaloptlist);
$doc = TET_open_document($tet, $infile, $docoptlist);
if ($doc == -1)
{
die("Error ". TET_get_errnum($tet) . " in " . TET_get_apiname($tet)
. "(): " . TET_get_errmsg($tet) . "/n");
}
/* 获取文档的页数*/
$n_pages = TET_pcos_get_number($tet, $doc, "length:pages");
for ($pageno = 1; $pageno <= $n_pages; ++$pageno) /* 逐页循环*/
{
$page = TET_open_page($tet, $doc, $pageno, $pageoptlist);
if ($page == -1)
{
print("Error " . TET_get_errnum($tet) . "in " .
TET_get_apiname($tet) . "() on page " . $pageno . ": " . TET_get_errmsg($tet) . "/n");
continue;
}
/* 提取所有的文本段 */
while (($text = TET_get_text($tet, $page)) != "")
{
/* 遍历所有字符*/
while (($ci = TET_get_char_info($tet, $page)))
{
/* 提取字体名称;字符位置可以通过ci->x和ci->y取得*/
$fontname = TET_pcos_get_string($tet, $doc,"fonts[" . $ci->fontid . "]/name");
}
print($text);
}
if (TET_get_errnum($tet) != 0)
{
print("Error " . TET_get_errnum($tet) . " in " . TET_get_apiname($tet) . " on page " . $pageno . ": " . TET_get_errmsg($tet) . "/n");
}
TET_close_page($tet, $page);
print("/n
"); /* add a delimiter between each zone */
}
print("
");
TET_close_document($tet, $doc);
TET_delete($tet);
?>
标签:
本站文章除注明转载外,均为本站原创或翻译。欢迎任何形式的转载,但请务必注明出处、不得修改原文相关链接,尊重他人劳动成果
php取tet文件内容,PHP中使用PDFlib TET提取PDF中的文本相关推荐
- python提取pdf中的图片_提取PDF中内容(表格篇)
由于(质量优质)PDF较好的阅读性,工作当中难免有文件使用PDF格式保存和流通的.但是由于PDF过于追求视觉的享受,所以在编辑其内容元素上相较微软office系列的确困难.不时会碰到看的到内容却难以直 ...
- python提取pdf文件内容_如何用Python批量提取PDF文本内容?
本文为你展示,如何用Python把许多PDF文件的文本内容批量提取出来,并且整理存储到数据框中,以便于后续的数据分析. 问题 最近,读者们在后台的留言,愈发五花八门了. 写了几篇关于自然语言处理的文章 ...
- 怎么提取pdf中的表格数据_如何从pdf第1部分中提取表格数据
怎么提取pdf中的表格数据 In this article, we talk about the challenges and principles of extracting tabular dat ...
- Spring Boot 提取pdf中的文字
Spring Boot 提取pdf中的文字 提取pdf中的文字,由于字体不同,可能会提取出来乱码.(友情提示:建议先pdf文件转成图片,然后调用百度api提取文字,准确率高.跳转链接:https:// ...
- Java 添加、提取PDF中的图片
Spire.Cloud.SDK for Java提供了PdfImagesApi接口可用于添加图片到PDF文档addImage().提取PDF中的图片extractImages(),具体操作步骤和Jav ...
- 怎么提取pdf中的某一页?试试这三种提取办法
怎么提取pdf中的某一页?在我们日常办公和学习中,经常会遇到需要提取 PDF 文件中的某一页的情况.比如需要转发文件中的某一页给同事或朋友,或者需要将文件中的某一页用作资料整理.此时,提取 PDF 中 ...
- 通过Python的pdfplumber库提取pdf中表格数据
文章目录 前言 一.pdfplumber库是什么? 二.安装pdfplumber库 三.查看pdfplumber库版本 四.提取pdf中表格数据 1.引入库 2.定义pdf文件路径 3.打开pdf文件 ...
- Python提取PDF中的文字和图片
一,使用Python提取PDF中的文字 # 只能处理包含文本的PDF文件 #coding=utf-8 import sys import importlib importlib.reload(sys) ...
- 如何提取pdf中的某一页?
如何提取pdf中的某一页?为什么pdf文件越来越受到大家的喜欢呢?主要原因是pdf文件更加的稳定,不能被随意的修改编辑,正是由于这个原因也导致了pdf文件使用起来有些不方便.例如我想提取pdf文件的某 ...
最新文章
- 用tar来备份Ubuntu操作系统
- 解决UnicodeDecodeError: ‘ascii’ codec can’t decode byte 0xe5 in position 108: ordinal not in range(12
- [转载]Token原理以及应用
- 犯人释放的C语言程序,C语言的自动关机程序和一个用来整人的小程序
- 你不了解PHP的10件事情!
- ajax返回失败原因,ajax POST请求返回失败
- 产品经理该如何做竞品分析
- ASP.NET MVC 3 Preview1发布
- 【SpringMVC】@Controller 和 @RestController 区别
- SQL Server 何时将“脏页”回写到硬盘
- java学生成绩管理系统文库,基于JAVA的学生成绩管理系统的设计与实现
- nodejs tinypng 压缩
- Android音视频——H265编码核心技术解析
- 惠普136w耗材贵吗_不妨试一试:惠普打印机136w与m30w哪个好?有没有区别?到底坑不坑?...
- Delphi2010启动报错cannot create file C:Users\ADMINI~1\AppDat...\EditorLineEnds.ttr
- 互联网大厂轮流买单,春晚红包却不再“药到病除”?
- vue调取电脑摄像头实现拍照功能
- 架构扫盲|四种常见的软件架构
- 刚入门学3D游戏美术设计最常见的几个问题
- C Primer Plus 学习打卡之第二章(含课后编程答案)
热门文章
- 终于等到了!十位Java架构师整理的“阿里P7”养成计划
- 信捷触摸屏通讯示例1
- Windows 远程桌面连接方法及远程桌面控制软件推荐
- Android应用防xposed注入,android hook 框架 xposed 如何实现注入
- 双网卡设置一个外网一个内网_双网卡同时上网,内网外网同时启用的解放办法...
- 西班牙语dele等级_DELE——西班牙语水平考试
- SkeyeExPlayer(Windows)开发系列之解决ffmpeg接口调用卡住的问题
- PNG怎么转换成PDF?这篇文章教会你
- 用Win10中自带的CHKDSK来扫描和修复硬盘
- 钟站壤赴梅拱厩沼泊叶