php取tet文件内容,PHP中使用PDFlib TET提取PDF中的文本

本文介绍了如何在PHP中使用PDFlib TET提取PDF中的文本：

/* 全局参数表*/

$globaloptlist = "searchpath=../../../resource/cmap";

/* 文档参数表 */

$docoptlist = "";

/* 页面参数表 */

$pageoptlist = "granularity=page";

$infile = $_GET['infile'];

/* 将提取出的文本以UTF-8 编码传送的浏览器 */

header("Content-type: text/html; charset=UTF-8");

print("

");

$tet = TET_new();

if ($infile == "")

{

die("usage: add ?infile=filename.pdf to the URL/n");

}

TET_set_option($tet, $globaloptlist);

$doc = TET_open_document($tet, $infile, $docoptlist);

if ($doc == -1)

{

die("Error ". TET_get_errnum($tet) . " in " . TET_get_apiname($tet)

. "(): " . TET_get_errmsg($tet) . "/n");

}

/* 获取文档的页数*/

$n_pages = TET_pcos_get_number($tet, $doc, "length:pages");

for ($pageno = 1; $pageno <= $n_pages; ++$pageno) /* 逐页循环*/

{

$page = TET_open_page($tet, $doc, $pageno, $pageoptlist);

if ($page == -1)

{

print("Error " . TET_get_errnum($tet) . "in " .

TET_get_apiname($tet) . "() on page " . $pageno . ": " . TET_get_errmsg($tet) . "/n");

continue;

}

/* 提取所有的文本段 */

while (($text = TET_get_text($tet, $page)) != "")

{

/* 遍历所有字符*/

while (($ci = TET_get_char_info($tet, $page)))

{

/* 提取字体名称;字符位置可以通过ci->x和ci->y取得*/

$fontname = TET_pcos_get_string($tet, $doc,"fonts[" . $ci->fontid . "]/name");

}

print($text);

}

if (TET_get_errnum($tet) != 0)

{

print("Error " . TET_get_errnum($tet) . " in " . TET_get_apiname($tet) . " on page " . $pageno . ": " . TET_get_errmsg($tet) . "/n");

}

TET_close_page($tet, $page);

print("/n

"); /* add a delimiter between each zone */

}

print("

");

TET_close_document($tet, $doc);

TET_delete($tet);

标签：

本站文章除注明转载外，均为本站原创或翻译。欢迎任何形式的转载，但请务必注明出处、不得修改原文相关链接，尊重他人劳动成果

php取tet文件内容,PHP中使用PDFlib TET提取PDF中的文本相关推荐

python提取pdf中的图片_提取PDF中内容（表格篇）
由于(质量优质)PDF较好的阅读性,工作当中难免有文件使用PDF格式保存和流通的.但是由于PDF过于追求视觉的享受,所以在编辑其内容元素上相较微软office系列的确困难.不时会碰到看的到内容却难以直 ...
python提取pdf文件内容_如何用Python批量提取PDF文本内容？
本文为你展示,如何用Python把许多PDF文件的文本内容批量提取出来,并且整理存储到数据框中,以便于后续的数据分析. 问题最近,读者们在后台的留言,愈发五花八门了. 写了几篇关于自然语言处理的文章 ...
怎么提取pdf中的表格数据_如何从pdf第1部分中提取表格数据
怎么提取pdf中的表格数据 In this article, we talk about the challenges and principles of extracting tabular dat ...
Spring Boot 提取pdf中的文字
Spring Boot 提取pdf中的文字提取pdf中的文字,由于字体不同,可能会提取出来乱码.(友情提示:建议先pdf文件转成图片,然后调用百度api提取文字,准确率高.跳转链接:https:// ...
Java 添加、提取PDF中的图片
Spire.Cloud.SDK for Java提供了PdfImagesApi接口可用于添加图片到PDF文档addImage().提取PDF中的图片extractImages(),具体操作步骤和Jav ...
怎么提取pdf中的某一页？试试这三种提取办法
怎么提取pdf中的某一页?在我们日常办公和学习中,经常会遇到需要提取 PDF 文件中的某一页的情况.比如需要转发文件中的某一页给同事或朋友,或者需要将文件中的某一页用作资料整理.此时,提取 PDF 中 ...
通过Python的pdfplumber库提取pdf中表格数据
文章目录前言一.pdfplumber库是什么? 二.安装pdfplumber库三.查看pdfplumber库版本四.提取pdf中表格数据 1.引入库 2.定义pdf文件路径 3.打开pdf文件 ...
Python提取PDF中的文字和图片
一,使用Python提取PDF中的文字 # 只能处理包含文本的PDF文件 #coding=utf-8 import sys import importlib importlib.reload(sys) ...
如何提取pdf中的某一页？
如何提取pdf中的某一页?为什么pdf文件越来越受到大家的喜欢呢?主要原因是pdf文件更加的稳定,不能被随意的修改编辑,正是由于这个原因也导致了pdf文件使用起来有些不方便.例如我想提取pdf文件的某 ...

php取tet文件内容,PHP中使用PDFlib TET提取PDF中的文本

php取tet文件内容,PHP中使用PDFlib TET提取PDF中的文本相关推荐

最新文章

热门文章