pdf转换成html python,在Python中将pdf转换为html

Python 2.6

我试图解析我的pdf文件，其中一种方法是将其转换为html并提取标题和段落。

所以，我尝试了pdf2htmlEX，它将我的pdf转换成html格式，而不干扰我的pdf格式。。。到目前为止，我还很高兴，但当我试图使用以下命令访问标题时：>> import subprocess

>> path = "/home/administrator/Documents/pdf_file.pdf"

>> subprocess.call(["pdf2htmlEX" , path])

但是当我打开我的html文件时，它给了我一些不必要的东西，更重要的是，我的文本没有标题标签，只有一堆div和span。在

^{pr2}$

我甚至试着用beauthoulsoup访问它>> from bs4 import BeautifulSoup as bs

>> soup = BeautifulSoup(f)

>> soup.find('div', attrs={'class': 'site-content'}).h1

它没有给我任何东西，因为没有标签。我也试过HTMLParser

从HTMLParser导入HTMLParser# create a subclass and override the handler methods

class myhtmlparser(HTMLParser):

def __init__(self):

self.reset()

self.NEWTAGS = []

self.NEWATTRS = []

self.HTMLDATA = []

def handle_starttag(self, tag, attrs):

self.NEWTAGS.append(tag)

self.NEWATTRS.append(attrs)

def handle_data(self, data):

self.HTMLDATA.append(data)

def clean(self):

self.NEWTAGS = []

self.NEWATTRS = []

self.HTMLDATA = []

parser = myhtmlparser()

parser.feed(f)

# Extract data from parser

tags = parser.NEWTAGS

attrs = parser.NEWATTRS

data = parser.HTMLDATA

# Clean the parser

parser.clean()

# Print out our data

#print tags

print data

但他们都没有满足我的愿望。我只想从html文件中提取每个标题以及它们所需的段落，这太过分了。。。：p我搜索了几乎所有的网站，几乎阅读了所有关于这方面的内容，但我的所有努力都白费了。请指点我。。。在

pdf转换成html python,在Python中将pdf转换为html相关推荐

使用pypdf2把原始pdf转换成kindle看着舒适的pdf
文章目录裁剪pdf 使用脚本拆分页面并转成kindle可见的大小压缩pdf (可选) 拆分pdf 由于买了个kindle,所以想要最大效率地利用它.而在kindle上看pdf是很难受的,因为kin ...
将PDF转换成文本，用python写代码
可以使用 Python 中的 PyPDF2 库来将 PDF 文件转换为文本. 首先,需要安装 PyPDF2: pipinstall pypdf2 然后,你可以使用以下代码来打开 PDF 文件并读取其内 ...
linux shell转换成时间,如何在Bash中将时间戳转换为日期？
如何在Bash中将时间戳转换为日期? 我需要一个将Unix时间戳转换为日期的shell命令或脚本. 输入可以来自第一个参数或来自stdin,允许以下使用模式: ts2date 1267619929 和 ...
如何将PDF转换成JPG——speedPDF在线免费批量PDF转JPG
怎么免费将PDF格式的文件转成JPG格式的呢,看看小编是用的什么方法吧. 首先,推荐一款名的speedPDF的在线转换,网址为:https://speedpdf.com,打开后页面如图所示: 然后,选 ...
python pdf转txt保留全部信息_Python 将pdf转换成txt（不处理图片）
上一篇文章中已经介绍了简单的python爬网页下载文档,但下载后的文档多为doc或pdf,对于数据处理仍然有很多限制,所以将doc/pdf转换成txt显得尤为重要.查找了很多资料,在linux下要将d ...
【Python】只需2行代码，轻松将PDF转换成Word（含示范案例）
文章目录一.前期准备二.pdf2docx功能三.限制四.案例一.前期准备可将 PDF 转换成 docx 文件的 Python 库.该项目通过 PyMuPDF 库提取 PDF 文件中的数据, ...
python pdf处理图片_Python 将pdf转换成txt（不处理图片）
上一篇文章中已经介绍了简单的python爬网页下载文档,但下载后的文档多为doc或pdf,对于数据处理仍然有很多限制,所以将doc/pdf转换成txt显得尤为重要.查找了很多资料,在linux下要将d ...
【Python】只需2行代码，轻松将PDF转换成Word
编辑:数据分析与统计学之美可将 PDF 转换成 docx 文件的 Python 库.该项目通过 PyMuPDF 库提取 PDF 文件中的数据,然后采用 python-docx 库解析内容的布局.段落 ...
Python库 pdf2docx 轻松将PDF转换成docx
前言: 可将 PDF 转换成 docx 文件的 Python 库.该项目通过 PyMuPDF 库提取 PDF 文件中的数据,然后采用 python-docx 库解析内容的布局.段落.图片.表格等,最后 ...
批量PDF转换成Office文件 PDF转换器下载
2019独角兽企业重金招聘Python工程师标准>>> 迅捷PDF转换成Word转换器采用了最新的一代的增强版核心技术,除了加强原超线程批量转换技术之外,新版本还提升了软件的多文件格 ...

pdf转换成html python,在Python中将pdf转换为html

pdf转换成html python,在Python中将pdf转换为html相关推荐

最新文章

热门文章