Python 2.6

我试图解析我的pdf文件,其中一种方法是将其转换为html并提取标题和段落。

所以,我尝试了pdf2htmlEX,它将我的pdf转换成html格式,而不干扰我的pdf格式。。。到目前为止,我还很高兴,但当我试图使用以下命令访问标题时:>> import subprocess

>> path = "/home/administrator/Documents/pdf_file.pdf"

>> subprocess.call(["pdf2htmlEX" , path])

但是当我打开我的html文件时,它给了我一些不必要的东西,更重要的是,我的文本没有标题标签,只有一堆div和span。在

^{pr2}$

我甚至试着用beauthoulsoup访问它>> from bs4 import BeautifulSoup as bs

>> soup = BeautifulSoup(f)

>> soup.find('div', attrs={'class': 'site-content'}).h1

它没有给我任何东西,因为没有标签。我也试过HTMLParser

从HTMLParser导入HTMLParser# create a subclass and override the handler methods

class myhtmlparser(HTMLParser):

def __init__(self):

self.reset()

self.NEWTAGS = []

self.NEWATTRS = []

self.HTMLDATA = []

def handle_starttag(self, tag, attrs):

self.NEWTAGS.append(tag)

self.NEWATTRS.append(attrs)

def handle_data(self, data):

self.HTMLDATA.append(data)

def clean(self):

self.NEWTAGS = []

self.NEWATTRS = []

self.HTMLDATA = []

parser = myhtmlparser()

parser.feed(f)

# Extract data from parser

tags = parser.NEWTAGS

attrs = parser.NEWATTRS

data = parser.HTMLDATA

# Clean the parser

parser.clean()

# Print out our data

#print tags

print data

但他们都没有满足我的愿望。我只想从html文件中提取每个标题以及它们所需的段落,这太过分了。。。:p我搜索了几乎所有的网站,几乎阅读了所有关于这方面的内容,但我的所有努力都白费了。请指点我。。。在

pdf转换成html python,在Python中将pdf转换为html相关推荐

  1. 使用pypdf2把原始pdf转换成kindle看着舒适的pdf

    文章目录 裁剪pdf 使用脚本拆分页面并转成kindle可见的大小 压缩pdf (可选) 拆分pdf 由于买了个kindle,所以想要最大效率地利用它.而在kindle上看pdf是很难受的,因为kin ...

  2. 将PDF转换成文本,用python写代码

    可以使用 Python 中的 PyPDF2 库来将 PDF 文件转换为文本. 首先,需要安装 PyPDF2: pipinstall pypdf2 然后,你可以使用以下代码来打开 PDF 文件并读取其内 ...

  3. linux shell转换成时间,如何在Bash中将时间戳转换为日期?

    如何在Bash中将时间戳转换为日期? 我需要一个将Unix时间戳转换为日期的shell命令或脚本. 输入可以来自第一个参数或来自stdin,允许以下使用模式: ts2date 1267619929 和 ...

  4. 如何将PDF转换成JPG——speedPDF在线免费批量PDF转JPG

    怎么免费将PDF格式的文件转成JPG格式的呢,看看小编是用的什么方法吧. 首先,推荐一款名的speedPDF的在线转换,网址为:https://speedpdf.com,打开后页面如图所示: 然后,选 ...

  5. python pdf转txt保留全部信息_Python 将pdf转换成txt(不处理图片)

    上一篇文章中已经介绍了简单的python爬网页下载文档,但下载后的文档多为doc或pdf,对于数据处理仍然有很多限制,所以将doc/pdf转换成txt显得尤为重要.查找了很多资料,在linux下要将d ...

  6. 【Python】只需2行代码,轻松将PDF转换成Word(含示范案例)

    文章目录 一.前期准备 二.pdf2docx功能 三.限制 四.案例 一.前期准备 可将 PDF 转换成 docx 文件的 Python 库.该项目通过 PyMuPDF 库提取 PDF 文件中的数据, ...

  7. python pdf处理 图片_Python 将pdf转换成txt(不处理图片)

    上一篇文章中已经介绍了简单的python爬网页下载文档,但下载后的文档多为doc或pdf,对于数据处理仍然有很多限制,所以将doc/pdf转换成txt显得尤为重要.查找了很多资料,在linux下要将d ...

  8. 【Python】只需2行代码,轻松将PDF转换成Word

    编辑:数据分析与统计学之美 可将 PDF 转换成 docx 文件的 Python 库.该项目通过 PyMuPDF 库提取 PDF 文件中的数据,然后采用 python-docx 库解析内容的布局.段落 ...

  9. Python库 pdf2docx 轻松将PDF转换成docx

    前言: 可将 PDF 转换成 docx 文件的 Python 库.该项目通过 PyMuPDF 库提取 PDF 文件中的数据,然后采用 python-docx 库解析内容的布局.段落.图片.表格等,最后 ...

  10. 批量PDF转换成Office文件 PDF转换器下载

    2019独角兽企业重金招聘Python工程师标准>>> 迅捷PDF转换成Word转换器采用了最新的一代的增强版核心技术,除了加强原超线程批量转换技术之外,新版本还提升了软件的多文件格 ...

最新文章

  1. 1864: [Zjoi2006]三色二叉树
  2. control focus related research
  3. cesium进行模型高度测量的代码片段
  4. Centos升级Python2.7.12
  5. html div数据替换,在contenteditable div中替换innerHTML
  6. 杭电4515小Q系列故事——世界上最遥远的距离
  7. 最惊艳你的短句是什么?
  8. MyEclipse使用经验归纳
  9. webtrends之ODBC源数据获取(二)——ACCESS访问篇
  10. Thinkphp精仿韩都衣舍商城网站源码
  11. python实战篇(七)---一寸照换背景
  12. 【Java成王之路】EE进阶第十篇 MyBatis查询数据库
  13. fatal error LNK1120: 1 个无法解析的外部命令 的解决办法
  14. Roman number -- 罗马数字
  15. Amazon S3对象储存(以图片为例)
  16. 怎样批量修改文件名不要括号?
  17. NCE4 L5 Youth
  18. 一篇文章通透理解序列号实现原理
  19. 1089 烽火传递(单调队列优化)
  20. mysql删除表中数据

热门文章

  1. TINYINT,SMALLINT,MEDIUMINT,INT,INTEGER,BIGINT;text,longtext,mediumtext,ENUM,SET等字段类型区别
  2. I.MX6 Android 5.1 回到 Android 4.2 emmc 启动
  3. iOS最好用的引导页
  4. ActiveMQ入门教程(三) - ActiveMQ P2P版的HelloWorld
  5. 大数据技术在传统企业信息化的应用
  6. ubuntu 13.04 gnome terminal打开默认最大化方法
  7. 方法对象java final关键字的用法
  8. linux swap 交换空间 设置多大合适
  9. linux shell 字符串比较相等、不相等
  10. GetLastError编号含义