最近在实习,老板一下子发给了我120份研报,然而很多都是没用的。聪明的大脑一定要想办法让电脑帮助自己完成简单的工作!

下面是Python筛选含有“”丙烯“”关键字的程序,由于文件的保密性只能贴出代码。

注意:

pip install pdfminer3k而不是pdfminer

导入的时候名字是pdfminer,原因我才是python版本的问题

# -*- coding: utf-8 -*-

"""

Created on Fri May 10 16:54:16 2019

@author: didi.lv

"""

import os

from io import StringIO

import shutil

# 注意:一定要pip install pdfminer3k 而不是pdfminer

from pdfminer.pdfinterp import PDFResourceManager, process_pdf

from pdfminer.converter import TextConverter

from pdfminer.layout import LAParams

# 读取pdf的函数,返回内容

def readPdf(pdf_file):

rsrcmgr = PDFResourceManager()

retstr = StringIO()

laparams = LAParams()

device = TextConverter(rsrcmgr=rsrcmgr, outfp=retstr, laparams=laparams)

process_pdf(rsrcmgr=rsrcmgr, device=device, fp=pdf_file)

device.close()

content = retstr.getvalue()

retstr.close()

return content

def file_name(file_dir):

names = []

for root, dirs, files in os.walk(file_dir):

names.append(files)

return files

if __name__ == '__main__':

file_dir = r'C:\\Users\didi.lv\Desktop\filenames'

file_names_str = str(file_name(file_dir))

name_ = file_names_str.split('.pdf\', ')

# 简单的check下这个代码的细节,需要理解

name_temp1 = name_[0]

name_[0] = name_temp1[1:]

name_temp2 = name_[-1]

name_[-1] = name_temp2[0:-6]

i = 0

for name_check in name_[48:]:

print('--------------------------------------------------------')

i += 1

print(i)

name_check = name_check[1:]

name_check += '.pdf'

name_check_open = r'C:\\Users\didi.lv\Desktop\filenames' + '\\' + name_check

pdf_file = open(name_check_open, 'rb')

content = readPdf(pdf_file)

if '丙烯' in content:

# 注意这里是从原始位置filenames1复制到目标位置filenames2

file_origin = r'C:\\Users\didi.lv\Desktop\filenames1' + '\\' + name_check

file_target = r'C:\\Users\didi.lv\Desktop\filenames2' + '\\' + name_check

shutil.copyfile(file_origin,file_target)

print('copy No. %d file' %i)

原文:https://blog.csdn.net/Eric2016_Lv/article/details/90082280

python pdfminer3k_Python对pdf中的关键字过滤(pdfminer3k或pdfminer使用)相关推荐

  1. python爬取pdf教程_#如何利用Python抓取PDF中的某些内容#python爬取pdf教程

    如何利用Python抓取PDF中的某些内容 学生每天要学习,工作者要工作,家庭主妇每都要务.不论做什么,都有着相应的操作流同样就会有操作技巧.学生运用技巧学习才不会累,学得还会更快更多:工作者掌握技巧 ...

  2. 三种方法,用Python轻松提取PDF中的全部图片

    作者 | 陈熹.刘早起 来源 | 早起Python 头图 | 下载于视觉中国 有时我们需要将一份或者多份PDF文件中的图片提取出来,如果采取在线的网站实现的话又担心图片泄漏,手动操作又觉得麻烦,其实用 ...

  3. 三种方法,Python轻松提取PDF中全部图片

    有时我们需要将一份或者多份PDF文件中的图片提取出来,如果采取在线的网站实现的话又担心图片泄漏,手动操作又觉得麻烦,其实用Python也可以轻松搞定! 今天就跟大家系统分享几种Python提取 PDF ...

  4. python实现自动提取句子中的关键字

    python可以自动提取到句子中的关键字,比如说: 句子:我想坐飞机航空公司. 关键字提取:飞机航空公司. 一.安装环境 这里,我采用的是windows10,python3.8.3 安装 pyahoc ...

  5. python分析pdf年报 货币现金_如何用Python从大量pdf 中提取表格中的数据进行分析?...

    根据一楼答案@森林的建议 说说我的处理经验 我也是借助开源项目tabula,不得不说tabula的功能确实很强大. 我是用Python来处理数据,但是没有用tabula-py,因为表格跨列跨行等情况比 ...

  6. python批量从pdf中转换图片保存

    做项目,需要对公司财报做OCR,首先数据集,就得从财报pdf中截取图片了. import datetime import random import osimport fitz # fitz就是pip ...

  7. python抓取pdf中的表格转换为csv表格汉语站名批量变英文(拼音)名

    1, PDF转csv import tabulafrom tabula import read_pdf from tabulate import tabulate import pandas as p ...

  8. mac 下 python 批量删除 PDF 中的某些页面

    去网上找 python 处理pdf的库,大多都会给你推荐 PyPDF2,其实这个库早已经过时了. 这里展示下如何用Python3删除pdf文件中的某些页面: import pikepdfwith pi ...

  9. R语言批处理查找pdf中的关键字

    两个package:pdftools,pdfsearch 结果:all_record,里面装了文件名(filename),关键字(keyword),页码(page_num),行数(line_num), ...

  10. 【办公自动化】使用Python一键提取PDF中的表格到Excel(文末送书5本)

最新文章

  1. 如何解决问题:程序无法正常启动(0xc0000022)
  2. 012_JDBC模板
  3. 服务器多难管理怎么办?给你一个服务器批量管理工具
  4. 使用Ant Design 和Vue,React中后台开发套餐
  5. [Linux实用工具]munin-node插件配置和插件编写
  6. wordpress启动初始化过程
  7. Java 对象占用内存大小
  8. css之为文本添加线性渐变和外描边
  9. 游戏提高性能 游戏降帧处理
  10. Android之jni入门
  11. 最快60秒完成新冠病毒核酸对比 阿里云向社会免费开放基因计算服务
  12. 开关灯(信息学奥赛一本通-T1109)
  13. Myeclipse7.X和8.X汉化
  14. c++中queue用法
  15. alpine linux安装桌面,Alpine linux硬盘安装
  16. gitlab主备同步_gitlab实现主备切换集群
  17. java删除cookie_JAVAWEB使用保存cookie、删除cookie、获取cookie工具类
  18. YoungTalk-STM32入门100步-FLASH读写与蜂鸣器操作(30-32)
  19. 大数运算(加、减、乘、除)
  20. 【计算机图形学】Laplacian_Surface_Editiing拉普拉斯曲面编辑算法

热门文章

  1. 计算机音乐制作旋律教学,旋律创作的基本规律 管窥小学音乐旋律创作教学
  2. AI 技术本身的一些优势,比如它能够从大量数据里去总结背后的规律
  3. 计算机键盘无法使用的原因,电脑键盘失灵的原因及解决方法
  4. 四 H264解码输出yuv文件
  5. c语言逻辑运算符用法大全,【学习笔记】【C语言】逻辑运算符
  6. python计算无穷级数求和常用公式_级数求和常用方法-级数求和法
  7. html怎么设置整体右对齐,如何在html中右对齐按钮
  8. 用java操作MySQL编写的高校水电费管理系统
  9. 大数据下 移动计算 和 移动数据的一点理解
  10. Excel表格如何筛选重复内容(筛选重复数据的方法)