Python实现批量PDF文件统计处理:https://www.jianshu.com/p/1ec8f4314611
第一步:批量读取pdf文件

# -*- coding: utf-8 -*-
"""
Created on Sat Jun  8 15:30:22 2019
@author: Administrator
"""import os
from io import StringIO
from io import open
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfinterp import PDFResourceManager, process_pdf
from docx import Document
from docx.shared import Pt
from docx.shared import RGBColordef read_pdf(pdf):# resource managerrsrcmgr = PDFResourceManager()retstr = StringIO()laparams = LAParams()# devicedevice = TextConverter(rsrcmgr, retstr, laparams=laparams)process_pdf(rsrcmgr, device, pdf)device.close()content = retstr.getvalue()retstr.close()# 获取所有行lines = str(content).split("\n")return lines#%%#coding=utf-8#%%
article_name = os.listdir('G:\婴儿识别项目\TEMP')
article_name.sort()
i=1
test = Document()
p = test.add_paragraph(u'目录')
for article in article_name:
#    if i<=8 :
#        i=i+1
#        continuerun = p.add_run(article[:len(article)-4])run.font.size = Pt(12)run.font.name=u'Arial'run.font.color.rgb=RGBColor(0,0,255)run.bold=Truerun = p.add_run('\n')if __name__ == '__main__':with open(article, "rb") as my_pdf:lines=read_pdf(my_pdf)count=0for line in lines:if count==0:count=1continueif line==u'∗':breakif line=='Contents lists available at ScienceDirect' or line=='' or line=='International Journal of Refrigeration ' or line=='journal homepage: www.elsevier.com/locate/ijrefrig ' or line=='a , ' or line=='b , ' or line=='c , ' or line=='d , ' or line=='e , ':continuerun = p.add_run(line)run.font.size = Pt(12)run.font.name=u'Arial'#print (lines[0])run = p.add_run('\n')run = p.add_run(lines[0])run.font.size = Pt(12)run.font.name=u'Arial'run = p.add_run('\n')run = p.add_run('\n')#text.close()test.save(u'C:/Users/Administrator/Desktop/目录.docx')#print(read_pdf(my_pdf)[0])#%%
article_name = os.listdir('G:\婴儿识别项目\TEMP')
article_name.sort()article=article_name[2]
#    if i<=8 :
#        i=i+1
#        continueif __name__ == '__main__':with open(article, "rb") as my_pdf:lines=read_pdf(my_pdf)

第二步:
批量重命名文件

# -*- coding: utf-8 -*-
"""
Created on Wed Jun  5 14:37:46 2019
@author: Administrator
"""import os
movie_name = os.listdir('./July')
i=1
for temp in movie_name:new_name = '2019 Jul-' + str(i)+'.pdf'i=i+1os.rename('./July/'+temp,'./July/'+new_name)

也可参考:
https://www.jianshu.com/p/1ec8f4314611

python实现大批量pdf格式论文的重命名与目录制作功能相关推荐

  1. python批量重命名指定目录下所有文件的后缀名

    python批量重命名指定目录下所有文件的后缀名 有个需求,需要把某个文件夹下所有后缀名为.abc的更改为.xyz; #批量重命名指定目录下面所有文件的后缀名. word_dir为需要更改后缀的文件夹 ...

  2. 一次性下载CVPR/ICCV/ECCV会议所有论文并提取论文标题重命名pdf文件

    转自:https://blog.csdn.net/lcz200/article/details/80813988 动机 计算机视觉领域会议近年来论文接收数量暴增,论文多得看不过来.偶尔想起来,会兴致勃 ...

  3. 手把手教你为 PDF文件/论文自动批量添加书签/目录, 彻底告别手动添加书签的烦恼

    本文是众多使用技巧中其中的一篇, 全部使用技巧点击链接查看, 或直接查看本专栏其他文章, 保证你收获满满 我主页中的思维导图中内容大多从我的笔记中整理而来,相应技巧可在笔记中查找原题, 有兴趣的可以去 ...

  4. python文件批量改名_python文件批量重命名

    python文件批量重命名 代码如下: # -*- coding: gbk -*- import os class fileRename(): def __init__(self, path): se ...

  5. Python实现对图片,文件批量重命名

    基于python,实现批量图片(.jpg - .png - .bmp ~)和文件(比如说.xml)的有序数字的重命名.自己可以任意选择起始的数字. #------------------------- ...

  6. 使用python对文件下的文件批量重命名

    一直以来进行相机标定的时候需要对采集的图像进行重命名,一直像个智障一样一个一个对图像进行操作,效率极低.突然就明白了那句话,"人生苦短,我用python" import os pa ...

  7. python列重命名_Python目录–创建,重命名,删除,列出,更改

    python列重命名 Good day, learners! In this tutorial we are going to learn about Python Directory. In our ...

  8. python遍历文件夹下文件 批量重命名

    python 批量重命名 应用实例 #!/usr/bin/python # -*- coding:utf8 -*- import os import sysdef reName(filpath):vi ...

  9. Python 实现读取文本内容、文件重命名、替换文本内容

    代码整体结构: 一.Python实现读取文本内容 # -*- coding: utf-8 -*- """ @date: 2022/01/11 18:40 @author: ...

最新文章

  1. html5类选择器选择权重,Python Html5和CSS3的新增功能:CSS权重与CSS3新增选择器
  2. CPU深夜狂飙,一帮大佬都傻眼了...
  3. 【学习笔记】Python - tkinter
  4. JLBH示例4 – QuickFix vs ChronicleFix基准化
  5. GWT MVP变得简单
  6. 学习笔记之数据可视化(二)——页面布局(上)
  7. python读写配置文件使用总结与避坑指南
  8. 地震勘探英文专业文章中的经典句子(1)
  9. 高频交易主要模式解析
  10. mmo游戏开发应在profile下运行,才能保证正式运行不卡
  11. 无损分区工具对电脑硬盘分区,介绍一款硬盘无损分区工具
  12. CText类使用例程
  13. 网易邮箱发送显示服务器出错,网易邮件发送不出去的错误代码详解 (MI:SFQ错误等)...
  14. 金额转换,阿拉伯数字的金额转换成中国传统的形式
  15. CCNet_Criss-Cross Attention for Semantic Segmentation
  16. 使用OCR技术将扫描PDF转换为可编辑的Word文档。
  17. 客流量总是少?是你门店选址出了问题!
  18. html图片不能拖动,关于html5图片拖动的代码的问题?
  19. 详图讲解U盘安装windows8系统
  20. 同一台 win10 服务器跑多个 wiki(包括 DokuWiki、django-wiki)

热门文章

  1. Linux内存,先看这篇文章
  2. 深入理解Linux内核链表
  3. 给大家推荐一个优质Linux内核技术公众号-Linux阅码场
  4. 每日一题(14)—— 交换a,b的值(不使用中间变量)
  5. http 请求默认时间_JMeter接口测试之HTTP请求默认值
  6. python的if和else、for、while语法_python-变量、if else语句 、for循环、while循环(4月26号)...
  7. kvm虚拟化_KVM 虚拟化环境搭建 - WebVirtMgr
  8. pythonfor循环列表排序_Python Day4950(for循环语句整理)
  9. 论文阅读 - Large-scale weakly-supervised pre-training for video action recognition
  10. LeetCode 2096. 从二叉树一个节点到另一个节点每一步的方向(最小公共祖先)