你试过textract吗?i、 电子邮箱:import textract, re

text = textract.process("sample.pdf") # http://www.africau.edu/images/default/sample.pdf

words = re.findall(r"[^\W_]+", text, re.MULTILINE) # regex demo and explanation - https://regex101.com/r/U7WMSA/1

print(len(words))

print(words)

# 177

# ['A', 'Simple', 'PDF', 'File', 'This', 'is', 'a', 'small', 'demonstration', 'pdf', 'file', 'just', 'for', 'use', 'in', 'the', 'Virtual', 'Mechanics', 'tutorials', 'More', 'text', 'And', 'more', 'text', 'And', 'more', 'text', 'And', 'more', 'text', 'And', 'more', 'text', 'And', 'more', 'text', 'text', 'And', 'more', 'more', 'text', 'And', 'And', 'more', 'text', 'And', 'more', 'text', 'And', 'more', 'text', 'And', 'more', 'text', 'And', 'more', 'text', 'Boring', 'zzzzz', 'And', 'more', 'text', 'And', 'more', 'text', 'And', 'more', 'text', 'And', 'more', 'text', 'And', 'more', 'text', 'And', 'more', 'text', 'And', 'more', 'text', 'And', 'more', 'text', 'And', 'more', 'text', 'And', 'more', 'text', 'And', 'more', 'text', 'And', 'more', 'text', 'And', 'more', 'text', 'And', 'more', 'text', 'Even', 'more', 'Continued', 'on', 'page', '2', 'Simple', 'PDF', 'File', '2', 'continued', 'from', 'page', '1', 'Yet', 'more', 'text', 'And', 'more', 'text', 'And', 'more', 'text', 'And', 'more', 'text', 'And', 'more', 'text', 'And', 'more', 'text', 'And', 'more', 'text', 'And', 'more', 'text', 'Oh', 'how', 'boring', 'typing', 'this', 'stuff', 'But', 'not', 'as', 'boring', 'as', 'watching', 'paint', 'dry', 'And', 'more', 'text', 'And', 'more', 'text', 'And', 'more', 'text', 'And', 'more', 'text', 'Boring', 'More', 'a', 'little', 'more', 'text', 'The', 'end', 'and', 'just', 'as', 'well']

python统计中文字数_使用Python计算.pdf文档中的总字数相关推荐

  1. python统计中文字符_使用 Python 统计中文字符的数量

    使用 Python 统计中文字符的数量 方法一,排除法 假设只有中英文字符: import string def str_count(str): '''找出字符串中的中英文.空格.数字.标点符号个数' ...

  2. android 抓取webview中的所有图片_如何一键提取PDF文档中的所有图片?

    原标题:如何一键提取PDF文档中的所有图片? 目前PDF文档被大家广泛应用,主要是因为PDF文档在传输和转换的过程中比较稳定,所以PDF格式几乎是办公文件格式的首选.大家都知道PDF文档转换格式以及编 ...

  3. 用Python提取解析pdf文档中内容

    用Python提取解析pdf文档中内容 文章目录: 参考: 1.https://blog.csdn.net/tmaczt/article/details/82876018 # Tika库 2.http ...

  4. 一键导出PDF文档中的高亮文字以及笔记(Python实现)

    需求 最近在阅读一些PDF格式的资料,经常会进行划线并做笔记,我希望这些内容在阅读结束之后能够方便地整理出来并回顾,于是探索了一下到处划线文字和笔记的方法. 首先,我去确认PDF阅读器是否提供了需要的 ...

  5. python之pdfminer:从PDF文档中抽取信息的工具

    pdfminer是一个用于从PDF文档中抽取信息的Python库.它提供了一系列的功能,使我们能够读取和解析PDF文件,并从中提取文本内容.元数据.页面布局和图片等.本文将详细介绍pdfminer库的 ...

  6. python搜索pdf内容所在页码_利用Python在pdf文档中寻找某些词出现的页码

    要研究pdf文件的页码,首先要考虑这个文件的种类.pdf可能是一本书的电子版,可能是一份简历.可能是由Word.PPT或其他文档导出的--如果不是一本书,通常页面内容里是没有页码的:如果是一本书,虽然 ...

  7. python根据模板生成pdf文件_程序生成word与PDF文档的方法(python)

    程序导出word文档的方法 将web/html内容导出为world文档,再java中有很多解决方案,比如使用Jacob.Apache POI.Java2Word.iText等各种方式,以及使用free ...

  8. python word排版_利用Python-docx 读写 Word 文档中的正文、表格、段落、字体等

    前言: 前两篇博客介绍了 Python 的 docx 模块对 Word 文档的写操作,这篇博客将介绍如何用 docx 模块读取已有 Word 文档中的信息. 本篇博客主要内容有: 1.获取文档的章节信 ...

  9. python word中表格字体设置_利用Python-docx 读写 Word 文档中的正文、表格、段落、字体样式等...

    前言: 前两篇博客介绍了 Python 的 docx 模块对 Word 文档的写操作,这篇博客将介绍如何用 docx 模块读取已有 Word 文档中的信息. 本篇博客主要内容有: 1.获取文档的章节信 ...

  10. python读取word中的文字格式_利用Python-docx 读写 Word 文档中的正文、表格、段落、字体等...

    前言: 前两篇博客介绍了 Python 的 docx 模块对 Word 文档的写操作,这篇博客将介绍如何用 docx 模块读取已有 Word 文档中的信息. 本篇博客主要内容有: 1.获取文档的章节信 ...

最新文章

  1. 打开密码保护的office文件提示文件损坏的解决办法
  2. Linux系统编程之查看文件大小的方法(lseek_fseek_stat)
  3. 【Laravel】只保留Auth::routes()的登录,关闭Auth::routes()的注册、重置密码、验证路由
  4. [转]linux 有效用户和实际用户的区别
  5. BUAA-OO-第三单元总结
  6. OpenGL使用计算着色器进行GPU光线跟踪
  7. product text的language dropdown list里 没有对应语言的问题
  8. C和C++混合编程(__cplusplus使用)
  9. 1090 Highest Price in Supply Chain(甲级)
  10. WordPress主题制作常用代码集合
  11. 当初怼刘海屏最狠的三星,为什么又用了回来?
  12. Swift实战-豆瓣电台(八)播放进度与时间
  13. BZOJ1066: [SCOI2007]蜥蜴
  14. 将Linkedin连结到outlook中
  15. 最简单DIY基于ESP8266的智能彩灯⑤(用C#调色板UI通过串口控制WS2812彩灯)
  16. GlobalMapper20脚本应用(数据批量自动化处理)
  17. 广域网 —— 广域网的基本概念
  18. 使用CSDN-markdown编辑器入门
  19. 深度学习之车牌识别(中国、越南)
  20. 奇点云数据中台技术汇(三)| DataSimba系列之计算引擎篇

热门文章

  1. 解决This application failed to start because no Qt platform plugin could be initialized的问题
  2. “属你最牛” | 树莓派百变打印机
  3. flutter 使用阿里图标
  4. 百度地图拾取坐标系统
  5. uboot_v2016 版本中fw_printenv的编译问题
  6. vr全景图制作软件都有哪些?
  7. windows下桌面便签小工具简单使用技巧
  8. i.MX6ULL终结者MPU6050 六轴传感器例程MPU6050简介
  9. 虚拟机安装程序没有找到安装在此计算机上的硬盘驱动器,安装VMware提示无效驱动器:E:\ 解决方法...
  10. Linux安装DVWA