python怎么读取txt文件并统计其字数-python读取word文本进行词频统计

首先，在cmd中输入命令行pip install python-docx，下载安装模块python-docx：

安装成功的样子

输入命令行pip install pdfminer3k安装模块：

安装pdfminer

首先我们来看看文件目录：

文件目录

然后开始写读取txt文本的代码：

def readTxt():

# 读取txt

ftxt = open('《盗墓笔记少年篇沙海》.txt') # open里的为文件路径

x = ftxt.read() # x即为读取的文件内容

ftxt.close() # 关闭文档流

return x # 返回读取到的文件内容

接下来是读取word文本的代码：

def readWord():

# 读取word

import docx # 引入python-docx模块，是的你没有看错，名字不一样

fword = docx.Document('盗墓笔记.docx') # 括号内的为文件路径

str1 = ''

for para in fword.paragraphs: # 读取word的每一段内容

str1 += para.text #para.text即为该段落的内容

return str1 # 返回读取到的文件内容

然后是读取pdf的代码：

def readPdf():

# 读取pdf

from pdfminer.pdfparser import PDFParser, PDFDocument

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter

from pdfminer.converter import PDFPageAggregator

from pdfminer.layout import LTTextBoxHorizontal, LAParams

from pdfminer.pdfinterp import PDFTextExtractionNotAllowed

text_path = r'盗墓笔记.pdf'

fpdf = open(text_path, 'rb')

parser = PDFParser(fpdf) # 用文件对象创建一个PDF文档分析器

doc = PDFDocument() # 创建一个PDF文档

parser.set_document(doc) # 连接分析器与文档对象

doc.set_parser(parser)

doc.initialize()

strs = ''

if not doc.is_extractable:

# 检测文档是否提供txt转换，不提供就忽略

raise PDFTextExtractionNotAllowed

else:

pdfMgr = PDFResourceManager() # 创建PDF，资源管理器，来共享资源

laparams = LAParams() # 创建一个PDF设备对象

device = PDFPageAggregator(pdfMgr, laparams = laparams)

interpreter = PDFPageInterpreter(pdfMgr, device) # 创建一个PDF解释其对象

for page in doc.get_pages():

interpreter.process_page(page) # doc.get_pages() 获取page列表

layout = device.get_result() # 接受该页面的LTPage对象

# 这里layout是一个LTPage对象里面存放着这个page解析出的各种对象

# 一般包括LTTextBox, LTFigure, LTImage, LTTextBoxHorizontal 等等

# 想要获取文本就获得对象的text属性，

for x in layout:

if (isinstance(x, LTTextBoxHorizontal)):

strs += x.get_text()

return strs # 返回读取到的文件内容

然后使用jieba模块分词（该模块使用命令pip install jieba安装）：

import jieba

wordList = jieba.lcut(readTxt())

词频统计的代码：

def fluAlz(wordList):

# 词频统计

wordSet = list(set(wordList))

fluence = []

for x in range(len(wordSet)):

fluence.append([wordSet[x], wordList.count(wordSet[x])])

fluence = sorted(fluence, key = lambda flu:flu[1], reverse = True)

return fluence

最后将结果写入txt文件内：

fluence = fluAlz(wordList)

# 将结果写入txt

fwrite = open('test.txt', 'w')

fwrite.write(str(fluence))

fwrite.close()

python怎么读取txt文件并统计其字数-python读取word文本进行词频统计相关推荐

python读取txt文件并输出到表格_Python读取txt内容写入xls格式excel中的方法
由于xlwt目前只支持xls格式,至于xlsx格式,后面会继续更新 import xlwt import codecs def Txt_to_Excel(inputTxt,sheetName,star ...
python怎么读取txt文件数据保存数组中-python将txt等文件中的数据读为numpy数组的方法...
实际中,很多数据都是存为txt文件.csv文件等,但是在程序中处理的时候numpy数组或列表是最方便的.本文简单介绍读入txt文件以及将之转化为numpy数组或列表的方法. 1 将txt文件读为lis ...
c++读取txt文件中的数字_SpringBoot 多种读取配置文件中参数的方式
点击上方☝SpringForAll社区轻松关注!及时获取有趣有料的技术文章本文来源:http://www.mydlq.club/article/61/ . 一.简介 . 1.SpringBoot ...
python怎么创建txt文件啊_搞定Python项目依赖：requirements.txt文件的创建和使用
Python的强大在于它拥有数量众多的第三方库协助开发,在编写Python项目时,我们经常会使用很多第三方模块.由于不同设备和系统的差异性,导致我们很难分散地控制项目依赖(头铁的同学请绕道),于是re ...
python怎么读取txt文件数据保存数组中-Python Numpy中数据的常用的保存与读取方法...
在经常性读取大量的数值文件时(比如深度学习训练数据),可以考虑现将数据存储为Numpy格式,然后直接使用Numpy去读取,速度相比为转化前快很多. 下面就常用的保存数据到二进制文件和保存数据到文本文件 ...
matlab怎么逐行读取txt文件内容,转载：matlab 逐行读取 txt 文件
转载自:http://blog.sciencenet.cn/blog-762216-1086021.html % The load function can be used to load txt f ...
python读取txt文件时去除换行符
python读取txt文件时去除换行符 python的readlines()方法用于读取所有行,且返回值是一个列表,换行符包含在字符串中. f = open("temp.txt", ...
python读取txt为dataframe_python批量读取txt文件为DataFrame格式的方法总结
python怎么批量读取txt文件为DataFrame格式这次给大家带来python怎么批量读取txt文件为DataFrame格式,python批量读取txt文件为DataFrame格式的注意事项有 ...
matlab中如何读写txt,Matlab中读取txt文件的几种方法
Matlab中读取txt文件的几种方法 matlab读取文本文件的几种函数: 1.load--适合读取纯数据文本: 2.importdata--只读取数据,自动省略数据格式前后的字符,超大文件不适合: ...
python怎么读取txt文件并统计其字数-python计算文件的行数和读取某一行内容的实现方法...
一.计算文件的行数最简单的办法是把文件读入一个大的列表中,然后统计列表的长度.如果文件的路径是以参数的形式filepath传递的,那么只用一行代码就可以完成我们的需求了: count = len(o ...

python怎么读取txt文件并统计其字数-python读取word文本进行词频统计

python怎么读取txt文件并统计其字数-python读取word文本进行词频统计相关推荐

最新文章

热门文章