目录

一、需求分析

二、相关库列表

三、代码在此

四、一些问题


一、需求分析

把txt文件里的英语单词按照出现次数排序并生成csv文件,如果次数相同按照单词的md5值来排序

二、相关库列表

  • pandas
  • re
  • collections
  • hashlib

三、代码在此

  1. 打开文件

    txt_file = open(file_path, 'r')
  2. 读取文件内容
    txt_data = txt_file.read()
  3. 字母全小写
    txt_lower = txt_data.lower()
  4. 正则表达式去特殊符号
    # 正则表达式去除特殊符号punc = '~`!#$%^&*()_+-=|\';":/.,?><~·!@#¥%……&*()——+-=“:’;、。,?》《{}\n'# 调用正则表达txt_query = re.sub(r"[%s]+" % punc, "", txt_lower)
  5. 调用统计库对词频统计
    # 使用空格来对字符串进行裁切
    txt_list = txt_query.split(' ')
    # 调用统计库来对词频进行统计
    word = Counter(txt_list)
  6. 把每个单词的信息写入到一个列表
    # 创建一个列表来接收DataFrame原型
    pa_list = []
    # 把键、值和根据键名生成的md5写入原型里
    for key, value in word.items():pa_list.append([key, value, hashlib.md5(key.encode('utf-8')).hexdigest()])
  7. 调用pandas完成排序和文件导出
    # 生成DataFramepd_data = pd.DataFrame(pa_list)# 根据值和md5进行排序dataexclex = pd_data.sort_values([1, 2])# 把文件导出dataexclex.to_csv(f'./{new_file_name}.csv')
  8. 完整代码
    import pandas as pd
    import re
    from collections import Counter
    import hashlibdef Word_frequency_statistics(file_path,new_file_name):# 打开文件txt_file = open(file_path, 'r')# 读取文件内容txt_data = txt_file.read()# 字母小写化txt_lower = txt_data.lower()# 正则表达式去除特殊符号punc = '~`!#$%^&*()_+-=|\';":/.,?><~·!@#¥%……&*()——+-=“:’;、。,?》《{}\n'# 调用正则表达txt_query = re.sub(r"[%s]+" % punc, "", txt_lower)# 使用空格来对字符串进行裁切txt_list = txt_query.split(' ')# 调用统计库来对词频进行统计word = Counter(txt_list)# 创建一个列表来接收DataFrame原型pa_list = []# 把键、值和根据键名生成的md5写入原型里for key, value in word.items():pa_list.append([key, value, hashlib.md5(key.encode('utf-8')).hexdigest()])# 生成DataFramepd_data = pd.DataFrame(pa_list)# 根据值和md5进行排序dataexclex = pd_data.sort_values([1, 2])# 把文件导出dataexclex.to_csv(f'./{new_file_name}.csv')# 要词频统计的文件路径
    file_path = ''
    # 导出时的文件名称
    new_file_name = ''
    # 调用函数统计词频
    Word_frequency_statistics(file_path,new_file_name)
    

    四、一些问题

    我只试过wav文件,mp3文件一个也可以,前提是文件夹里的文件全是要参与的文件,安装库的时候遇到问题简易回退一个大版本0.9.0=>0.8.0实际体验没多大区别。

txt文件英语单词词频统计相关推荐

  1. 个人和结对项目 - 英语单词词频统计

    个人或结对编程项目 英语单词词频统计程序 (最新版本在这里) 实现一个命令行程序,支持几种模式下的单词词频统计 Implement a console application to tally the ...

  2. 【数据结构笔记42】哈希表应用:文件中单词词频统计

    本次笔记内容: 11.5 文件中单词词频统计 文章目录 题目 分析 程序框架 题目 如上图,对单词词频进行统计. 分析 如上图,涉及到对已有单词进行查找,因此要进行单词的管理,使用散列表. 程序框架 ...

  3. python 读取TXT 文档进行词频统计

    去除停用词 #排除词库 excludes = ['the','and','to','of','i','a','in','it','that','is','you','my','with','not', ...

  4. 小说瓦尔登湖单词词频统计

    1.首先先去网上下载瓦尔登湖的txt文件(注意保存的路径,我女友姓裘便创建了个文件夹Qiu便于记忆 嘿嘿!) 2.打开jupyter notebook创建py文件 编写第一个代码:输入文章打开路径(我 ...

  5. Walden单词词频统计

    原版 import collections #创建一个新的容器 f = open('D:/Walden.txt', 'r').read() #打开本地文本文件,r表示以读取方式打开 f=f.repla ...

  6. wordcount单词词频统计

    单词出现的总次数 1.WordCount概述 WordCount算是大数据计算领域经典的入门案例,相当于Hello World. 虽然WordCount业务极其简单,但是希望能够通过案例感受背后Map ...

  7. Walden单词词频统计任务

    import collections f=open(r'C:\\Users\\21033\\Desktop\\Walden.txt','r') a = f.read().split()#分隔开每个单词 ...

  8. C++ | 从键盘输入任意多个英语单词,统计同一个英语单词被输入几次,最后对英文单词按字典顺序输出(C语言/C++/Java)

    ================================================ 博主github:https://github.com/MichaelBeechan 博主CSDN:h ...

  9. 【第二周】Java实现英语文章词频统计

    1.需求:对于给定的英文文章进行单词频率的统计 2.分析: (1)建立一个如下图所示的数据库表word_frequency用来存放单词和其对应数量 (2)Scanner输入要查询的英文文章存入Stri ...

最新文章

  1. qcustomplot 游标吸附_qcustomplot游标测量功能--Apple的学习笔记
  2. 6.python探测Web服务质量方法之pycurl模块
  3. 【开源】高颜值 功能强大的开源Markdown编辑器
  4. java实现https免证书认证
  5. Java Spring MVC框架搭建(一)
  6. java使用ssh下载git代码_使用Java用户名和密码在ssh上克隆git存储库
  7. OC中字符串的提取与替换-四种不同方法实现
  8. Git学习笔记 - 钢钢更新
  9. 自动获取服务器,c#-自动获取服务器IP到客户端
  10. 使用GHOST打包制作gho镜像文件
  11. intel hd3000 本 在 64位 ubuntu10.04 下 液晶亮度无法调节 的解决之道(亲测)
  12. python时间序列进行线性插值_精解Python实现线性插值法——一看就会
  13. Python爬虫反反爬:CSS反爬加密彻底破解!
  14. 照片尺寸对照单Microsoft Word 文档
  15. ArcGIS Pro 专题图制作
  16. 软件测试速记口诀(一)<软件测试基础>
  17. android 放大缩小命令,Android TV开发中常用命令
  18. EasySwoole3 Crontab的使用
  19. 广东省中医院微信公众号医保个账支付功能
  20. Java 学习 - 全文索引 - Lucene

热门文章

  1. 蓝牙核心技术了解(蓝牙协议、架构、硬件和软件笔记)
  2. 面对这个缓慢、脆弱、健忘的互联网,IPFS协议势在必行!
  3. SpringBoot的个人博客管理系统(毕业论文范文)
  4. android 11.0 12.0app安装黑名单(限制app安装)
  5. 西班牙语dele等级_DELE——西班牙语水平考试
  6. IOS 自动订阅以及恢复购买
  7. 电脑W ndoWs在哪里,苹果电脑如何安装wndows系统.doc
  8. solaris系统关闭服务器,Solaris下如何关闭SUN服务器
  9. ECE与计算机相关吗,ECE(电子和计算机工程)相关专业的申请经验分享
  10. 会议,如何从智能走向智慧?——四川有生发布智慧会议平台