一 问题描述:

给定一段英文字符串,要求统计其中所有单词出现的频率,将结果封装为字典

二 解题思路:

使用到的方法:

replace("a","b") 将字符串中的a字符替换成b

split() 将字符串以空格符,制表符,回车符为标志分割成单独元素并封装为列表

步骤:

步骤一 . 因为给出的文本为英文,则可以使用空格和标点符号来划分各个单词.首先处理标点符号,可以使用replace()方法先将其中出现的标点符号替换为空格(替换为空格是为了方便后续操作),然后在使用split()方法将单词分割并封装进列表.

步骤二 . 创建一个空字典,遍历列表中的元素。判断该元素是否在字典中存在:若不存在,则将该元素作为键,添加进字典;若存在,则将该键的值加1。如此该字典的键值对就是单词及出现的频率。

三 实现代码及结果

该实例使用《小王子》片段作为测试文本。

#data的值为测试文本
data = '''The shrub soon stopped growing, and began to get ready to produce a flower. The little prince, who was present at the first appearance of a huge bud, felt at once that some sort of miraculous apparition must emerge from it. But the flower was not satisfied to complete the preparations for her beauty in the shelter of her green chamber. She chose her colours with the greatest care. She adjusted her petals one by one. She did not wish to go out into the world all rumpled, like the field poppies. It was only in the full radiance of her beauty that she wished to appear. Oh, yes! She was a coquettish creature! And her mysterious adornment lasted for days and days.'''
#替换掉文本中出现的标点符号
str_data = data.replace("!"," ").replace(","," ").replace("."," ")
#将字符串中的单词封装成列表
list_data = str_data.split()
将单词拆分后得到的列表:

dic_data = {}
#遍历列表,将单词与其出现频率封装成字典
for i in list_data:if(i in dic_data):dic_data[i] += 1else:dic_data[i] = 1
查看封装在字典中的数据,该字典的键为被统计的单词,值为该次出现的频率,即{"被统计的单词":出现次数}

Python简单方法实现英文文本词频统计相关推荐

  1. 【词频统计】--用python的jieba进行英文文本词频统计

    目录 1.基本思路:统计哈利波特小说中词频最高的前20个,去掉一些停用词(如is) 2.停用词(截取部分) 3.代码如下 4.小知识:元组可以用来这样赋值 1.基本思路:统计哈利波特小说中词频最高的前 ...

  2. JAVA小练习之英文文本词频统计(三)

    写在开头:本次的小练习主要会运用一些字典的排序,由于对JAVA不是很熟悉,所以有的地方会不太能够解读,搜索了部分网上的资料. 英文文本词频统计 任务目标:统计英文文本中出现频率最高的5个单词,需要处理 ...

  3. python英文文本词频统计代码_Python小程序:文本词频统计(英文+中文)

    在学习了组合数据类型和文件操作之后就可以做出下面的文本词频统计的小程序了: 1. 下面是英文文本的词频统计,统计了作者的一篇英文论文 #文本词频统计:英文文本 def gettext(): #从文件中 ...

  4. python英文文本词频统计_python实现简单的英文词频统计

    1 __author__ = 'Oscar_Yang' 2 #-*- coding= utf-8 -*- 3 #copyRight by OSCAR 4 """ 5 本脚 ...

  5. python英文文本词频统计_python编程:英文小说词频统计

    一.编程目的: 1.英文小说(The Myths )分词,并进行词频统计 2.绘制词频统计直方图 3.为小说情感分析做准备 二.编程环境: 1.pyhon3+pycharm 2.需安装模块:strin ...

  6. python英文文本词频统计_Python英文文章词频统计(14份剑桥真题词频统计)

    Python剑桥真题词频统计 最好还是要学以致用,自主搜集了19年最近的14份剑桥真题之后,通过Python提供的jieba第三方库,对所有的文章信息进行了词频统计,并选择性地剔除了部分简易词汇,比如 ...

  7. c语言统计英文字母频率,C语言实现英文文本词频统计

    这几天写了一个基于C语言对文本词频进行统计的程序,开发及调试环境:mac集成开发环境Xcode:测试文本,马丁.路德金的<I have a dream>原文演讲稿. 主要运行步骤: 1. ...

  8. Python文本词频统计

    背景信息 本文实现英文文本词频统计,功能与Mapreduce中的wordcount是类似的.本文主要是为之后词向量训练做准备工作. 本地实现词频统计函数,输入一个文本文件,最终以dict的形式返回词频 ...

  9. 【编译原理】Python实现对一个英文文本的词频统计

    利用Python实现对一个英文文本的词频统计.文本链接:https://www.philippinetimes.com/news/257886068/australia-blocks-chinese- ...

  10. Python—— 组合数据类型(模块5: jieba库的使用)(实例:基本统计值计算文本词频统计)

    前言 本篇主要介绍组合数据类型,以基本统计值计算为例,介绍函数使用和各种类型定义.以文本词频统计为例,介绍Jieba库的使用. (从本篇开始,出现的一些库中函数介绍以及部分简单代码都将以图片形式呈现) ...

最新文章

  1. android单个页面切换_MTransition是一个Android上的页面切换动画库
  2. ArcGIS10新功能之制作地图集
  3. 路径名导致的异常:javax.imageio.IIOException: Can‘t read input file!
  4. 使用循环计算斐波那契数列
  5. SharePoint 2010 在多台前端环境 还原 网站集 问题解析
  6. bash awk_Bash指南,Linux终端技巧,DevOps错误,Python,awk,NASA等
  7. cs231n课程作业踩坑汇总
  8. linux 配置root环境变量,root用户Linux 环境变量的配置解决(-bash: jps: command not found)有关问题...
  9. SHELL编程基础之BASH入门
  10. 专精特新是什么,为什么要申报“专精特新”中小企业
  11. 6-2 每个单词的首字母改为大写 (12 分)
  12. linux pgm格式图片,pgm文件扩展名,pgm文件怎么打开?
  13. Vue 点击获得父元素,子元素,兄弟元素(DOM操作)
  14. metasploit关闭杀毒软件
  15. 手把手教你快速入门 APP 的开发
  16. 力扣(300,674)补9.11
  17. 实时监控一个区块链某地址的实现方案
  18. 详细Ubuntu系统下搭建Hadoop完全分布式
  19. 如何让您的网站符合W3C标准
  20. 基础篇:ios开发概述

热门文章

  1. 上拉加载更多即ion-content遇上slideBox的时候
  2. 通过ajax异步请求下载文件的方法
  3. Java导出Word文档的实现
  4. 动作捕捉和面部捕捉解决
  5. linux ubantu最新版本,过去十年最佳的Ubuntu版本
  6. Python之MRO
  7. 【Python 高级】Python全栈体系(七)
  8. 图像转PDF的问题、方法及题外话
  9. H5标签在页面被转译
  10. QT 控件加载图片不显示