26个英文字母在平均出现时的信息熵是4.7BIT,而去掉冗余度后的英文字母的信息熵是4.03BIT。

公式: H(信息熵) = -∑ Pi log2(Pi); Pi:为每个字母在信息中出现的概率; 计算公式并不复杂. 取以2为底的对数的道理也很简单,因为如果: 2n = X 的话,那么logX = n; 所以可以看出所谓信息熵就二进制的字符集在去掉冗余度后的二进制编码位数.冗余度是通过统计每个字符出现概率获得的。

各个字母英语中出现的频率

字母
英语中出现的频率
a
8.167%
b
1.492%
c
2.782%
d
4.253%
e
12.702%
f
2.228%
g
2.015%
h
6.094%
i
6.966%
j
0.153%
k
0.772%
l
4.025%
m
2.406%
n
6.749%
o
7.507%
p
1.929%
q
0.095%
r
5.987%
s
6.327%
t
9.056%
u
2.758%
v
0.978%
w
2.360%
x
0.150%
y
1.974%
z
0.074%

python代码实现:

import mathdef calEntropy(string):h = 0.0sumt = 0letter = [0] * 26string = string.lower()for i in range(len(string)):if string[i].isalpha():letter[ord(string[i]) - ord('a')] += 1sumt += 1print('\n', letter)for i in range(26):p = 1.0 * letter[i] / sumtif p > 0:h += -(p * math.log(p, 2))return htest = input("输入一个英文句子:")
print('\n熵为:', calEntropy(test))'''
letter = [8167,1492,2782,4253,12702,2228,2015,6094,6966,153,772,4025,2406,6749,7507,1929,95,5987,6327,9056,2758,978,2360,150,1974,74]
h = 0
for i in range(26):h += -(letter[i]/sum(letter)*math.log(letter[i]/sum(letter),2))
print(h)
'''

结果请访问: 点击打开链接

英文字母信息熵与冗余度计算Python实现相关推荐

  1. 文本相似度计算python lda_如何识别“答非所问”?使用gensim进行文本相似度计算...

    在文本处理中,比如商品评论挖掘,有时需要了解每个评论分别和商品的描述之间的相似度,以此衡量评论的客观性. 评论和商品描述的相似度越高,说明评论的用语比较官方,不带太多感情色彩,比较注重描述商品的属性和 ...

  2. python英文字母转特定数字_用python实现英文字母和相应序数转换的方法

    第一步:字母转数字 英文字母转对应数字相对简单,可以在命令行输入一行需要转换的英文字母,然后对每一个字母在整个字母表中匹配,并返回相应的位数,然后累加这些位数即可.过程中,为了使结果更有可读性,输出相 ...

  3. 文本相似度计算 python去停用词_python专业方向 | 文本相似度计算

    欢迎关注我们的微信公众号"人工智能LeadAI"(ID:atleadai)步骤 1.分词.去停用词 2.词袋模型向量化文本 3.TF-IDF模型向量化文本 4.LSI模型向量化文本 ...

  4. 模块度计算python代码_LPA算法C++实现及模块度计算

    前言 这学期开始看社团检测的东西,了解了一些经典算法.比如GN算法,BGLL算法(又叫Louvain, 因为该算法是作者在Louvain大学时提出的),LPA算法,等等. 我先看的LPA(毕竟算法思想 ...

  5. 模块度计算python代码_转:模块度(Modularity)与Fast Newman算法讲解与代码实现

    一.背景介绍 Modularity(模块度), 这个概念是2003年一个叫Newman的人提出的.这个人先后发表了很多关于社区划分的论文,包括2002年发表的著名的Girvan-Newman(G-N) ...

  6. 信源剩余度的计算java_冗余度计算公式

    传播信道中新闻语言的冗余度分析_职业规划_求职/职场_实用文档.传播信道中新闻语言的冗余度分析 "冗余"是外来词"redundancy"的翻译,也有人译为&qu ...

  7. python 图像识别_python图像识别之图片相似度计算

    作者 | a1131825850疯子 来源 | Python爬虫scrapy 原文 | python图像识别---------图片相似度计算 1.背景 要识别两张图片是否相似,首先我们可能会区分这两张 ...

  8. 文本相似度计算——Simhash算法(python实现)

    互联网网页存在着大量重复内容,必须有一套高效的去重算法,否则爬虫将做非常多的无用功,工作时效性无法得到保证,更重要的是用户体验也不好.业界关于文本指纹去重的算法众多,如 k-shingle 算法.go ...

  9. 各种相似度计算的python实现

    来源:本文转载地址 (注:相对转载代码 做了一些改动) 前言 在数据挖掘中有很多地方要计算相似度,比如聚类分析和协同过滤.计算相似度的有许多方法,其中有欧几里德距离.曼哈顿距离.Jaccard系数和皮 ...

  10. python统计元音字母个数_计算Python中的元音(Counting vowels in python)

    计算Python中的元音(Counting vowels in python) def main(): print(count) def countVowels(string): vowel=(&qu ...

最新文章

  1. Android Studio项目引入外部库注意事项(PullToRefresh)
  2. 计算机网络多线程通信,多线程技术的PLC与PC的通讯方式
  3. 教师计算机应用测试题,教师计算机等级考试模拟考试题演示教学
  4. 一本书让你懂得人生的价值
  5. 图说苹果工作站-MAC PRO
  6. asp点击按钮sql列求和_助你2020晋级互联网大数据阵营(一):轻轻松松学SQL
  7. 太强了,终于彻底搞懂 Nginx 的五大应用场景~
  8. 锚点盒子随滚动条浮动
  9. SparrowRecSys电影推荐系统项目(一)
  10. 红外测距模块 51单片机_基于51单片机的红外发射和接收程序。
  11. 前端技术文档及工具汇总
  12. matlab二重定积分_怎么用matlab计算这个二重积分如何用matlab求二重积分
  13. 月薪过万的php面试题目
  14. 你和财务自由之间,只差一个公式
  15. Python collections.Counter()用法
  16. 火狐浏览器截图整个网页截图 截取整个网页
  17. sql 服务器停止运行,3.1.1 启动、停止、暂停和重新启动SQL Server服务
  18. eversync safari_EverSync app下载-浏览器书签收藏夹同步备份EverSync下载v1.11.1 安卓版-西西软件下载...
  19. OpenFaaS实战之二:函数入门
  20. 软件开发本质论——自然之路 1

热门文章

  1. 每天一道剑指offer-把数组排成最小的数
  2. android 控件覆盖关系,Android设置viewGroup和其子控件两者之间的焦点关系【原创】...
  3. sqlitepython导入数据_Python导入excel数据到sqlite;
  4. nginx location 斜杠_斜杠青年 菲斯塔车主实录
  5. iphone圆点怎么弄出来_iPhone 秒变“坦克大战”游戏机,666!
  6. 遨博机器人展示_高交会:智能机器人走入大众生活
  7. 11. Django基础:应用及分布式路由
  8. ElementUI:定制日历Calendar
  9. CSS:position属性和z_index
  10. 小白Linux入门之:CentOS基础命令