从奶爸那里得经济学人的到6个词频统计txt文件,因为要导入单词软件,所以用python整理了一下。

三个高频词的txt,简单的做了去重合并之后。处理低频词,粗略一看,发现由于词频过低,单词表排列像是字典一样,经常是同样字母开头的词连续十来个。

于是想把相同词频的打乱一下顺序,这里记录一下打乱过程。

一开始的想法是:既然是按照a-z排列的,从199词频降到20词频。应该是180组a-z的单词。所以如果后一个单词比前一个单词首字母的ascii值小,说明到下一词频了。按照这个原理写成下面代码试一下:

temp_arr,num = [],0
for i in range(len(words)):temp_arr.append(words[i])if i==len(words)-1 or ord(words[i][0])>ord(words[i+1][0]): num+=1print(num,len(temp_arr))temp_arr=[]
1844 34
1845 12
1846 15
1847 1
1848 14
[Finished in 0.8s]

得到1800多组是什么鬼啊?打印一下最后几组看看:

……'unlit', 'uptown', 'unobtainable', 'walkover']
1847 1
['virago']
1848 14
['utilitarianism', 'voguish'……

看来词频表并不绝对按照a-z的顺序,偶有前后位置移动。改成ord(words[i][0])>ord(words[i+1][0])+10:忽略10个以内的字母表错位,再试试:

277 4
278 194
279 215
280 2
281 3
282 217
283 221
284 221
285 2
286 220
287 4
288 250
289 258
290 276
[Finished in 0.5s]

还有一些两三个单词一组,再打印出来看看

270 3
['abattoir', 'agora', 'yorktown']
271 217
272 221
273 221
274 2
['addax', 'wunderkind']
275 220
276 4
['additionally', 'academe', 'accoutrements', 'yolk']
277 250
278 258
279 276
[Finished in 0.6s]

哦,原来是字母表边界问题。如果忽略边界问题,我们统计能得到多少组?

174 217
175 221
176 221
177 220
178 250
179 258
180 276
[Finished in 0.6s]

Perfect! 就是180。说明思路还是对的。剩下的就是边界问题处理一下就行了,继续往下写。

temp_arr,all_arr = [],[]
for i in range(len(words)):temp_arr.append(words[i])if i==len(words)-1 or ord(words[i][0])>ord(words[i+1][0])+10:if len(temp_arr)>5:all_arr.append(temp_arr)temp_arr=[]else:# 处理边界问题,单词重新分配到前面和后面一组里。arr = []for w in temp_arr:if ord(w[0])>ord('m'):all_arr[-1].append(w)else:arr.append(w)temp_arr = arr
# 输出结果
total,words = 0,[]
for arr in all_arr:total+=len(arr)random.shuffle(arr) # 乱序处理words+=arr
print(total)
print(len(words))
11890
11890
[Finished in 0.7s]

重整词频表完毕。

附上整理好的词频表(200+的高频表只做了去重处理,200-低频词按词频乱序处理 ),需要的可以下载。
链接: https://pan.baidu.com/s/1GQwE9_OG_mQ-E7Z1_Y1W_w 密码: fp7x

整理经济学人词频表(词频分割过程)相关推荐

  1. 2018和2019年经济学人The Economist词频统计

    2018和2019年经济学人The Economist词频统计 最近看到网上关于2018和2019年的经济学人词频统计数据比较少,所以自己对2018全年以及2019全年的经济学人文本进行了一次统计,其 ...

  2. 基于DataFrame结构的词频表生成词云图

    说明:基于DataFrame结构的词频表生成词云图 代码 from wordcloud import WordCloud import matplotlib.pyplot as pltfrequenc ...

  3. 史上绝地反击,美式英语英文学习大全。美国英语最新词频表

    美国英语最新词频表 2010-04-10 13:04 (4月13日补充:这两天用网上的一些文章和GMAT的一份资料验证了一下这个WORDLIST的覆盖率,证明它的20000单词的覆盖率真的很高,几乎全 ...

  4. 美国通胀“爆表”,能否胀死美国经济? | 经济学人全球早报精选

    文 / 王不留(微信公众号:考研英语笔记) America's fight against inflation The Federal Reserve will probably announce o ...

  5. 经济学人使用Golang构建微服务历程回顾

    关键点 经济学人内容分发系统需要更大的灵活性,将内容传递给日益多样化的数字渠道.为了实现这一灵活性目标并保持高水平的性能和可靠性,平台从一个单体结构过渡到微服务体系结构. 用Go编写的服务是新系统的一 ...

  6. 经济学人阅读China ,Barriers to Sinology

    经济学人阅读11月29日 China ,Barriers to Sinology As China's power waxes, the West's study of it is waning. T ...

  7. 《经济学人》最新封面评下一个前沿技术:脑机接口正等待远见者的到来

    编译 | 陈韵竹.张震.Edison Ke.王艺 来源 | 经济学人 脑机接口 这听起来像是科幻小说中才会出现的概念. 在日内瓦 Wyss 生物和神经工程中心里,实验所用的设备上闪烁着微光.一名实验技 ...

  8. 经济学人:人工智能正颠覆传统战争,一场新军备竞赛或将开启

    大数据文摘出品 来源:Economist 编译:赵伟.楚阳.武帅 今年阅兵的两个大杀器--DF-17和DF-41被广泛关注,然而文摘菌却从三个无人作战方队中,看到了一丝不寻常. 无人作战与人工智能的发 ...

  9. 印度的高考工厂 | 经济学人早报精选

    文 / 王不留(微信公众号:考研英语笔记) 2021年9月27号的早晨,来杯"经济学人浓香咖啡",提神解困. Selection guaranteed? Kota factory ...

最新文章

  1. mysql gfs2_Mysql_HA+IP_SAN+Clvmd+GFS2
  2. python表白源代码-python七夕浪漫表白源码
  3. Linq 左连接 内连接
  4. 数组中查找並返回数组_剑指 Offer 04. 二维数组中的查找
  5. html5中如何实现跑马灯效果,h5_实现跑马灯效果
  6. RabbitMQ死信队列应用场景之模拟未支付订单自动取消
  7. 金九银十BAT互联网企业涨薪必备知识点:Jvm性能调优实战
  8. c/s架构的ERP系统对接开票接口
  9. 代码安全之代码混淆及加固(Android)
  10. 原型设计工具Pencil的使用
  11. [笔记分享] [Camera] msm8926 camera hal 流程小结
  12. 20190927CF训练
  13. 今日头条留个人微信号或微信公众号的方法
  14. 服务器 远程桌面限制IP 与 (虚拟专用网络) 结合的安全策略
  15. 什么是多芯光纤?软光纤、集束光纤、紧套光纤是光纤吗?
  16. 《你当像鸟飞往你的山》
  17. 美术集网校—素描头像画不好?找出关键点才重要
  18. 谷歌翻译 无法翻译此网页解决方案
  19. 真香!送一台27寸4K高清显示器
  20. 音视频开发之旅(56) -H264/AVC基本结构

热门文章

  1. searchUI-微信小程序 搜索插件
  2. crt图形显示装置_详盘图形显示器(CRT)
  3. layui radio性别单选框赋值
  4. HackTheBox-Beatles
  5. 2023美赛建模E题:光污染 - 思路分析
  6. Yet Another Problem On a Subsequence CodeForces - 1000D (组合计数)
  7. HTML5期末大作业:美食网页制作——餐饮料里(12页) HTML+CSS+JavaScript 大学生简单个人静态HTML网页设计作品 DIV布局个人介绍网页模板代码 DW学生个人网站制作成品下载
  8. 计算机的软件教学设计七年级,教学设计:计算机软件
  9. OC 创建和写入plist文件
  10. 使用c语言求和与求平均数