count.extend(collections.Counter(list1).most_common(2))表示:使用collections.Counter统计list1列表重单词的频数,然后使用most_common方法取top2频数的单词。然后加入到count中。# -*- coding:utf-8 -*-import collections

words = ['physics','physics', 'chemistry', 'the','the','the','the','a','b','c']

#统计单词列表重单词的频数tt=collections.Counter(words)print(type(tt))#<class 'collections.Counter'>

#打印出单词,和单词出现的次数print (tt)#Counter({'the': 4, 'physics': 2, 'a': 1, 'c': 1, 'b': 1, 'chemistry': 1})

print (tt['the'])#打印出单词‘the’出现的次数#4

#在#打印出单词,和单词出现的次数  中  选取出现次数最多的2个t=collections.Counter(words).most_common(2)print (t)#[('the', 4), ('physics', 2)]

count = [['UNK', -1]]  # 此时,len(count)=1,表示只有一组数据

#在count的基础上,把list1单词表出现次数的最多的2个,添加到count后面count.extend(collections.Counter(words).most_common(2))

print count#[['UNK', -1], ('the', 4), ('physics', 2)]

dictionary=dict()#创建一个字典#将全部单词转为编号(以频数排序的编号),top50000之外的单词,认为UnKown,编号为0,并统计这类词汇的数量

for word,_ in count:    dictionary[word]=len(dictionary)

print dictionary#{'the': 1, 'UNK': 0, 'physics': 2}

data=list()unk_count=0for word in words:#遍历单词列表,    #对于其中每一个单词,先判断是否出现在dictionary中,    if word in dictionary:        #如果出现,则转为其编号        index=dictionary[word]    else:#如果不是,则转为编号0        index=0        unk_count+=1    data.append(index)

print data#编码后:[2, 2, 0, 1, 1, 1, 1, 0, 0, 0]

count[0][1]=unk_count

print count#[['UNK', 4], ('the', 4), ('physics', 2)]

转载于:https://www.cnblogs.com/fpzs/p/10333877.html

word2vec 细节解析1相关推荐

  1. MySQL 的DDL DML DQL DCL细节解析 知道这些就够了

    SQL语言一共分为4大类:数据定义语言DDL,数据操纵语言DML,数据查询语言DQL,数据控制语言DCL 1.数据定义语言DDL(Data Definition Language) 对象: 数据库和表 ...

  2. r4be和服务器主板稳定性,【华硕X79评测】升级进化 华硕R4BE主板细节解析-中关村在线...

    03升级进化 华硕R4BE主板细节解析 ●升级进化华硕R4BE主板细节解析 作为一款定位旗舰级的主板,华硕R4BE不光在硬性规格上拥有绝对高度,在辅助功能及细节设计上也有着独到之处.因为它不光要满足极 ...

  3. r4be和服务器主板稳定性,升级进化 华硕R4BE主板细节解析_华硕 Rampage IV Black Edition_主板评测-中关村在线...

    ●升级进化华硕R4BE主板细节解析 作为一款定位旗舰级的主板,华硕R4BE不光在硬性规格上拥有绝对高度,在辅助功能及细节设计上也有着独到之处.因为它不光要满足极限超频玩家在超频方面的需求,还要在操作便 ...

  4. 坡度土方计算案例_土石方工程造价中的细节解析(案例+计算式)

    每个房建工程都避不开土石方工程,许多人知道怎样算量,也知道怎样组价,但是却有很多小细节的注意点被忽略,现将土石方工程从算量到组价的全过程整理,希望对大家深刻理解土石方规则,掌握手算及软件算技巧.组价注 ...

  5. 58到家立体监控平台:三大方面九个维度,架构流程及细节解析

    主要谈谈58到家如何实现立体化监控.希望这个能为大家在实现本公司的监控平台的时候提供一些帮助.用户对58到家的服务延时和服务可用性是非常敏感的,所以当线上服务出现波动的时候,需要迅速把这些问题发现出来 ...

  6. Word2vec 原理解析

    1 .前言 近年来,以深度学习为代表的人工智能技术发展如火如荼,其应用领域也从最开始的计算机视觉扩展到了包括自然语言处理.推荐.语音识别等在内的众多研究方向,并且在大多数领域取得了令人惊艳的效果,以笔 ...

  7. GAMES202 PCSS软阴影算法细节解析

    在LearnOpenGL框架的基础上实现了一遍GAMES202的PCF+PCSS软阴影,之前学习GAMES202时一些没弄清楚的问题顺便搞清楚了. 注:本文中代码和shader均在笔者自学LearnO ...

  8. vscode 逗号不换行_在VSCode里面配置Vim正确姿势(细节解析)

    一.导论 对于不用vim的人来说,vim简直是个噩梦,复杂的指令.丑陋的界面.令人头痛的配置文件,任何一项都足以劝退一大波人,但是对于已经习惯了使用vim的人来说,vim简直就是马良神笔,似乎vim除 ...

  9. 行号 设置vim_在VSCode里面配置Vim正确姿势(细节解析)

    一.导论 对于不用vim的人来说,vim简直是个噩梦,复杂的指令.丑陋的界面.令人头痛的配置文件,任何一项都足以劝退一大波人,但是对于已经习惯了使用vim的人来说,vim简直就是马良神笔,似乎vim除 ...

最新文章

  1. 阿里问题定位神器 Arthas 的骚操作,定位线上BUG,超给力
  2. linux shell Bad substitution
  3. Vue-router VUE路由系统
  4. Codeforces-gym-101020 problem C. Rectangles
  5. 排序的几种方法 oc
  6. 数据结构与算法--举例分析法- 栈的压入弹出序列
  7. sort -nr作用 linux,【Linux高频命令专题(1)】sort
  8. 输入网址的时候,浏览器是如何判断你是http协议还是https协议的
  9. 雾里看花之 Python Asyncio
  10. 机器学习笔记:训练集、验证集与测试集
  11. UVA1386 Cellular Automaton
  12. 【研究生论文写作】 思政相关题目选择题
  13. [VT虚拟化驱动]安装DPC回调检测CPU对VT的支持
  14. 我的魅族开不了机了,一直卡在开机界面
  15. 什么是尾递归,尾递归的优势以及语言支持情况说明
  16. Pix4飞控硬件平台框架(一)
  17. Opera无法打开网页的解决办法
  18. 洛谷 P8584 探索未知 题解
  19. QT报错:“pure virtual method called; terminate called without an active exception“
  20. 鸿蒙系统为什么能用太极框架,玩机福音:华为 EMUI 升级鸿蒙之后依然可使用太极运行 Xposed...

热门文章

  1. 构建应用状态时,你应该避免不必要的复杂性
  2. 用Java实现HTTP文件队列下载
  3. Linux使用ntpdate和ntpd进行时间同步
  4. nodejs+express 初学(一)
  5. MySQL常用SQL总结
  6. Netflix的Hystrix使用教程
  7. 【万里征程——Windows App开发】数据绑定——简单示例、更改通知、数据转换...
  8. Linux服务器傻瓜安装(图解下)(4)
  9. 如何使用vue使同一个弹窗同时能实现添加和编辑
  10. 董淳光SQLITE3使用总结-转