尝试:import time

from collections import Counter

from nltk import FreqDist

from nltk.corpus import brown

from nltk import word_tokenize

def time_uniq(maxchar):

# Let's just take the first 10000 characters.

words = brown.raw()[:maxchar]

# Time to tokenize

start = time.time()

words = word_tokenize(words)

print time.time() - start

# Using collections.Counter

start = time.time()

x = Counter(words)

uniq_words = x.keys()

print time.time() - start

# Using nltk.FreqDist

start = time.time()

FreqDist(words)

uniq_words = x.keys()

print time.time() - start

# If you don't need frequency info, use set()

start = time.time()

uniq_words = set(words)

print time.time() - start

[出来]:

^{pr2}$

要加载您自己的语料库文件(假设您的文件足够小,可以放入RAM中):from collections import Counter

from nltk import FreqDist, word_tokenize

with open('myfile.txt', 'r') as fin:

# Using Counter.

x = Counter(word_tokenize(fin.read()))

uniq = x.keys()

# Using FreqDist

x = Counter(word_tokenize(fin.read()))

uniq = x.keys()

# Using Set

uniq = set(word_tokenize(fin.read()))

如果文件太大,您可能希望一次处理一行文件:from collections import Counter

from nltk import FreqDist, word_tokenize

from nltk.corpus import brown

# Using Counter.

x = Counter()

with open('myfile.txt', 'r') as fin:

for line in fin.split('\n'):

x.update(word_tokenize(line))

uniq = x.keys()

# Using Set.

x = set()

with open('myfile.txt', 'r') as fin:

for line in fin.split('\n'):

x.update(word_tokenize(line))

uniq = x.keys()

python 单词库_如何快速获取语料库中的单词集合(使用nltk)?相关推荐

  1. 安卓python安装库_如何快速在安卓上搭建python3环境

    1 下载并安装Pydroid 3到安卓设备上.安装好的软件如图. 2 打开软件,可以看到编辑界面.我们可以在此处进行代码的编写,保存为py文件后点击右下角的淡黄色按钮即可运行程序. 3 打开菜单,可以 ...

  2. Python实例 -- 如何快速获取列表中最大的三个元素

    如何快速获取列表中最大的三个元素 最近在做实验,期间需要在一个列表中获取最大的三个元素,自己写的方法复杂度太高,放上大牛的方法,复杂度很低.多看几遍,才能体会到大概的精髓.这道题也是Python的面试 ...

  3. python gis库_使用开放的python库自动化GIS和遥感工作流

    python gis库 Over my career I've worked on many geospatial related projects using the ArcGIS platform ...

  4. python并行运算库_最佳并行绘图Python库简介:“ HiPlot”

    python并行运算库 HiPlot is Facebook's Python library to support visualization of high-dimensional data ta ...

  5. python hack库_这里有123个黑客必备的Python工具!

    123个Python渗透测试工具,当然不仅于渗透~ 如果你想参与漏洞研究.逆向工程和渗透,我建议你时候用Python语言.Python已经有很多完善可用的库,我将在这里把他们列出来. 这个清单里的工具 ...

  6. 什么是python扩展库_什么是目前比较常用的Python扩展库管理工具

    展开全部 在Python环境中已经有很多成熟的包,可以通过安装这些包来扩展我们的程序. 例如,很32313133353236313431303231363533e4b893e5b19e31333365 ...

  7. 10个常用python标准库_【循序渐进学Python】11.常用标准库

    安装完Python之后,我们也同时获得了强大的Python标准库,通过使用这些标准库可以为我们节省大量的时间.这里是一些常用标准库的简单说明.更多的标准库的说明,可以参考Python文档 sys 模块 ...

  8. python request库_【Python爬虫】Request库入门

    什么是爬虫? 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另外一些不常使用的名字还有蚂蚁.自动索引. ...

  9. python视觉识别库_机器视觉、模式识别库汇总

    原标题:机器视觉.模式识别库汇总 机器视觉是一种综合应用,要用到图像处理.三维几何变换之类的,有的需要模式识别.模式识别是一种算法,就是如何分类和识别.可以用到很多地方,文字.语音.图像的智能识别.下 ...

最新文章

  1. python xpath语法-Python Xpath语法
  2. ABAP中Conversion Routine示例
  3. 鼠标动效html,5种纯CSS3鼠标hover按钮动画效果
  4. cf451E. Devu and Flowers(产生不同多重集数量)
  5. .Net Core Swagger:Actions require an explicit HttpMethod binding for Swagger 2.0
  6. Broadcast Receiver注意事项
  7. Solr6.1 smartCN配置
  8. 我遇到了Hibernate异常
  9. 05NumPy--5.3数组运算
  10. pytorch保留比较高的epoch的权重
  11. 13.软件架构设计:大型网站技术架构与业务架构融合之道 --- 业务意识
  12. matlab函数文件||脚本文件和函数文件的区别
  13. 扁球 matlab,扁球体表面积计算公式
  14. ps渐隐在哪里以及ps渐隐知识点总结
  15. mysql 磁盘满_mysql磁盘满了如何恢复
  16. SQL AlawaysOn 之一:安装域控制器
  17. 360篡改Edge、Google浏览器主页的应对方法
  18. HCNA之华为ensp基本操作总结
  19. yum -y insytall nmap报错:​​​​​​​​已加载插件:fastestmirrorLoading mirror speeds from cached hostfile
  20. jsp 实现查询功能

热门文章

  1. arcgis10破解安装
  2. RGBA、YUV色彩格式及libyuv的使用
  3. 主板装机测试软件,主板检测工具:PSPident v0.74.1版发布
  4. java程序设计之炮打飞机
  5. opencv手势识别(3_SVM算法识别)
  6. php创蓝253四要素认证_创蓝253配置
  7. 802.11--802.11ac协议
  8. Markov链:初始概率、绝对概率
  9. jxl 单元格画斜线
  10. 智慧工地 | 数字孪生楼宇施工管理平台