python 单词库_如何快速获取语料库中的单词集合(使用nltk)?
尝试:import time
from collections import Counter
from nltk import FreqDist
from nltk.corpus import brown
from nltk import word_tokenize
def time_uniq(maxchar):
# Let's just take the first 10000 characters.
words = brown.raw()[:maxchar]
# Time to tokenize
start = time.time()
words = word_tokenize(words)
print time.time() - start
# Using collections.Counter
start = time.time()
x = Counter(words)
uniq_words = x.keys()
print time.time() - start
# Using nltk.FreqDist
start = time.time()
FreqDist(words)
uniq_words = x.keys()
print time.time() - start
# If you don't need frequency info, use set()
start = time.time()
uniq_words = set(words)
print time.time() - start
[出来]:
^{pr2}$
要加载您自己的语料库文件(假设您的文件足够小,可以放入RAM中):from collections import Counter
from nltk import FreqDist, word_tokenize
with open('myfile.txt', 'r') as fin:
# Using Counter.
x = Counter(word_tokenize(fin.read()))
uniq = x.keys()
# Using FreqDist
x = Counter(word_tokenize(fin.read()))
uniq = x.keys()
# Using Set
uniq = set(word_tokenize(fin.read()))
如果文件太大,您可能希望一次处理一行文件:from collections import Counter
from nltk import FreqDist, word_tokenize
from nltk.corpus import brown
# Using Counter.
x = Counter()
with open('myfile.txt', 'r') as fin:
for line in fin.split('\n'):
x.update(word_tokenize(line))
uniq = x.keys()
# Using Set.
x = set()
with open('myfile.txt', 'r') as fin:
for line in fin.split('\n'):
x.update(word_tokenize(line))
uniq = x.keys()
python 单词库_如何快速获取语料库中的单词集合(使用nltk)?相关推荐
- 安卓python安装库_如何快速在安卓上搭建python3环境
1 下载并安装Pydroid 3到安卓设备上.安装好的软件如图. 2 打开软件,可以看到编辑界面.我们可以在此处进行代码的编写,保存为py文件后点击右下角的淡黄色按钮即可运行程序. 3 打开菜单,可以 ...
- Python实例 -- 如何快速获取列表中最大的三个元素
如何快速获取列表中最大的三个元素 最近在做实验,期间需要在一个列表中获取最大的三个元素,自己写的方法复杂度太高,放上大牛的方法,复杂度很低.多看几遍,才能体会到大概的精髓.这道题也是Python的面试 ...
- python gis库_使用开放的python库自动化GIS和遥感工作流
python gis库 Over my career I've worked on many geospatial related projects using the ArcGIS platform ...
- python并行运算库_最佳并行绘图Python库简介:“ HiPlot”
python并行运算库 HiPlot is Facebook's Python library to support visualization of high-dimensional data ta ...
- python hack库_这里有123个黑客必备的Python工具!
123个Python渗透测试工具,当然不仅于渗透~ 如果你想参与漏洞研究.逆向工程和渗透,我建议你时候用Python语言.Python已经有很多完善可用的库,我将在这里把他们列出来. 这个清单里的工具 ...
- 什么是python扩展库_什么是目前比较常用的Python扩展库管理工具
展开全部 在Python环境中已经有很多成熟的包,可以通过安装这些包来扩展我们的程序. 例如,很32313133353236313431303231363533e4b893e5b19e31333365 ...
- 10个常用python标准库_【循序渐进学Python】11.常用标准库
安装完Python之后,我们也同时获得了强大的Python标准库,通过使用这些标准库可以为我们节省大量的时间.这里是一些常用标准库的简单说明.更多的标准库的说明,可以参考Python文档 sys 模块 ...
- python request库_【Python爬虫】Request库入门
什么是爬虫? 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另外一些不常使用的名字还有蚂蚁.自动索引. ...
- python视觉识别库_机器视觉、模式识别库汇总
原标题:机器视觉.模式识别库汇总 机器视觉是一种综合应用,要用到图像处理.三维几何变换之类的,有的需要模式识别.模式识别是一种算法,就是如何分类和识别.可以用到很多地方,文字.语音.图像的智能识别.下 ...
最新文章
- python xpath语法-Python Xpath语法
- ABAP中Conversion Routine示例
- 鼠标动效html,5种纯CSS3鼠标hover按钮动画效果
- cf451E. Devu and Flowers(产生不同多重集数量)
- .Net Core Swagger:Actions require an explicit HttpMethod binding for Swagger 2.0
- Broadcast Receiver注意事项
- Solr6.1 smartCN配置
- 我遇到了Hibernate异常
- 05NumPy--5.3数组运算
- pytorch保留比较高的epoch的权重
- 13.软件架构设计:大型网站技术架构与业务架构融合之道 --- 业务意识
- matlab函数文件||脚本文件和函数文件的区别
- 扁球 matlab,扁球体表面积计算公式
- ps渐隐在哪里以及ps渐隐知识点总结
- mysql 磁盘满_mysql磁盘满了如何恢复
- SQL AlawaysOn 之一:安装域控制器
- 360篡改Edge、Google浏览器主页的应对方法
- HCNA之华为ensp基本操作总结
- yum -y insytall nmap报错:​​​​​​​​已加载插件:fastestmirrorLoading mirror speeds from cached hostfile
- jsp 实现查询功能