python 单词库_如何快速获取语料库中的单词集合（使用nltk）？

尝试：import time

from collections import Counter

from nltk import FreqDist

from nltk.corpus import brown

from nltk import word_tokenize

def time_uniq(maxchar):

# Let's just take the first 10000 characters.

words = brown.raw()[:maxchar]

# Time to tokenize

start = time.time()

words = word_tokenize(words)

print time.time() - start

# Using collections.Counter

start = time.time()

x = Counter(words)

uniq_words = x.keys()

print time.time() - start

# Using nltk.FreqDist

start = time.time()

FreqDist(words)

uniq_words = x.keys()

print time.time() - start

# If you don't need frequency info, use set()

start = time.time()

uniq_words = set(words)

print time.time() - start

[出来]：

^{pr2}$

要加载您自己的语料库文件(假设您的文件足够小，可以放入RAM中)：from collections import Counter

from nltk import FreqDist, word_tokenize

with open('myfile.txt', 'r') as fin:

# Using Counter.

x = Counter(word_tokenize(fin.read()))

uniq = x.keys()

# Using FreqDist

x = Counter(word_tokenize(fin.read()))

uniq = x.keys()

# Using Set

uniq = set(word_tokenize(fin.read()))

如果文件太大，您可能希望一次处理一行文件：from collections import Counter

from nltk import FreqDist, word_tokenize

from nltk.corpus import brown

# Using Counter.

x = Counter()

with open('myfile.txt', 'r') as fin:

for line in fin.split('\n'):

x.update(word_tokenize(line))

uniq = x.keys()

# Using Set.

x = set()

with open('myfile.txt', 'r') as fin:

for line in fin.split('\n'):

x.update(word_tokenize(line))

uniq = x.keys()

python 单词库_如何快速获取语料库中的单词集合（使用nltk）？相关推荐

安卓python安装库_如何快速在安卓上搭建python3环境
1 下载并安装Pydroid 3到安卓设备上.安装好的软件如图. 2 打开软件,可以看到编辑界面.我们可以在此处进行代码的编写,保存为py文件后点击右下角的淡黄色按钮即可运行程序. 3 打开菜单,可以 ...
Python实例 -- 如何快速获取列表中最大的三个元素
如何快速获取列表中最大的三个元素最近在做实验,期间需要在一个列表中获取最大的三个元素,自己写的方法复杂度太高,放上大牛的方法,复杂度很低.多看几遍,才能体会到大概的精髓.这道题也是Python的面试 ...
python gis库_使用开放的python库自动化GIS和遥感工作流
python gis库 Over my career I've worked on many geospatial related projects using the ArcGIS platform ...
python并行运算库_最佳并行绘图Python库简介：“ HiPlot”
python并行运算库 HiPlot is Facebook's Python library to support visualization of high-dimensional data ta ...
python hack库_这里有123个黑客必备的Python工具！
123个Python渗透测试工具,当然不仅于渗透~ 如果你想参与漏洞研究.逆向工程和渗透,我建议你时候用Python语言.Python已经有很多完善可用的库,我将在这里把他们列出来. 这个清单里的工具 ...
什么是python扩展库_什么是目前比较常用的Python扩展库管理工具
展开全部在Python环境中已经有很多成熟的包,可以通过安装这些包来扩展我们的程序. 例如,很32313133353236313431303231363533e4b893e5b19e31333365 ...
10个常用python标准库_【循序渐进学Python】11.常用标准库
安装完Python之后,我们也同时获得了强大的Python标准库,通过使用这些标准库可以为我们节省大量的时间.这里是一些常用标准库的简单说明.更多的标准库的说明,可以参考Python文档 sys 模块 ...
python request库_【Python爬虫】Request库入门
什么是爬虫? 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另外一些不常使用的名字还有蚂蚁.自动索引. ...
python视觉识别库_机器视觉、模式识别库汇总
原标题:机器视觉.模式识别库汇总机器视觉是一种综合应用,要用到图像处理.三维几何变换之类的,有的需要模式识别.模式识别是一种算法,就是如何分类和识别.可以用到很多地方,文字.语音.图像的智能识别.下 ...

python 单词库_如何快速获取语料库中的单词集合（使用nltk）？

python 单词库_如何快速获取语料库中的单词集合（使用nltk）？相关推荐

最新文章

热门文章