python 英语分词_Python英文文本分词(无空格)模块wordninja的使用实例

在NLP中，数据清洗与分词往往是很多工作开始的第一步，大多数工作中只有中文语料数据需要进行分词，现有的分词工具也已经有了很多了，这里就不再多介绍了。英文语料由于其本身存在空格符所以无需跟中文语料同样处理，如果英文数据中没有了空格，那么应该怎么处理呢？

今天介绍一个工具就是专门针对上述这种情况进行处理的，这个工具叫做：wordninja，地址在这里。

下面简单以实例看一下它的功能:

def wordinjaFunc():

'''

https://github.com/yishuihanhan/wordninja

'''

import wordninja

print wordninja.split('derekanderson')

print wordninja.split('imateapot')

print wordninja.split('wethepeopleoftheunitedstatesinordertoformamoreperfectunionestablishjusticeinsuredomestictranquilityprovideforthecommondefencepromotethegeneralwelfareandsecuretheblessingsoflibertytoourselvesandourposteritydoordainandestablishthisconstitutionfortheunitedstatesofamerica')

print wordninja.split('littlelittlestar')

结果如下：

['derek', 'anderson']

['im', 'a', 'teapot']

['we', 'the', 'people', 'of', 'the', 'united', 'states', 'in', 'order', 'to', 'form', 'a', 'more', 'perfect', 'union', 'establish', 'justice', 'in', 'sure', 'domestic', 'tranquility', 'provide', 'for', 'the', 'common', 'defence', 'promote', 'the', 'general', 'welfare', 'and', 'secure', 'the', 'blessings', 'of', 'liberty', 'to', 'ourselves', 'and', 'our', 'posterity', 'do', 'ordain', 'and', 'establish', 'this', 'constitution', 'for', 'the', 'united', 'states', 'of', 'america']

['little', 'little', 'star']

从简单的结果上来看，效果还是不错的，之后在实际的使用中会继续评估。

总结

以上就是这篇文章的全部内容了，希望本文的内容对大家的学习或者工作具有一定的参考学习价值，谢谢大家对脚本之家的支持。如果你想了解更多相关内容请查看下面相关链接

python 英语分词_Python英文文本分词(无空格)模块wordninja的使用实例相关推荐

Python英文文本分词(无空格)模块wordninja的使用实例
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 python免费学习资 ...
python 英语分词_基于Python NLTK库进行英文文本预处理
文本预处理是要文本处理成计算机能识别的格式,是文本分类.文本可视化.文本分析等研究的重要步骤.具体流程包括文本分词.去除停用词.词干抽取(词形还原).文本向量表征.特征选择等步骤,以消除脏数据对挖掘分 ...
【Python】英文文本分词与词频统计（split()函数、re库）
英文文本分词 1.知识准备 (1)Python中的split()函数的用法了解split()的基本用法 (2)python多个分割符split字符串了解re库的部分用法 Python strip( ...
利用python对一段英文文本进行分词，分句
这两天一直在学习用python进行自然语言处理这本书,当然开始的开始就是要学习python这门脚本语言,遇到了利用自己的语言对一段英文文本进行分词这个问题,找了好多资料都没有找到具体的解答,自己修修改 ...
英文文本分词之工具NLTK
英文文本分词之工具NLTK 安装NLTK 停用词和标点符号包放置验证安装NLTK pip install nltk 分词需要用到两个包:stopwords和punkt,需要下载: import n ...
【编译原理】Python实现对一个英文文本的词频统计
利用Python实现对一个英文文本的词频统计.文本链接:https://www.philippinetimes.com/news/257886068/australia-blocks-chinese- ...
英文文本情感分析textblob模块sentiment方法
[小白从小学Python.C.Java] [计算机等考+500强证书+考研] [Python-数据分析] 英文文本情感分析 textblob模块 sentiment方法 [太阳]选择题关于下列代码说 ...
python词频统计完整步骤_Python中文文本分词、词频统计、词云绘制
本文主要从中文文本分词.词频统计.词云绘制方面介绍Python中文文本分词的使用.会使用到的中文文本处理包包括:wordcloud,jieba,re(正则表达式),collections. 1 准备工 ...
英文文本分词处理（NLTK）
文章目录 1.NLTK的安装 2.NLTK分词和分句 3.NLTK分词后去除标点符号 4.NLTK分词后去除停用词 5.NLTK分词后进行词性标注 6.NLTK分词后进行词干提取 7.NLTK分词后进 ...

python 英语分词_Python英文文本分词(无空格)模块wordninja的使用实例

python 英语分词_Python英文文本分词(无空格)模块wordninja的使用实例相关推荐

最新文章

热门文章