python 英语分词_Python英文文本分词(无空格)模块wordninja的使用实例
在NLP中,数据清洗与分词往往是很多工作开始的第一步,大多数工作中只有中文语料数据需要进行分词,现有的分词工具也已经有了很多了,这里就不再多介绍了。英文语料由于其本身存在空格符所以无需跟中文语料同样处理,如果英文数据中没有了空格,那么应该怎么处理呢?
今天介绍一个工具就是专门针对上述这种情况进行处理的,这个工具叫做:wordninja,地址在这里。
下面简单以实例看一下它的功能:
def wordinjaFunc():
'''
https://github.com/yishuihanhan/wordninja
'''
import wordninja
print wordninja.split('derekanderson')
print wordninja.split('imateapot')
print wordninja.split('wethepeopleoftheunitedstatesinordertoformamoreperfectunionestablishjusticeinsuredomestictranquilityprovideforthecommondefencepromotethegeneralwelfareandsecuretheblessingsoflibertytoourselvesandourposteritydoordainandestablishthisconstitutionfortheunitedstatesofamerica')
print wordninja.split('littlelittlestar')
结果如下:
['derek', 'anderson']
['im', 'a', 'teapot']
['we', 'the', 'people', 'of', 'the', 'united', 'states', 'in', 'order', 'to', 'form', 'a', 'more', 'perfect', 'union', 'establish', 'justice', 'in', 'sure', 'domestic', 'tranquility', 'provide', 'for', 'the', 'common', 'defence', 'promote', 'the', 'general', 'welfare', 'and', 'secure', 'the', 'blessings', 'of', 'liberty', 'to', 'ourselves', 'and', 'our', 'posterity', 'do', 'ordain', 'and', 'establish', 'this', 'constitution', 'for', 'the', 'united', 'states', 'of', 'america']
['little', 'little', 'star']
从简单的结果上来看,效果还是不错的,之后在实际的使用中会继续评估。
总结
以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对脚本之家的支持。如果你想了解更多相关内容请查看下面相关链接
python 英语分词_Python英文文本分词(无空格)模块wordninja的使用实例相关推荐
- Python英文文本分词(无空格)模块wordninja的使用实例
前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 python免费学习资 ...
- python 英语分词_基于Python NLTK库进行英文文本预处理
文本预处理是要文本处理成计算机能识别的格式,是文本分类.文本可视化.文本分析等研究的重要步骤.具体流程包括文本分词.去除停用词.词干抽取(词形还原).文本向量表征.特征选择等步骤,以消除脏数据对挖掘分 ...
- 【Python】英文文本分词与词频统计(split()函数、re库)
英文文本分词 1.知识准备 (1)Python中的split()函数的用法 了解split()的基本用法 (2)python多个分割符split字符串 了解re库的部分用法 Python strip( ...
- 利用python对一段英文文本进行分词,分句
这两天一直在学习用python进行自然语言处理这本书,当然开始的开始就是要学习python这门脚本语言,遇到了利用自己的语言对一段英文文本进行分词这个问题,找了好多资料都没有找到具体的解答,自己修修改 ...
- 英文文本分词之工具NLTK
英文文本分词之工具NLTK 安装NLTK 停用词和标点符号包放置 验证 安装NLTK pip install nltk 分词需要用到两个包:stopwords和punkt,需要下载: import n ...
- 【编译原理】Python实现对一个英文文本的词频统计
利用Python实现对一个英文文本的词频统计.文本链接:https://www.philippinetimes.com/news/257886068/australia-blocks-chinese- ...
- 英文文本情感分析textblob模块sentiment方法
[小白从小学Python.C.Java] [计算机等考+500强证书+考研] [Python-数据分析] 英文文本情感分析 textblob模块 sentiment方法 [太阳]选择题 关于下列代码说 ...
- python词频统计完整步骤_Python中文文本分词、词频统计、词云绘制
本文主要从中文文本分词.词频统计.词云绘制方面介绍Python中文文本分词的使用.会使用到的中文文本处理包包括:wordcloud,jieba,re(正则表达式),collections. 1 准备工 ...
- 英文文本分词处理(NLTK)
文章目录 1.NLTK的安装 2.NLTK分词和分句 3.NLTK分词后去除标点符号 4.NLTK分词后去除停用词 5.NLTK分词后进行词性标注 6.NLTK分词后进行词干提取 7.NLTK分词后进 ...
最新文章
- html5 静态网页 线程,HTML5 Web Workers之网站也能多线程的实现
- 架构设计器_MySQL:数据库结构优化、高可用架构设计、数据库索引优化
- Counting Bits
- 奇妙的安全旅行之DSA算法
- 广西壮族自治区直流充电桩说明书下载_鄂州便携式直流充电桩
- Mysql数据库常用命令,mysql速学实用教程。
- 7-142 最大子列和问题 (20 分)
- winform 中show()函数和showdialog()函数区别
- 华为删除dhcp地址池_配置设备作为DHCP中继示例
- 出现梯度消失与梯度爆炸的原因以及解决方案
- 编译原理第三章课后题
- 图像分割-阈值分割法
- 【zotero】异常与错误,Attachments skipped because they are top-level items,snapshots,an avoided filetype解决方法
- 支付宝内部功能调用APP的said说明(转载)
- 求两个正整数的最大公约数和最小公倍数
- 二维三维四维vector乃至多维vector数组的建立
- python爬取bilibili弹幕_用Python爬取B站视频弹幕
- MySQL查询语句练习题(50题版)
- 【攻破css系列——第九天】常规流
- Deep Learning for Matching in Search and Recommendation 搜索与推荐中的深度学习匹配(1 引言)
热门文章
- Druid 配置_LogFilter
- Oracle 把触发器说透
- Spring 中的内部bean 和集合
- Linux系统中为php添加pcntl扩展的方法
- ngx_lua模块中的共享内存字典项API
- Laravel表单提交419页面过期
- android 上线apk,码云 Android apk 在线构建功能上线啦!
- rgb cmyk lab的区别
- php页面代码简化,代码求简化
- this ts 方法获取_vue+typescript项目中用this.$refs和原生方法获取的dom有什么区别