在NLP中,数据清洗与分词往往是很多工作开始的第一步,大多数工作中只有中文语料数据需要进行分词,现有的分词工具也已经有了很多了,这里就不再多介绍了。英文语料由于其本身存在空格符所以无需跟中文语料同样处理,如果英文数据中没有了空格,那么应该怎么处理呢?

今天介绍一个工具就是专门针对上述这种情况进行处理的,这个工具叫做:wordninja,地址在这里。

下面简单以实例看一下它的功能:

def wordinjaFunc():

'''

https://github.com/yishuihanhan/wordninja

'''

import wordninja

print wordninja.split('derekanderson')

print wordninja.split('imateapot')

print wordninja.split('wethepeopleoftheunitedstatesinordertoformamoreperfectunionestablishjusticeinsuredomestictranquilityprovideforthecommondefencepromotethegeneralwelfareandsecuretheblessingsoflibertytoourselvesandourposteritydoordainandestablishthisconstitutionfortheunitedstatesofamerica')

print wordninja.split('littlelittlestar')

结果如下:

['derek', 'anderson']

['im', 'a', 'teapot']

['we', 'the', 'people', 'of', 'the', 'united', 'states', 'in', 'order', 'to', 'form', 'a', 'more', 'perfect', 'union', 'establish', 'justice', 'in', 'sure', 'domestic', 'tranquility', 'provide', 'for', 'the', 'common', 'defence', 'promote', 'the', 'general', 'welfare', 'and', 'secure', 'the', 'blessings', 'of', 'liberty', 'to', 'ourselves', 'and', 'our', 'posterity', 'do', 'ordain', 'and', 'establish', 'this', 'constitution', 'for', 'the', 'united', 'states', 'of', 'america']

['little', 'little', 'star']

从简单的结果上来看,效果还是不错的,之后在实际的使用中会继续评估。

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对脚本之家的支持。如果你想了解更多相关内容请查看下面相关链接

python 英语分词_Python英文文本分词(无空格)模块wordninja的使用实例相关推荐

  1. Python英文文本分词(无空格)模块wordninja的使用实例

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 python免费学习资 ...

  2. python 英语分词_基于Python NLTK库进行英文文本预处理

    文本预处理是要文本处理成计算机能识别的格式,是文本分类.文本可视化.文本分析等研究的重要步骤.具体流程包括文本分词.去除停用词.词干抽取(词形还原).文本向量表征.特征选择等步骤,以消除脏数据对挖掘分 ...

  3. 【Python】英文文本分词与词频统计(split()函数、re库)

    英文文本分词 1.知识准备 (1)Python中的split()函数的用法 了解split()的基本用法 (2)python多个分割符split字符串 了解re库的部分用法 Python strip( ...

  4. 利用python对一段英文文本进行分词,分句

    这两天一直在学习用python进行自然语言处理这本书,当然开始的开始就是要学习python这门脚本语言,遇到了利用自己的语言对一段英文文本进行分词这个问题,找了好多资料都没有找到具体的解答,自己修修改 ...

  5. 英文文本分词之工具NLTK

    英文文本分词之工具NLTK 安装NLTK 停用词和标点符号包放置 验证 安装NLTK pip install nltk 分词需要用到两个包:stopwords和punkt,需要下载: import n ...

  6. 【编译原理】Python实现对一个英文文本的词频统计

    利用Python实现对一个英文文本的词频统计.文本链接:https://www.philippinetimes.com/news/257886068/australia-blocks-chinese- ...

  7. 英文文本情感分析textblob模块sentiment方法

    [小白从小学Python.C.Java] [计算机等考+500强证书+考研] [Python-数据分析] 英文文本情感分析 textblob模块 sentiment方法 [太阳]选择题 关于下列代码说 ...

  8. python词频统计完整步骤_Python中文文本分词、词频统计、词云绘制

    本文主要从中文文本分词.词频统计.词云绘制方面介绍Python中文文本分词的使用.会使用到的中文文本处理包包括:wordcloud,jieba,re(正则表达式),collections. 1 准备工 ...

  9. 英文文本分词处理(NLTK)

    文章目录 1.NLTK的安装 2.NLTK分词和分句 3.NLTK分词后去除标点符号 4.NLTK分词后去除停用词 5.NLTK分词后进行词性标注 6.NLTK分词后进行词干提取 7.NLTK分词后进 ...

最新文章

  1. html5 静态网页 线程,HTML5 Web Workers之网站也能多线程的实现
  2. 架构设计器_MySQL:数据库结构优化、高可用架构设计、数据库索引优化
  3. Counting Bits
  4. 奇妙的安全旅行之DSA算法
  5. 广西壮族自治区直流充电桩说明书下载_鄂州便携式直流充电桩
  6. Mysql数据库常用命令,mysql速学实用教程。
  7. 7-142 最大子列和问题 (20 分)
  8. winform 中show()函数和showdialog()函数区别
  9. 华为删除dhcp地址池_配置设备作为DHCP中继示例
  10. 出现梯度消失与梯度爆炸的原因以及解决方案
  11. 编译原理第三章课后题
  12. 图像分割-阈值分割法
  13. 【zotero】异常与错误,Attachments skipped because they are top-level items,snapshots,an avoided filetype解决方法
  14. 支付宝内部功能调用APP的said说明(转载)
  15. 求两个正整数的最大公约数和最小公倍数
  16. 二维三维四维vector乃至多维vector数组的建立
  17. python爬取bilibili弹幕_用Python爬取B站视频弹幕
  18. MySQL查询语句练习题(50题版)
  19. 【攻破css系列——第九天】常规流
  20. Deep Learning for Matching in Search and Recommendation 搜索与推荐中的深度学习匹配(1 引言)

热门文章

  1. Druid 配置_LogFilter
  2. Oracle 把触发器说透
  3. Spring 中的内部bean 和集合
  4. Linux系统中为php添加pcntl扩展的方法
  5. ngx_lua模块中的共享内存字典项API
  6. Laravel表单提交419页面过期
  7. android 上线apk,码云 Android apk 在线构建功能上线啦!
  8. rgb cmyk lab的区别
  9. php页面代码简化,代码求简化
  10. this ts 方法获取_vue+typescript项目中用this.$refs和原生方法获取的dom有什么区别