前言

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理。

PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取

python免费学习资料以及群交流解答点击即可加入

在NLP中,数据清洗与分词往往是很多工作开始的第一步,大多数工作中只有中文语料数据需要进行分词,现有的分词工具也已经有了很多了,这里就不再多介绍了。英文语料由于其本身存在空格符所以无需跟中文语料同样处理,如果英文数据中没有了空格,那么应该怎么处理呢?

今天介绍一个工具就是专门针对上述这种情况进行处理的,这个工具叫做:wordninja,地址在这里。

下面简单以实例看一下它的功能:

'''
想要学习Python?Python学习交流群:1004391443满足你的需求,资料都已经上传群文件,可以自行下载!
'''
def wordinjaFunc():'''https://github.com/yishuihanhan/wordninja'''import wordninjaprint wordninja.split('derekanderson')print wordninja.split('imateapot')print wordninja.split('wethepeopleoftheunitedstatesinordertoformamoreperfectunionestablishjusticeinsuredomestictranquilityprovideforthecommondefencepromotethegeneralwelfareandsecuretheblessingsoflibertytoourselvesandourposteritydoordainandestablishthisconstitutionfortheunitedstatesofamerica')print wordninja.split('littlelittlestar')

结果如下:

['derek', 'anderson']
['im', 'a', 'teapot']
['we', 'the', 'people', 'of', 'the', 'united', 'states', 'in', 'order', 'to', 'form', 'a', 'more', 'perfect', 'union', 'establish', 'justice', 'in', 'sure', 'domestic', 'tranquility', 'provide', 'for', 'the', 'common', 'defence', 'promote', 'the', 'general', 'welfare', 'and', 'secure', 'the', 'blessings', 'of', 'liberty', 'to', 'ourselves', 'and', 'our', 'posterity', 'do', 'ordain', 'and', 'establish', 'this', 'constitution', 'for', 'the', 'united', 'states', 'of', 'america']
['little', 'little', 'star']

从简单的结果上来看,效果还是不错的,之后在实际的使用中会继续评估。

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值

Python英文文本分词(无空格)模块wordninja的使用实例相关推荐

  1. python 英语分词_Python英文文本分词(无空格)模块wordninja的使用实例

    在NLP中,数据清洗与分词往往是很多工作开始的第一步,大多数工作中只有中文语料数据需要进行分词,现有的分词工具也已经有了很多了,这里就不再多介绍了.英文语料由于其本身存在空格符所以无需跟中文语料同样处 ...

  2. python英文文本情感分析_sentimentpy模块进行中文文本情感分类

    sentimentpy是我根据R语言的一个文本情感分析包sentiment进行开发的, 开发的初衷有: R的sentiment已经被弃坑, 没人维护 Python比R更擅长文本处理 sentiment ...

  3. 【Python】英文文本分词与词频统计(split()函数、re库)

    英文文本分词 1.知识准备 (1)Python中的split()函数的用法 了解split()的基本用法 (2)python多个分割符split字符串 了解re库的部分用法 Python strip( ...

  4. 英文文本分词之工具NLTK

    英文文本分词之工具NLTK 安装NLTK 停用词和标点符号包放置 验证 安装NLTK pip install nltk 分词需要用到两个包:stopwords和punkt,需要下载: import n ...

  5. 英文文本情感分析textblob模块sentiment方法

    [小白从小学Python.C.Java] [计算机等考+500强证书+考研] [Python-数据分析] 英文文本情感分析 textblob模块 sentiment方法 [太阳]选择题 关于下列代码说 ...

  6. 英文文本分词处理(NLTK)

    文章目录 1.NLTK的安装 2.NLTK分词和分句 3.NLTK分词后去除标点符号 4.NLTK分词后去除停用词 5.NLTK分词后进行词性标注 6.NLTK分词后进行词干提取 7.NLTK分词后进 ...

  7. python英文文本分析和提取_英文文本挖掘预处理流程总结

    在中文文本挖掘预处理流程总结中,我们总结了中文文本挖掘的预处理流程,这里我们再对英文文本挖掘的预处理流程做一个总结. 1. 英文文本挖掘预处理特点 英文文本的预处理方法和中文的有部分区别.首先,英文文 ...

  8. python英文文本词频统计_python实现简单的英文词频统计

    1 __author__ = 'Oscar_Yang' 2 #-*- coding= utf-8 -*- 3 #copyRight by OSCAR 4 """ 5 本脚 ...

  9. python英文文本词频统计代码_Python小程序:文本词频统计(英文+中文)

    在学习了组合数据类型和文件操作之后就可以做出下面的文本词频统计的小程序了: 1. 下面是英文文本的词频统计,统计了作者的一篇英文论文 #文本词频统计:英文文本 def gettext(): #从文件中 ...

最新文章

  1. STM32H7的FDCAN
  2. python 只取年月日 字符串_Python的数据类型
  3. sql多变量 双引号设置
  4. Linq 下的扩展方法太少了,您期待的 MoreLinq 来啦
  5. ruby 集合 分组_在Ruby中打印集合的元素
  6. Go如何对数组切片进行去重
  7. 面向对象,面向服务,面向组件三种编程模式有什么区别
  8. 建站篇-数据库-修改默认users表
  9. JavaScript基础知识(四)
  10. 设计模式:卑微的代理模式
  11. 最新,87本SCI/SSCI期刊被剔除,这5本TOP刊也在内?
  12. 基于Java swing+mysql+eclipse的【图书管理系统】
  13. 浅谈PM(项目管理)
  14. orcad的瞬态分析
  15. 关于travis scott的网名_异地恋情侣网名甜蜜秀恩爱
  16. 戴尔笔记本,快捷键无法调节屏幕亮度,有图标显示,就是没有调节效果
  17. 返利机器人源码php,RebateBot:非常棒的返利机器人 基于 golang+vue+android-xposed
  18. 你需要了解的 http 协议基础知识
  19. c++虚函数详解(你肯定懂了)
  20. 2019 MySQL8 24小时快速入门(2)

热门文章

  1. 说到产品需求,到底谁的是第一优先级?
  2. 华为手机vue_vue2.0 在华为手机等手机自带浏览器打开白屏的问题
  3. HTTP 1.1 400 Bad Request 11ms
  4. Windriver 安装和PCIE设备调试遇到的问题记录(持续更新)
  5. Qt 之 自定义插件或控件无法识别显示
  6. 什么是测试金字塔?如何使用测试金字塔来构建自动化测试体系?
  7. java利用poi生成excel如何自动换行
  8. 抖音小店运营工作内容是什么,具体包括哪些方面?
  9. python程序运行按什么键_太惨!学Python方法用错,直接从入门到放弃!
  10. 05. 手写Spring核心框架