目前分词的难点
(1)分词规范:公说公有理婆说婆有理
(2)歧义切分:歧义本身就是一个问题,暂时没有得到解决
(3)未登录词:语言是一个神奇的事情,总会有创意的人想出创意的词来表达特定的含义,而且这这个游戏乐此不疲,所以这个问题会一直都存在
接下来将python可能调用的分词包进行了汇总了(参照网址:https://mp.weixin.qq.com/s/-iH8QiAbpyOV-692XC5Nzw 分词那些事)

1、jieba分词
安装:
(1)一般安装,可能时间比较长:pip install jieba
(2)配源进行安装,时间会减少很多

import jieba# 全模式
result = jieba.cut("我愿做你的摆渡人,即使只能送你靠岸", cut_all=True)
print(" ".join(result))# 精确模式
result = jieba.cut("我愿做你的摆渡人,即使只能送你靠岸!", cut_all=False)
print(" ".join(result))# 搜索引擎模式
result = jieba.cut_for_search("我愿做你的摆渡人,即使只能送你靠岸!")
print(" ".join(result))'''
我 愿 做 你 的 摆渡 摆渡人   即使 只能 送 你 靠岸
我愿 做 你 的 摆渡人 , 即使 只能 送 你 靠岸 !
我愿 做 你 的 摆渡 摆渡人 , 即使 只能 送 你 靠岸 !
'''

2、pynlpir分词
安装:同样有2种方式
pip install pynlpir
pip install pynlpir -i https://pypi.tuna.tsinghua.edu.cn/simple

import pynlpir
# 打开分词器
pynlpir.open()
# 分词:这个工具会同时进行词性标注
s = "我愿做你的摆渡人,即使只能送你靠岸!"
result = pynlpir.segment(s)
print(result)'''
输出:
[('我', 'pronoun'), ('愿', 'verb'), ('做', 'verb'), ('你', 'pronoun'), ('的', 'particle'), ('摆渡', 'noun'), ('人', 'noun'), (',', 'punctuation mark'), ('即使', 'conjunction'), ('只能', 'verb'), ('送', 'verb'), ('你', 'pronoun'), ('靠岸', 'verb'), ('!', 'punctuation mark')]
'''

3、snownlp分词
安装:
pip install snownlp
pip install snownlp  -i https://pypi.tuna.tsinghua.edu.cn/simple

import snownlp
from snownlp import SnowNLP
result = SnowNLP(u'我愿做你的摆渡人,即使只能送你靠岸!')
print(result.words)'''
输出:
['我', '愿', '做', '你', '的', '摆渡', '人', ',', '即使', '只', '能', '送', '你', '靠岸', '!']
'''

4、stanfordcorenlp分词
安装
pip install stanfordcorenlp
pip install stanfordcorenlp -i https://pypi.tuna.tsinghua.edu.cn/simple

from stanfordcorenlp import StanfordCoreNLPnlp_model = StanfordCoreNLP(r'stanford-corenlp-full-2018-02-27', lang='zh')
# 分词
s = '我愿做你的摆渡人,即使只能送你靠岸!!'
result = nlp_model.word_tokenize(s)
print(result)

5、thulac分词
安装:
pip install thulac
pip install thulac     -i https://pypi.tuna.tsinghua.edu.cn/simple

import thulac
# 默认模式:分词的同时进行词性标注
thulac_model = thulac.thulac()
result = thulac_model.cut("我愿做你的摆渡人,即使只能送你靠岸!")
print(result)# 只进行分词
seg_only_model = thulac.thulac(seg_only=True)
result = seg_only_model.cut("我愿做你的摆渡人,即使只能送你靠岸!")
print(result)'''
输出:
Model loaded succeed
[['我', 'r'], ['爱', 'v'], ['自然', 'n'], ['语言', 'n'], ['处理', 'v'], ['技术', 'n'], ['!', 'w']]
Model loaded succeed
[['我', ''], ['愿', ''], ['做', ''], ['你', ''], ['的', ''], ['摆渡', ''], ['人', ''], [',', ''], ['即使', ''], ['只能', ''], ['送', ''], ['你', ''], ['靠岸', ''], ['!', '']]
'''

6、pyhanlp分词
安装:
pip install pyhanlp
pip install pyhanlp  -i https://pypi.tuna.tsinghua.edu.cn/simple

from pyhanlp import *s = '我愿做你的摆渡人,即使只能送你靠岸!'
result = HanLP.segment(s)
for each in result:print(each.word)

在运行的时候会出现下面的界面:

希望小女子的学习之余的分享能够帮助同样在知识路上奔跑的你

“当今时代的文盲就是毕业就停止学习的人”

python调用各个分词包相关推荐

  1. python 分词包_python调用hanlp分词包手记

    python调用hanlp分词包手记 Hanlp作为一款重要的分词工具,本月初的时候看到大快搜索发布了hanlp的1.7版本,新增了文本聚类.流水线分词等功能.关于hanlp1.7版本的新功能,后面有 ...

  2. hanlp java api_python调用hanlp分词包手记

    python调用hanlp分词包手记 Hanlp作为一款重要的分词工具,本月初的时候看到大快搜索发布了hanlp的1.7版本,新增了文本聚类.流水线分词等功能.关于hanlp1.7版本的新功能,后面有 ...

  3. python调用r语言_【Python调用第三方R包】【环境变量设置】Python 通过rpy2调用 R语言...

    [github有完整的软件包 ] 系统环境 python 2.7.4  32bit R 3.0.1  i386-w64-mingw32/i386 (32-bit) rpy2 2.3.7  32bit ...

  4. 自然语言处理之hanlp,Python调用与构建,分词、关键词提取、命名主体识别

    转载请注明出处:https://blog.csdn.net/HHTNAN HanLP是一系列模型与算法组成的NLP工具包,由大快搜索主导并完全开源,目标是普及自然语言处理在生产环境中的应用.HanLP ...

  5. python 不执行函数_解决python调用自己文件函数/执行函数找不到包问题

    写python程序的时候很多人习惯创建一个utils.py文件,存放一些经常使用的函数,方便其他文件调用,同时也更好的管理一些通用函数,方便今后使用.或是两个文件之间的class或是函数调用情况. 就 ...

  6. win10 python 调用模块_python常识系列14--gt;python通过jpype模块调用jar包

    前言 能坚持一件事,本身就是一种很了不起的才华. 一.jpype模块是什么? 能够让 python 代码方便地调用 Java 代码的工具 二.jpype模块安装 安装和其它模块没区别,但是注意模块名 ...

  7. python怎么封装供java调用_python调用第三方java包实例

    先看结果: 对于python与java的互调,我一开始是用的py4j,但是后来发现在使用方法的时候,不知道如何在python中导入jar包,然后网上的资料也比较少.后来想不出来办法,又看到有Jpype ...

  8. r语言调用python_小众做法,通过python调用R语言的第三方包

    原本的意思只想在anaconda上把所有代码一股脑的写好,实在不想转战不同的平台.为此无意间发现python可以调用R,于是饶有兴致的挖了个坑. 网上的教程基本都很老,下载的费官方whl包都已经没地方 ...

  9. python调用r语言加载包错误_Python中调用R语言包指南.docx

    Python中调用R语言包指南R语言是非常强大的做统计分析和建模方面的开源软件,它有非常丰富的统计软件包,做统计可以说只有你想不到的,没有R办不到的.Python又是当下最流行的编程软件之一,Pyth ...

最新文章

  1. Native层HIDL服务的注册原理-Android10.0 HwBinder通信原理(六)
  2. 死磕Java并发:J.U.C之Condition
  3. ElasticSearch Python Client ReadTimeout
  4. java中的表达式是指_Java 表达式,语句和代码块
  5. 系统间通信2:通信管理与远程方法调用RMI
  6. 搭建iis自己可以别人_自己可以做网上商城的搭建吗?
  7. Telnet初试(本地测试)
  8. RabbitMQ镜像策略set_policy
  9. lisp 回执多段线_多段线上加点的LISP程序源码
  10. gcc预处理、编译、汇编、链接详解
  11. 获取数组中的所有非唯一值(即:重复/多次出现)
  12. dea模型java实例_Java数据流学习 - osc_deasqda4的个人空间 - OSCHINA - 中文开源技术交流社区...
  13. 微型计算机原理与接口技术知识点
  14. Redis 发布订阅原理以及springboo中RedisTemplate集成
  15. 在Windows 7和Vista中禁用程序兼容性助手
  16. 在Vue中将单独一张图片设为背景图并充满整个屏幕
  17. git安装 苹果笔记本_远程系统重装安装电脑维修笔记本台式xpwin7810苹果mac双系统安装...
  18. valist的使用方法(队可变参数的处理)
  19. 学习Flask之blueprint
  20. Activiti7实战二:实现具有拒签功能的请假2层审批流程

热门文章

  1. Nginx葵花宝典—草根站长Nginx运维百科全书
  2. HDU 1024 Max Sum Plus Plus 动态规划
  3. 各品牌手机音视频格式支持一览表收藏
  4. fmdb和mysql的区别_FMDB介绍和使用
  5. 【VBA】在word中写多级列表
  6. ArrayList源码翻译
  7. 自由职业者节税方案来了!
  8. java基于springboot+vue的旧衣服捐赠系统 毕业设计nodejs技术
  9. android 键盘自动收起来了,Android 键盘收起
  10. Genesis创世纪