python中文分词

一、jieba分词

1、精确模式（默认）：试图将句子最精确地切开，适合文本分析；

seg = jieba.cut(“这是一段中文字符”, cut_all  = False)

不加cut_all 为默认的精确模式

2、全模式，把句子中所有的可以成词的词语都扫描出来，但是不能解决歧义；

seg = jieba.cut(“这是一段中文字符”, cut_all  = True)

3、搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，该方法适合用于搜索引擎构建倒排索引的分词，粒度比较细。

seg =jieba.cut_for_search(“这是一段关于结巴分词的中文句子”)

搜索引擎模式

注意：jieba.cut以及jieba.cut_for_search返回的结构都是一个可迭代的 generator，并不是一个list列表

二、哈工大LTP

1、LTP在docker中的使用

1、在github上下载Dockerfile文件

直接new一个ltp file，new一个Dockerfile文件，把github上的Dockerfile 内容直接粘贴下来

2、运行docker build -t ltp/ltp .

注意要在ltp文件夹中run terminal

3、在配置中给docker运行给予足够大的内存。我们这里设置了6G运行内存。

采用默认的配置，未进行内存设置

4、使用如下命令启动容器，这里的8080是映射到本地的端口号，可以根据需要改动为其他未占用的端口:

docker run -d -p 8080:12345 ltp/ltp /ltp_server --last-stage all

5、使用如下命令测试服务器是否部署成功。启动后可能需要等待数十秒的模型加载时间。:

curl -d "s=他点头表示同意我的意见。&f=xml&t=all" http://127.0.0.1:8080/ltp

测试成功后按照文档使用即可

2、源码的编译安装

1、下载源码和model

注意源码要和模型的版本对应
存放的路径要注意（我直接把模型提取到源码的文件夹中）

2、安装cmake

cmake的安装在linux下建议直接
pip install cmake
（cmake官网下载安装时出现了错误）

3、直接在根目录中运行

./configure
make
即

4、然后参考文档

使用ltp_test \ltp_server
以及各种命令行 xxx_cmdline

3、python 调用封装好的pyltp

注意安装时python3.7会失败
from pyltp import 各个模块的功能

三、中科院NLPIR

两种使用方式

1、直接使用封装好的nlpir

pip install nlpir 就可以安装好
直接import nlpir 就可以调用

缺点:功能少，不如直接用jieba

2、使用NLPIR接口

利用官方文档，要在电脑上搭建swig
（了解比较少）

四、总结

jieba最为简洁，python中的使用最为方便，可以满足基本的分词需求
nlp功能较多，文档完善，除分词外还具有词性分析等功能，但是源码、模型版本较多，安装起来复杂
nlpir直接调用的功能少，不如直接用jieba分词;搭建swig，了解不多

一家直言，如有偏颇，请您直接指出

python中文分词的主要方法相关推荐

【NLP】jieba分词-Python中文分词领域的佼佼者
1. jieba的江湖地位 NLP(自然语言)领域现在可谓是群雄纷争,各种开源组件层出不穷,其中一支不可忽视的力量便是jieba分词,号称要做最好的 Python 中文分词组件. "最好的& ...
中文分词算法python_Python FMM算法的中文分词器实现方法源码
这是一篇基于Python代码使用FMM算法达到中文分词效果实现方法的文章.中文语句分词因为编码的关系在Python语言中并不是很好处理,关于中文乱码与编码的问题解决方法,可以参考玩蛇网的Python中 ...
『开发技术』Python中文分词工具SnowNLP教程
介绍一个好用多功能的Python中文分词工具SnowNLP,全称Simplified Chinese Text Processing.在实现分词的同时,提供转换成拼音(Trie树实现的最大匹配)及繁体 ...
“结巴”中文分词：做最好的 Python 中文分词组件
jieba "结巴"中文分词:做最好的 Python 中文分词组件 "Jieba" (Chinese for "to stutter") C ...
[工具]python中文分词---【jieba】
jieba "结巴"中文分词:做最好的 Python 中文分词组件 "Jieba" (Chinese for "to stutter") C ...
python 中文分词_python中文分词,使用结巴分词对python进行分词(实例讲解)
在采集中文分词是中文文本处理的一个基础性工作,结巴分词利用进行中文分词. 其基本实现原理有三点: 1.基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG) ...
python中文分词---jieba
原文地址:http://blog.csdn.net/sherlockzoom/article/details/44566425 jieba "结巴"中文分词:做最好的 Python ...
资源 | Python中文分词工具大合集
跟着博主的脚步,每天进步一点点这篇文章事实上整合了之前文章的相关介绍,同时添加一些其他的Python中文分词相关资源,甚至非Python的中文分词工具,仅供参考. 首先介绍之前测试过的8款中文分词工 ...
Python中文分词工具大合集：安装、使用和测试
转自:AINLP 这篇文章事实上整合了之前文章的相关介绍,同时添加一些其他的Python中文分词相关资源,甚至非Python的中文分词工具,仅供参考. 首先介绍之前测试过的8款中文分词工具,这几款工具 ...
python将横转为竖,Python中文竖排显示的方法
Python中文竖排显示的方法本文实例讲述了Python中文竖排显示的方法.分享给大家供大家参考.具体如下: 这里将中文竖排显示比如衣食者人之生利也,然且犹尚有节,葬埋者人之死利也,夫何独无节於 ...

python中文分词的主要方法

一、jieba分词

1、精确模式（默认）：试图将句子最精确地切开，适合文本分析；

2、全模式，把句子中所有的可以成词的词语都扫描出来，但是不能解决歧义；

3、搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，该方法适合用于搜索引擎构建倒排索引的分词，粒度比较细。

二、哈工大LTP

1、LTP在docker中的使用

1、在github上下载Dockerfile文件

2、运行docker build -t ltp/ltp .

3、在配置中给docker运行给予足够大的内存。我们这里设置了6G运行内存。

4、使用如下命令启动容器，这里的8080是映射到本地的端口号，可以根据需要改动为其他未占用的端口:

5、使用如下命令测试服务器是否部署成功。启动后可能需要等待数十秒的模型加载时间。:

2、源码的编译安装

1、下载源码和model

2、安装cmake

3、直接在根目录中运行

4、然后参考文档

3、python 调用封装好的pyltp

三、中科院NLPIR

1、直接使用封装好的nlpir

2、使用NLPIR接口

四、总结

python中文分词的主要方法相关推荐

最新文章

热门文章

python中文分词的主要方法

一、jieba分词

1、精确模式（默认）：试图将句子最精确地切开，适合文本分析；

2、全模式，把句子中所有的可以成词的词语都扫描出来，但是不能解决歧义；

3、搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，该方法适合用于搜索引擎构建倒排索引的分词，粒度比较细。

二、哈工大LTP

1、LTP在docker中的使用

1、在github上下载Dockerfile文件

2、运行docker build -t ltp/ltp .

3、在配置中给docker运行给予足够大的内存。我们这里设置了6G运行内存。

4、使用如下命令启动容器，这里的8080是映射到本地的端口号，可以根据需要改动为其 他未占用的端口:

5、使用如下命令测试服务器是否部署成功。启动后可能需要等待数十秒的模型加载时间。:

2、源码的编译安装

1、下载源码和model

2、安装cmake

3、直接在根目录中运行

4、然后参考文档

3、python 调用封装好的pyltp

三、中科院NLPIR

1、直接使用封装好的nlpir

2、使用NLPIR接口

四、总结

python中文分词的主要方法相关推荐

最新文章

热门文章

4、使用如下命令启动容器，这里的8080是映射到本地的端口号，可以根据需要改动为其他未占用的端口: