python 分词器比较

2024-05-30 23:42:16

个人接触的分词器

jieba“结巴”中文分词：做最好的 Python 中文分词组件https://github.com/fxsjy/jieba

清华大学THULAC：一个高效的中文词法分析工具包
https://github.com/thunlp/THULAC-Python
FoolNLTK可能不是最快的开源中文分词，但很可能是最准的开源中文分词
https://github.com/rockyzhengwu/FoolNLTK
HanLP最高分词速度2,000万字/秒 https://github.com/hankcs/HanLP/wiki/%E8%A7%92%E8%89%B2%E6%A0%87%E6%B3%A8%E5%91%BD%E5%90%8D%E5%AE%9E%E4%BD%93
pip install pyhanlp
Ictclas 分词系统 - NLPIR汉语分词系统 http://ictclas.nlpir.org/
LTP https://www.ltp-cloud.com/

分词器测评

在THULAC（官网）大约在其发布的当年2016年进行了一个测评：

我们选择LTP-3.2.0 、ICTCLAS(2015版) 、jieba(C++版)等国内具代表性的分词软件与THULAC做性能比较。我们选择Windows作为测试环境，根据第二届国际汉语分词测评（The Second International Chinese Word Segmentation Bakeoff)发布的国际中文分词测评标准，对不同软件进行了速度和准确率测试。

在第二届国际汉语分词测评中，共有四家单位提供的测试语料（Academia Sinica、 City University 、Peking University 、Microsoft Research）, 在评测提供的资源icwb2-data中包含了来自这四家单位的训练集（training）、测试集（testing）, 以及根据各自分词标准而提供的相应测试集的标准答案（icwb2-data/scripts/gold）．在icwb2-data/scripts目录下含有对分词进行自动评分的perl脚本score。

我们在统一测试环境下，对上述流行分词软件和THULAC进行了测试，使用的模型为各分词软件自带模型。THULAC使用的是随软件提供的简单模型Model_1。评测环境为 Intel Core i5 2.4 GHz 评测结果如下：

python 分词器比较相关推荐

python分词器_python实现TriedTree分词器
开始写专栏了-- 通过前缀字典树的方式实现添加节点,提取关键词并打标,可以处理部分分词任务,关键词提取任务,应用在搜索场景和文本信息抽取场景. 在专业性较强的文本关键词检测中有比较好的表现,但是在通用 ...
elasticsearch教程--中文分词器作用和使用
概述本文都是基于elasticsearch安装教程中的elasticsearch安装目录(/opt/environment/elasticsearch-6.4.0)为范例环境准备 ·全新最小 ...
ansj分词器的简单了解介绍
java分词器这两天一没啥事儿的时候就喜欢更新一下博客,养成个写博客的习惯其实也挺好,积少成多,量变引起质变,古人云:不积跬步无以至千里嘛今天写写分词器,关于ansj分词器的一些小老弟的浅薄认识, ...
python连接es_Elasticsearch --- 3. ik中文分词器, python操作es
一.IK中文分词器 1.下载安装 2.测试 #显示结果 {"tokens": [ {"token" : "上海","start_o ...
r与python自然语言处理_Python自然语言处理实践: 在NLTK中使用斯坦福中文分词器 | 我爱自然语言处理...
斯坦福大学自然语言处理组是世界知名的NLP研究小组,他们提供了一系列开源的Java文本分析工具,包括分词器(Word Segmenter),词性标注工具(Part-Of-Speech Tagger), ...
python统计词频瓦尔登湖_自然语言处理之中文分词器－jieba分词器详解及python实战...
(转https://blog.csdn.net/gzmfxy/article/details/78994396) 中文分词是中文文本处理的一个基础步骤,也是中文人机自然语言交互的基础模块,在进行中文自 ...
基于Python的中英文分词基础：正则表达式和jieba分词器
基于Python的中英文分词基础:正则表达式和jieba分词器前言介绍英文字符串处理 Python中的str 正则表达式 Python中的正则表达式模块 re 小练习字符串中出现频次最多的字母 ...
python中文分词器－jieba分词器详解及wordcloud词云生成
jieba分词 jieba分词支持三种分词模式: 精确模式, 试图将句子最精确地切开,适合文本分析全模式,把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义搜索引擎模式,在精确模 ...
python函数——Keras分词器Tokenizer
文章目录 0. 前言 1. 语法 1.1 构造参数 1.2 返回值 1.3 类方法 1.4 属性 2. 简单示例 3. 常用示例 python函数系列目录:python函数--目录 0. 前言 To ...
自制基于HMM的python中文分词器
不像英文那样单词之间有空格作为天然的分界线, 中文词语之间没有明显界限.必须采用一些方法将中文语句划分为单词序列才能进一步处理, 这一划分步骤即是所谓的中文分词. 主流中文分词方法包括基于规则的分词, ...

最新文章

热门文章