python 分词器比较
个人接触的分词器
jieba“结巴”中文分词:做最好的 Python 中文分词组件https://github.com/fxsjy/jieba
清华大学THULAC:一个高效的中文词法分析工具包
https://github.com/thunlp/THULAC-Python
FoolNLTK可能不是最快的开源中文分词,但很可能是最准的开源中文分词
https://github.com/rockyzhengwu/FoolNLTK
HanLP最高分词速度2,000万字/秒 https://github.com/hankcs/HanLP/wiki/%E8%A7%92%E8%89%B2%E6%A0%87%E6%B3%A8%E5%91%BD%E5%90%8D%E5%AE%9E%E4%BD%93
pip install pyhanlp
Ictclas 分词系统 - NLPIR汉语分词系统 http://ictclas.nlpir.org/
LTP https://www.ltp-cloud.com/
分词器测评
在THULAC(官网)大约在其发布的当年2016年进行了一个测评:
我们选择LTP-3.2.0 、ICTCLAS(2015版) 、jieba(C++版)等国内具代表性的分词软件与THULAC做性能比较。我们选择Windows作为测试环境,根据第二届国际汉语分词测评(The Second International Chinese Word Segmentation Bakeoff)发布的国际中文分词测评标准,对不同软件进行了速度和准确率测试。
在第二届国际汉语分词测评中,共有四家单位提供的测试语料(Academia Sinica、 City University 、Peking University 、Microsoft Research), 在评测提供的资源icwb2-data中包含了来自这四家单位的训练集(training)、测试集(testing), 以及根据各自分词标准而提供的相应测试集的标准答案(icwb2-data/scripts/gold).在icwb2-data/scripts目录下含有对分词进行自动评分的perl脚本score。
我们在统一测试环境下,对上述流行分词软件和THULAC进行了测试,使用的模型为各分词软件自带模型。THULAC使用的是随软件提供的简单模型Model_1。评测环境为 Intel Core i5 2.4 GHz 评测结果如下:
python 分词器比较相关推荐
- python分词器_python实现TriedTree分词器
开始写专栏了-- 通过前缀字典树的方式实现添加节点,提取关键词并打标,可以处理部分分词任务,关键词提取任务,应用在搜索场景和文本信息抽取场景. 在专业性较强的文本关键词检测中有比较好的表现,但是在通用 ...
- elasticsearch教程--中文分词器作用和使用
概述 本文都是基于elasticsearch安装教程 中的elasticsearch安装目录(/opt/environment/elasticsearch-6.4.0)为范例 环境准备 ·全新最小 ...
- ansj分词器的简单了解介绍
java分词器 这两天一没啥事儿的时候就喜欢更新一下博客,养成个写博客的习惯其实也挺好,积少成多,量变引起质变,古人云:不积跬步无以至千里嘛 今天写写分词器,关于ansj分词器的一些小老弟的浅薄认识, ...
- python连接es_Elasticsearch --- 3. ik中文分词器, python操作es
一.IK中文分词器 1.下载安装 2.测试 #显示结果 {"tokens": [ {"token" : "上海","start_o ...
- r与python自然语言处理_Python自然语言处理实践: 在NLTK中使用斯坦福中文分词器 | 我爱自然语言处理...
斯坦福大学自然语言处理组是世界知名的NLP研究小组,他们提供了一系列开源的Java文本分析工具,包括分词器(Word Segmenter),词性标注工具(Part-Of-Speech Tagger), ...
- python统计词频瓦尔登湖_自然语言处理之中文分词器-jieba分词器详解及python实战...
(转https://blog.csdn.net/gzmfxy/article/details/78994396) 中文分词是中文文本处理的一个基础步骤,也是中文人机自然语言交互的基础模块,在进行中文自 ...
- 基于Python的中英文分词基础:正则表达式和jieba分词器
基于Python的中英文分词基础:正则表达式和jieba分词器 前言介绍 英文字符串处理 Python中的str 正则表达式 Python中的正则表达式模块 re 小练习 字符串中出现频次最多的字母 ...
- python中文分词器-jieba分词器详解及wordcloud词云生成
jieba分词 jieba分词支持三种分词模式: 精确模式, 试图将句子最精确地切开,适合文本分析 全模式,把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义 搜索引擎模式,在精确模 ...
- python函数——Keras分词器Tokenizer
文章目录 0. 前言 1. 语法 1.1 构造参数 1.2 返回值 1.3 类方法 1.4 属性 2. 简单示例 3. 常用示例 python函数 系列目录:python函数--目录 0. 前言 To ...
- 自制基于HMM的python中文分词器
不像英文那样单词之间有空格作为天然的分界线, 中文词语之间没有明显界限.必须采用一些方法将中文语句划分为单词序列才能进一步处理, 这一划分步骤即是所谓的中文分词. 主流中文分词方法包括基于规则的分词, ...
最新文章
- 松下电视机服务器未响应,松下电视遥控器失灵是什么原因?要怎么办?
- jsx怎么往js里传参数_Angular、React 当前,Vue.js 优劣几何?
- 一加8系列获得认证:骁龙865加持 离上市又近一步
- Weka算法Classifier-meta-AdaBoostM1源代码分析(一)
- python基础之小数据池,is和==区别 编码问题
- 61. 创建快速响应的Web应用
- python 网络音乐播放器(二):tkinter 实现歌词同步滚动
- 60、弱电网络管理入门与基础技术
- 使用RF测试时,如何自动关闭浏览器驱动进程
- Git submodule使用指南(二)
- 在不被限制的前提下,企业微信一天加多少好友(主动+被动)
- 说点牛逼的“愿景,使命,目标,战略”
- Fragment跳转
- [09-Dec-2012] 《少年pi的奇幻之旅》 -推荐
- pytest测试框架学习笔记
- linux之getcwd函数解析,Linux 中C语言getcwd()函数的用法
- 【致青春】致我终将逝去的22年的青春
- 23种设计模式——备忘录模式
- 互联网日报 |《王者荣耀》日活用户平均1亿;四部门联合约谈蚂蚁集团有关人员;“百度云手机”旗舰版发布...
- 股票量化指标库:stockstats