个人接触的分词器

jieba“结巴”中文分词:做最好的 Python 中文分词组件https://github.com/fxsjy/jieba

清华大学THULAC:一个高效的中文词法分析工具包
https://github.com/thunlp/THULAC-Python
FoolNLTK可能不是最快的开源中文分词,但很可能是最准的开源中文分词
https://github.com/rockyzhengwu/FoolNLTK
HanLP最高分词速度2,000万字/秒 https://github.com/hankcs/HanLP/wiki/%E8%A7%92%E8%89%B2%E6%A0%87%E6%B3%A8%E5%91%BD%E5%90%8D%E5%AE%9E%E4%BD%93
pip install pyhanlp
Ictclas 分词系统 - NLPIR汉语分词系统 http://ictclas.nlpir.org/
LTP https://www.ltp-cloud.com/

分词器测评

在THULAC(官网)大约在其发布的当年2016年进行了一个测评:

我们选择LTP-3.2.0 、ICTCLAS(2015版) 、jieba(C++版)等国内具代表性的分词软件与THULAC做性能比较。我们选择Windows作为测试环境,根据第二届国际汉语分词测评(The Second International Chinese Word Segmentation Bakeoff)发布的国际中文分词测评标准,对不同软件进行了速度和准确率测试。

在第二届国际汉语分词测评中,共有四家单位提供的测试语料(Academia Sinica、 City University 、Peking University 、Microsoft Research), 在评测提供的资源icwb2-data中包含了来自这四家单位的训练集(training)、测试集(testing), 以及根据各自分词标准而提供的相应测试集的标准答案(icwb2-data/scripts/gold).在icwb2-data/scripts目录下含有对分词进行自动评分的perl脚本score。

我们在统一测试环境下,对上述流行分词软件和THULAC进行了测试,使用的模型为各分词软件自带模型。THULAC使用的是随软件提供的简单模型Model_1。评测环境为 Intel Core i5 2.4 GHz 评测结果如下:

python 分词器比较相关推荐

  1. python分词器_python实现TriedTree分词器

    开始写专栏了-- 通过前缀字典树的方式实现添加节点,提取关键词并打标,可以处理部分分词任务,关键词提取任务,应用在搜索场景和文本信息抽取场景. 在专业性较强的文本关键词检测中有比较好的表现,但是在通用 ...

  2. elasticsearch教程--中文分词器作用和使用

    概述   本文都是基于elasticsearch安装教程 中的elasticsearch安装目录(/opt/environment/elasticsearch-6.4.0)为范例 环境准备 ·全新最小 ...

  3. ansj分词器的简单了解介绍

    java分词器 这两天一没啥事儿的时候就喜欢更新一下博客,养成个写博客的习惯其实也挺好,积少成多,量变引起质变,古人云:不积跬步无以至千里嘛 今天写写分词器,关于ansj分词器的一些小老弟的浅薄认识, ...

  4. python连接es_Elasticsearch --- 3. ik中文分词器, python操作es

    一.IK中文分词器 1.下载安装 2.测试 #显示结果 {"tokens": [ {"token" : "上海","start_o ...

  5. r与python自然语言处理_Python自然语言处理实践: 在NLTK中使用斯坦福中文分词器 | 我爱自然语言处理...

    斯坦福大学自然语言处理组是世界知名的NLP研究小组,他们提供了一系列开源的Java文本分析工具,包括分词器(Word Segmenter),词性标注工具(Part-Of-Speech Tagger), ...

  6. python统计词频瓦尔登湖_自然语言处理之中文分词器-jieba分词器详解及python实战...

    (转https://blog.csdn.net/gzmfxy/article/details/78994396) 中文分词是中文文本处理的一个基础步骤,也是中文人机自然语言交互的基础模块,在进行中文自 ...

  7. 基于Python的中英文分词基础:正则表达式和jieba分词器

    基于Python的中英文分词基础:正则表达式和jieba分词器 前言介绍 英文字符串处理 Python中的str 正则表达式 Python中的正则表达式模块 re 小练习 字符串中出现频次最多的字母 ...

  8. python中文分词器-jieba分词器详解及wordcloud词云生成

    jieba分词 jieba分词支持三种分词模式: 精确模式, 试图将句子最精确地切开,适合文本分析 全模式,把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义 搜索引擎模式,在精确模 ...

  9. python函数——Keras分词器Tokenizer

    文章目录 0. 前言 1. 语法 1.1 构造参数 1.2 返回值 1.3 类方法 1.4 属性 2. 简单示例 3. 常用示例 python函数 系列目录:python函数--目录 0. 前言 To ...

  10. 自制基于HMM的python中文分词器

    不像英文那样单词之间有空格作为天然的分界线, 中文词语之间没有明显界限.必须采用一些方法将中文语句划分为单词序列才能进一步处理, 这一划分步骤即是所谓的中文分词. 主流中文分词方法包括基于规则的分词, ...

最新文章

  1. 松下电视机服务器未响应,松下电视遥控器失灵是什么原因?要怎么办?
  2. jsx怎么往js里传参数_Angular、React 当前,Vue.js 优劣几何?
  3. 一加8系列获得认证:骁龙865加持 离上市又近一步
  4. Weka算法Classifier-meta-AdaBoostM1源代码分析(一)
  5. python基础之小数据池,is和==区别 编码问题
  6. 61. 创建快速响应的Web应用
  7. python 网络音乐播放器(二):tkinter 实现歌词同步滚动
  8. 60、弱电网络管理入门与基础技术
  9. 使用RF测试时,如何自动关闭浏览器驱动进程
  10. Git submodule使用指南(二)
  11. 在不被限制的前提下,企业微信一天加多少好友(主动+被动)
  12. 说点牛逼的“愿景,使命,目标,战略”
  13. Fragment跳转
  14. [09-Dec-2012] 《少年pi的奇幻之旅》 -推荐
  15. pytest测试框架学习笔记
  16. linux之getcwd函数解析,Linux 中C语言getcwd()函数的用法
  17. 【致青春】致我终将逝去的22年的青春
  18. 23种设计模式——备忘录模式
  19. 互联网日报 |《王者荣耀》日活用户平均1亿;四部门联合约谈蚂蚁集团有关人员;“百度云手机”旗舰版发布...
  20. 股票量化指标库:stockstats

热门文章

  1. 电脑重启命令c语言,命令提示符重启电脑_命令提示符 重启
  2. TCP 和 UDP 区别及使用场景(详细)
  3. 增量式解析大型XML文件
  4. 【iTools】Xshell使用教程
  5. 系统试运行报告是谁写的_“项目总结报告”如何写?5个方向16个关键要素:总结很全面...
  6. 会议会展活动管理软件可实现哪些功能
  7. UCGUI动态内存分析
  8. 广州的11个辖区_13张地形图,快速了解广东省广州市的11个市辖区
  9. 林軒田《机器学习基石》课程总结
  10. PL/SQL基础入门,史上最全的教程