分词工具

作者 | fendouai

分词服务接口列表

二.准确率评测:

THULAC:与代表性分词软件的性能对比

我们选择LTP-3.2.0 、ICTCLAS(2015版) 、jieba(C++版)等国内具代表性的分词软件与THULAC做性能比较。我们选择windows作为测试环境,根据第二届国际汉语分词测评(The SecondInternational Chinese word segmentation Bakeoff)发布的国际中文分词测评标准,对不同软件进行了速度和准确率测试。

在第二届国际汉语分词测评中,共有四家单位提供的测试语料(Academia Sinica、 City University 、Peking University 、MicrosoftResearch), 在评测提供的资源icwb2-data中包含了来自这四家单位的训练集(training)、测试集(testing), 以及根据各自分词标准而提供的相应测试集的标准答案(icwb2-data/scripts/gold).在icwb2-data/scripts目录下含有对分词进行自动评分的perl脚本score。

我们在统一测试环境下,对上述流行分词软件和THULAC进行了测试,使用的模型为各分词软件自带模型。THULAC使用的是随软件提供的简单模型Model_1。评测环境为 Intel Core i5 2.4 GHz 评测结果如下:

评测结果1

除了以上在标准测试集上的评测,我们也对各个分词工具在大数据上的速度进行了评测,结果如下:

CNKI_journal.txt(51 MB)

评测结果2

分词数据准备及评测由BosonNLP完成:11 款开放中文分词引擎大比拼(2015年发布)

分词的客观量化测试离不开标注数据,即人工所准备的分词“标准答案”。在数据源方面,我们将测试分为: 1.新闻数据:140篇,共30517词语; 2.微博数据:200篇,共12962词语; 3.汽车论坛数据(汽车之家)100篇:共27452词语; 4.餐饮点评数据(大众点评):100条,共8295词语。

准确度计算规则:

将所有标点符号去除,不做比较

参与测试的部分系统进行了实体识别,可能造成词语认定的不统一。我们将对应位置替换成了人工标注的结果,得到准确率估算的上界。

经过以上处理,用SIGHAN 分词评分脚本比较得到最终的准确率,召回率和F1值。

以上所有数据采用北大现代汉语基本加工规范对所有数据进行分词作为标准。具体数据下载地址请参见附录。通过这四类数据综合对比不同分词系统的分词准确度。

不同分词系统的分词准确度对比

三.付费价格:

阿里云:

阿里云付费价格

腾讯云:

腾讯云付费价格

玻森中文

免费额度:

玻森中文免费额度

付费价格:

玻森中文付费价格

四.官网

开源工具

HanLP:

https://github.com/hankcs/HanLP

结巴分词:

https://github.com/fxsjy/jieba

盘古分词:

http://pangusegment.codeplex.com/

https://code.Google.com/p/paoding/

SCWS中文分词:

http://www.xunsearch.com/scws/docs.php

高校工具

FudanNLP:

https://github.com/FudanNLP/fnlp

LTP:

http://www.ltp-cloud.com/document

THULAC:

http://thulac.thunlp.org/

NLPIR:

http://ictclas.nlpir.org/docs

商业服务

BosonNLP:

http://bosonnlp.com/dev/center

百度NLP:

https://cloud.baidu.com/doc/NLP/NLP-API.html

搜狗分词:

http://www.sogou.com/labs/webservice/

腾讯文智:

https://cloud.tencent.com/document/product/271/2071

腾讯价格单:

https://cloud.tencent.com/document/product/271/1140

阿里云NLP:

https://data.aliyun.com/product/nlp

新浪云:

http://www.sinacloud.com/doc/sae/Python/segment.html

测试数据集

1、SIGHANBakeoff 2005 MSR, 560KB

http://sighan.cs.uchicago.edu/bakeoff2005/

2、SIGHANBakeoff 2005 PKU, 510KB

http://sighan.cs.uchicago.edu/bakeoff2005/

3、人民日报 2014,65MB

https://pan.baidu.com/s/1hq3KKXe

前两个数据集是SIGHAN于2005年组织的中文分词比赛所用的数据集,也是学术界测试分词工具的标准数据集,本文用于测试各大分词工具的准确性,而最后一个数据集规模较大,用于测试分词速度。

磐创AI:http://www.panchuangai.com/

TensorFlowNews:http://www.tensorflownews.com/

相关阅读

说明

此项目需要的数据:

综合类中文词库.xlsx: 包含了中文词,当做词典来用

以变量的方式提供了部分unigram概率 word_prob

举个例子

1.ansj_seg

github地址:https://github.com/NLPchina/ansj_seg

文档地址:http://nlpchina.github.io/ansj_seg/

分词速度快,目前实现

python 分词工具_「分词工具」干货 | 史上最全中文分词工具整理 - seo实验室相关推荐

  1. 干货 | 史上最全中文分词工具整理

    作者 | fendouai 一.中文分词 分词服务接口列表 二.准确率评测: THULAC:与代表性分词软件的性能对比 我们选择LTP-3.2.0 .ICTCLAS(2015版) .jieba(C++ ...

  2. 华硕笔记本k555拆机图解_「华硕k401n」华硕K401笔记本电脑拆机清灰步骤详解 - seo实验室...

    华硕k401n 笔记本电脑长时间使用后存在大量灰尘,造成风扇噪音大,cpu温度高,影响计算机工作性能,威胁硬件安全.因此需要及时清灰.下面为大家分享华硕K401笔记本电脑拆机清灰步骤,有需要的朋友快快 ...

  3. mysql insert 嵌套_「insert语句」数据库插入insert语句中添加嵌套查询select - seo实验室...

    insert语句 示例: insert into mytable(X,Y,Z) Values((SELECT X from basetable WHERE ID = 8),(SELECT Y from ...

  4. java unix 时间戳_「unix时间戳」Unix时间戳和Java中的时间戳的区别 - seo实验室

    unix时间戳 前言 最近在使用阿里的日志服务时,遇到了一些Timestamp的坑,所以特意做了了解并整理了一下.在这之前首先得介绍一下Unix时间戳:unix时间戳是从1970年1月1日(UTC/G ...

  5. android dts配置_「7.1」[RK3399][Android7.1] 移植笔记 --- 音频Codec RT5640添加 - seo实验室...

    7.1 Platform: RK3399 Kernel: v4.4.83 原理图: 数据走I2S1通道 控制走I2C1通道 输出走HPOUTL/HPOUTR 改动: DTS配置: //Kris,180 ...

  6. jq select 修改选中_「jquery select」jquery操作select(取值,设置选中) - seo实验室

    jquery select 最近工作中总出现select 和 option问题,整理一下,内容大部分源于网络资料 一.基础取值问题 例如 1.设置value为pxx的项选中 $(".sele ...

  7. 值得收藏!史上最全WINDOWS安全工具锦集

    "工欲善其事,必先利其器." 近日,深信服安全团队整理了一些常见的PE工具.调试反汇编工具.应急工具.流量分析工具和WebShell查杀工具,希望可以帮助到一些安全行业的初学者. ...

  8. 你可能不知道的——史上最全Windows安全工具锦集

    史上最全Windows安全工具锦集 "工欲善其事,必先利其器." 近日,深信服安全团队整理了一些常见的PE工具.调试反汇编工具.应急工具.流量分析工具和WebShell查杀工具,希 ...

  9. mac mongodb可视化工具_「时序数据库」和MongoDB:第3部分-查询、分析和呈现

    在<时间序列数据和MongoDB:第1部分-简介>中,我们回顾了理解数据库的查询访问模式需要询问的关键问题.在<时间序列数据和MongoDB:第2部分-模式设计最佳实践>中,我 ...

最新文章

  1. sql server 2014预览版发布
  2. mysql mac客户端: sequel,mysql-workbench
  3. 电脑主板线路连接图解_电工速学手册:306页现场电工全能图解,实用技术精选大合集!...
  4. Oracle安装错误“程序异常终止
  5. matlab求adc信号的信噪比,关于ADC的信噪比 - pengyouxiaohui的日志 - EETOP 创芯网论坛 (原名:电子顶级开发网) -...
  6. 绘制机械图c语言编程,求用C语言绘制机械三视图程序?
  7. 对VMware自动安装linux系统说“不”!
  8. php warning: array_merge(),php数组合并array_merge()函数使用注意事项_php技巧
  9. UVA11988 Broken Keyboard (a.k.a. Beiju Text)【输入输出+水题】
  10. android alertdialog 自定义时间,Android自定义dialog可选择展示年月日时间选择栏
  11. 阿里云 短信 sdk 导致strtotime时间戳转换错误 相差8小时
  12. XShell 6和Xftp6
  13. PREEvision软件-汽车电子电气架构的开发工具
  14. 2FSK频谱matlab,数字调制系统在Matlab下的分析
  15. Flixel横板游戏制作教程(十一)—JetPack(飞行背包)
  16. 编写一个求和函数sum,用于计算 1+2+…+n ,在主函数调用该函数求和。
  17. Containerd镜像lazy-pulling「详细解读 」
  18. html中加大字体,html字体加大标签与写法介绍
  19. 【测绘程序设计试题集】 试题04 最短路径计算
  20. java中的NIO,BIO,AIO

热门文章

  1. 使用组策略添加删除本地用户和组的成员
  2. 杨彦兵博士|相机光通信简介
  3. poll和select
  4. 墨卡托投影与瓦片地图
  5. linux kill常用命令
  6. 计算机病毒检测外文文献,外文文献翻译 计算机网络病毒与防范.doc
  7. 25个有趣实用的Python单行代码
  8. 一篇杂乱无章的中职教资面试备考学习笔记(计算机应用)
  9. 用Python实现在微信头像右上角加上红底白字的数字,类似于微信未读信息数量那种提示效果
  10. java 灰度发布_灰度发布的原理及实现