北京大学近日开源了一个全新的中文分词工具包 pkuseg ,相比于现有的同类开源工具,pkuseg 大幅提高了分词的准确率。

pkuseg 由北大语言计算与机器学习研究组研制推出,具备如下特性:

  1. 高分词准确率。相比于其他的分词工具包,pkuseg 在不同领域的数据上都大幅提高了分词的准确度。根据项目文档给出的测试结果,pkuseg 分别在示例数据集( MSRA 和 CTB8 )上降低了 79.33% 和 63.67% 的分词错误率。

  2. 多领域分词。研究组训练了多种不同领域的分词模型。根据待分词的领域特点,用户可以自由地选择不同的模型。

  3. 支持用户自训练模型。支持用户使用全新的标注数据进行训练。

性能对比

在 Linux 环境下,各工具在新闻数据 (MSRA) 和混合型文本 (CTB8) 数据上的准确率测试情况如下:

预训练模型

分词模式下,用户需要加载预训练好的模型。我们提供了三种在不同类型数据上训练得到的模型,根据具体需要,用户可以选择不同的预训练模型。以下是对预训练模型的说明:

MSRA : 在 MSRA(新闻语料)上训练的模型。新版本代码采用的是此模型。下载地址

CTB8 : 在 CTB8(新闻文本及网络文本的混合型语料)上训练的模型。下载地址

WEIBO : 在微博(网络文本语料)上训练的模型。下载地址

更多详情可查阅项目仓库。

原文地址:https://www.oschina.net/news/103470/pkuseg-open-sourced

准确率创新高,北大开源中文分词工具包 pkuseg相关推荐

  1. 北大开源了 Python 中文分词工具包,准确度远超 Jieba

    关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 转载自量子位 "土地,快告诉俺老孙,俺的金箍棒在哪?" &qu ...

  2. 北大开源了中文分词工具包,准确度远超Jieba,提供三个预训练模型

    车栗子 发自 凹非寺 量子位 报道 | 公众号 QbitAI "土地,快告诉俺老孙,俺的金箍棒在哪?" "大圣,您的金箍,棒就棒在特别适合您的发型." 中文分词 ...

  3. 北大分词工具包 -- pkuseg

    美图欣赏: 一.pkuseg介绍 一个多领域中文分词工具包 其简单易用,支持细分领域分词,有效提升了分词准确度. pkuseg具有如下几个特点: 多领域分词.不同于以往的通用中文分词工具,此工具包同时 ...

  4. 常用的开源中文分词工具

    转载自:  http://www.scholat.com/vpost.html?pid=4477 常用的开源中文分词工具 由于中文文本词与词之间没有像英文那样有空格分隔,因此很多时候中文文本操作都涉及 ...

  5. 11大Java开源中文分词器的使用方法和分词效果对比,当前几个主要的Lucene中文分词器的比较...

    本文的目标有两个: 1.学会使用11大Java开源中文分词器 2.对比分析11大Java开源中文分词器的分词效果 本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码,至于效果哪个好,那 ...

  6. Java 开源中文分词器Ansj 学习教程

    Java有11大开源中文分词器,分别是word分词器,Ansj分词器,Stanford分词器,FudanNLP分词器,Jieba分词器,Jcseg分词器,MMSeg4j分词器,IKAnalyzer分词 ...

  7. IKAnalyzer - 开源中文分词器

    https://code.google.com/archive/p/ik-analyzer/ 源项目作者 linliangyi2007@gmail.com 已不再维护,个人可以fork项目进行修改,g ...

  8. JAVA开源中文分词器Ansj(依赖注入+调用方式+停词器)

    Java有11大开源中文分词器,分别是word分词器,Ansj分词器,Stanford分词器,FudanNLP分词器,Jieba分词器,Jcseg分词器,MMSeg4j分词器,IKAnalyzer分词 ...

  9. 11大Java开源中文分词器的使用方法和分词效果对比

    2019独角兽企业重金招聘Python工程师标准>>> 本文的目标有两个: 1.学会使用11大Java开源中文分词器 2.对比分析11大Java开源中文分词器的分词效果 本文给出了1 ...

最新文章

  1. Disruptor技术调研之配置参数一览
  2. Linux系统的常用命令的使用
  3. 《疯狂Java讲义》11
  4. [转载] Java线程池框架源码分析
  5. SAP Fiori My task里complete checkbox的处理
  6. python 定时自动爬取_python实现scrapy爬虫每天定时抓取数据的示例代码
  7. 面试官:为什么 Spring Boot 的 jar 可以直接运行
  8. 秒杀场景_Sentinel在秒杀场景的应用_05
  9. bootstrap的三角方向符号实现
  10. xfce4快捷键设置
  11. 主流的虚拟化软件和他们各自的特点
  12. Synaptics 蠕虫病毒
  13. 开关switch系列:android Switch显示文字
  14. Vim/Neovim ALE system verilog使用xvlog时出现“ ‘logic‘ is uan unknown type “ 等
  15. 【生活】教你有效戒糖
  16. 文献:利用自驱动分子马达并行计算子集和问题 Parallel computation with molecular-motor-propelled agents...(PNAS)
  17. 降噪蓝牙耳机推荐什么牌子好?入耳式降噪蓝牙耳机推荐
  18. Android手机目前常见的分辨率
  19. “番茄”让时间变成我们的朋友
  20. 双语web阅读器+书城设计与实现

热门文章

  1. 华为手机锁屏下拉怎么设置_华为手机怎么设置锁屏
  2. 设计灵感|拼贴风格海报设计,优秀案例让你它好看在哪里?
  3. APP设计没有灵感?让那些小众但富有创意的页面告诉你!
  4. 近10000灵感配色方案专辑作品,够你用好几年了!
  5. 只有1kb的清理软件_安卓手机总空间不足?试试这6个清理方法,瞬间多出几个G!...
  6. beast php,windows php-beast 安装
  7. python 去掉tab_Python使用crontab模块设置和清除定时任务操作详解
  8. Bottlerocket:一套专用型容器操作系统
  9. 51单片机18B20测温1602LCD显示
  10. java图片上传并解析,详解SpringMVC实现图片上传以及该注意的小细节