准确率创新高,北大开源中文分词工具包 pkuseg
北京大学近日开源了一个全新的中文分词工具包 pkuseg ,相比于现有的同类开源工具,pkuseg 大幅提高了分词的准确率。
pkuseg 由北大语言计算与机器学习研究组研制推出,具备如下特性:
高分词准确率。相比于其他的分词工具包,pkuseg 在不同领域的数据上都大幅提高了分词的准确度。根据项目文档给出的测试结果,pkuseg 分别在示例数据集( MSRA 和 CTB8 )上降低了 79.33% 和 63.67% 的分词错误率。
多领域分词。研究组训练了多种不同领域的分词模型。根据待分词的领域特点,用户可以自由地选择不同的模型。
支持用户自训练模型。支持用户使用全新的标注数据进行训练。
性能对比
在 Linux 环境下,各工具在新闻数据 (MSRA) 和混合型文本 (CTB8) 数据上的准确率测试情况如下:
预训练模型
分词模式下,用户需要加载预训练好的模型。我们提供了三种在不同类型数据上训练得到的模型,根据具体需要,用户可以选择不同的预训练模型。以下是对预训练模型的说明:
MSRA : 在 MSRA(新闻语料)上训练的模型。新版本代码采用的是此模型。下载地址
CTB8 : 在 CTB8(新闻文本及网络文本的混合型语料)上训练的模型。下载地址
WEIBO : 在微博(网络文本语料)上训练的模型。下载地址
更多详情可查阅项目仓库。
原文地址:https://www.oschina.net/news/103470/pkuseg-open-sourced
准确率创新高,北大开源中文分词工具包 pkuseg相关推荐
- 北大开源了 Python 中文分词工具包,准确度远超 Jieba
关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 转载自量子位 "土地,快告诉俺老孙,俺的金箍棒在哪?" &qu ...
- 北大开源了中文分词工具包,准确度远超Jieba,提供三个预训练模型
车栗子 发自 凹非寺 量子位 报道 | 公众号 QbitAI "土地,快告诉俺老孙,俺的金箍棒在哪?" "大圣,您的金箍,棒就棒在特别适合您的发型." 中文分词 ...
- 北大分词工具包 -- pkuseg
美图欣赏: 一.pkuseg介绍 一个多领域中文分词工具包 其简单易用,支持细分领域分词,有效提升了分词准确度. pkuseg具有如下几个特点: 多领域分词.不同于以往的通用中文分词工具,此工具包同时 ...
- 常用的开源中文分词工具
转载自: http://www.scholat.com/vpost.html?pid=4477 常用的开源中文分词工具 由于中文文本词与词之间没有像英文那样有空格分隔,因此很多时候中文文本操作都涉及 ...
- 11大Java开源中文分词器的使用方法和分词效果对比,当前几个主要的Lucene中文分词器的比较...
本文的目标有两个: 1.学会使用11大Java开源中文分词器 2.对比分析11大Java开源中文分词器的分词效果 本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码,至于效果哪个好,那 ...
- Java 开源中文分词器Ansj 学习教程
Java有11大开源中文分词器,分别是word分词器,Ansj分词器,Stanford分词器,FudanNLP分词器,Jieba分词器,Jcseg分词器,MMSeg4j分词器,IKAnalyzer分词 ...
- IKAnalyzer - 开源中文分词器
https://code.google.com/archive/p/ik-analyzer/ 源项目作者 linliangyi2007@gmail.com 已不再维护,个人可以fork项目进行修改,g ...
- JAVA开源中文分词器Ansj(依赖注入+调用方式+停词器)
Java有11大开源中文分词器,分别是word分词器,Ansj分词器,Stanford分词器,FudanNLP分词器,Jieba分词器,Jcseg分词器,MMSeg4j分词器,IKAnalyzer分词 ...
- 11大Java开源中文分词器的使用方法和分词效果对比
2019独角兽企业重金招聘Python工程师标准>>> 本文的目标有两个: 1.学会使用11大Java开源中文分词器 2.对比分析11大Java开源中文分词器的分词效果 本文给出了1 ...
最新文章
- Disruptor技术调研之配置参数一览
- Linux系统的常用命令的使用
- 《疯狂Java讲义》11
- [转载] Java线程池框架源码分析
- SAP Fiori My task里complete checkbox的处理
- python 定时自动爬取_python实现scrapy爬虫每天定时抓取数据的示例代码
- 面试官:为什么 Spring Boot 的 jar 可以直接运行
- 秒杀场景_Sentinel在秒杀场景的应用_05
- bootstrap的三角方向符号实现
- xfce4快捷键设置
- 主流的虚拟化软件和他们各自的特点
- Synaptics 蠕虫病毒
- 开关switch系列:android Switch显示文字
- Vim/Neovim ALE system verilog使用xvlog时出现“ ‘logic‘ is uan unknown type “ 等
- 【生活】教你有效戒糖
- 文献:利用自驱动分子马达并行计算子集和问题 Parallel computation with molecular-motor-propelled agents...(PNAS)
- 降噪蓝牙耳机推荐什么牌子好?入耳式降噪蓝牙耳机推荐
- Android手机目前常见的分辨率
- “番茄”让时间变成我们的朋友
- 双语web阅读器+书城设计与实现
热门文章
- 华为手机锁屏下拉怎么设置_华为手机怎么设置锁屏
- 设计灵感|拼贴风格海报设计,优秀案例让你它好看在哪里?
- APP设计没有灵感?让那些小众但富有创意的页面告诉你!
- 近10000灵感配色方案专辑作品,够你用好几年了!
- 只有1kb的清理软件_安卓手机总空间不足?试试这6个清理方法,瞬间多出几个G!...
- beast php,windows php-beast 安装
- python 去掉tab_Python使用crontab模块设置和清除定时任务操作详解
- Bottlerocket:一套专用型容器操作系统
- 51单片机18B20测温1602LCD显示
- java图片上传并解析,详解SpringMVC实现图片上传以及该注意的小细节