车栗子发自凹非寺
量子位报道 | 公众号 QbitAI

“土地，快告诉俺老孙，俺的金箍棒在哪？”

“大圣，您的金箍，棒就棒在特别适合您的发型。”

中文分词，是一门高深莫测的技术。不论对于人类，还是对于AI。

最近，北大开源了一个中文分词工具包，名为PKUSeg，基于Python。

工具包的分词准确率，远远超过THULAC和结巴分词这两位重要选手。

△ 我们 [中出] 了个叛徒

除此之外，PKUSeg支持多领域分词，也支持用全新的标注数据来训练模型。

准确度对比

这次比赛，PKUSeg的对手有两位：

一位是来自清华的THULAC，一位是要“做最好的中文分词组件”的结巴分词。它们都是目前主流的分词工具。

测试环境是Linux，测试数据集是MSRA (新闻数据) 和CTB8 (混合型文本) 。

结果如下：

比赛用的评判标准，是第二届国际汉语分词评测比赛提供的分词评价脚本。

在F分数和错误率两项指标上，PKUSeg都明显优于另外两位对手。

食用方法

预训练模型

PKUSeg提供了三个预训练模型，分别是在不同类型的数据集上训练的。

一是用MSRA (新闻语料) 训练出的模型：
https://pan.baidu.com/s/1twci0QVBeWXUg06dK47tiA

二是用CTB8 (新闻文本及网络文本的混合型语料) 训练出的模型：
https://pan.baidu.com/s/1DCjDOxB0HD2NmP9w1jm8MA

三是在微博 (网络文本语料) 上训练的模型：
https://pan.baidu.com/s/1QHoK2ahpZnNmX6X7Y9iCgQ

△ 微博语料举栗

大家可以按照自己的需要，选择加载不同的模型。

除此之外，也可以用全新的标注数据，来训练新的模型。

代码示例

1代码示例1        使用默认模型及默认词典分词
2import pkuseg
3seg = pkuseg.pkuseg()                #以默认配置加载模型
4text = seg.cut('我爱北京天安门')    #进行分词
5print(text)

1代码示例2        设置用户自定义词典
2import pkuseg
3lexicon = ['北京大学', '北京天安门']    #希望分词时用户词典中的词固定不分开
4seg = pkuseg.pkuseg(user_dict=lexicon)    #加载模型，给定用户词典
5text = seg.cut('我爱北京天安门')        #进行分词
6print(text)

1代码示例32import pkuseg3seg = pkuseg.pkuseg(model_name='./ctb8')    #假设用户已经下载好了ctb8的模型并放在了'./ctb8'目录下，通过设置model_name加载该模型4text = seg.cut('我爱北京天安门')            #进行分词5print(text)

如果想自己训练一个新模型的话：

1代码示例52import pkuseg3pkuseg.train('msr_training.utf8', 'msr_test_gold.utf8', './models', nthread=20)    #训练文件为'msr_training.utf8'，测试文件为'msr_test_gold.utf8'，模型存到'./models'目录下，开20个进程训练模型

欲知更详细的用法，可前往文底传送门。

快去试一下

PKUSeg的作者有三位，Ruixuan Luo (罗睿轩)，Jingjing Xu (许晶晶) ，以及Xu Sun (孙栩) 。

工具包的诞生，也是基于其中两位参与的ACL论文。

准确率又那么高，还不去试试？

GitHub传送门：
https://github.com/lancopku/PKUSeg-python

论文传送门：

http://www.aclweb.org/anthology/P12-1027

http://aclweb.org/anthology/P16-2092

— 完 —

加入社群

量子位AI社群开始招募啦，欢迎对AI感兴趣的同学，在量子位公众号（QbitAI）对话界面回复关键字“交流群”，获取入群方式；

此外，量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募，面向正在从事相关领域的工程师及研究人员。

进专业群请在量子位公众号（QbitAI）对话界面回复关键字“专业群”，获取入群方式。（专业群审核较严，敬请谅解）

诚挚招聘

量子位正在招募编辑/记者，工作地点在北京中关村。期待有才气、有热情的同学加入我们！相关细节，请在量子位公众号(QbitAI)对话界面，回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

喜欢就点「好看」吧 !

北大开源了中文分词工具包，准确度远超Jieba，提供三个预训练模型相关推荐

北大开源了 Python 中文分词工具包，准确度远超 Jieba
关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 转载自量子位 "土地,快告诉俺老孙,俺的金箍棒在哪?" &qu ...
北大开源分词工具包: 准确率远超THULAC、jieba 分词
pkuseg 的优势 pkuseg 是由北京大学语言计算与机器学习研究组研制推出的一套全新的中文分词工具包.pkuseg 具有如下几个特点: 多领域分词.相比于其他的中文分词工具包,此工具包同时致力于 ...
准确率创新高，北大开源中文分词工具包 pkuseg
北京大学近日开源了一个全新的中文分词工具包 pkuseg ,相比于现有的同类开源工具,pkuseg 大幅提高了分词的准确率. pkuseg 由北大语言计算与机器学习研究组研制推出,具备如下特性: 高分 ...
pkuseg：一个多领域中文分词工具包
pkuseg简单易用,支持细分领域分词,有效提升了分词准确度. 目录主要亮点编译和安装各类分词工具包的性能对比使用方式相关论文作者常见问题及解答主要亮点 pkuseg具有如下几个特点: ...
几款开源的中文分词系统
以下介绍4款开源中文分词系统 python环境下,jieba也不错,实现词性分词性能据说不错. 1.ICTCLAS – 全球最受欢迎的汉语分词系统中文词法分析是中文信息处理的基础与关键.中国科学院计 ...
开源 Java 中文分词器 Ansj 作者孙健专访
Ansj 是一个开源的 Java 中文分词工具,基于中科院的 ictclas 中文分词算法,比其他常用的开源分词工具(如mmseg4j)的分词准确率更高. 在线演示: http://ansj.sdap ...
wordpress php 中文分词开源,WordPress中文分词与智能搜索
问题 WordPress的搜索功能非常简陋,如果用户搜索"日语综合教程+第六册",WordPress会机械地构造一个wp_posts.post_title LIKE '%日语综合教 ...
【NLP】pkuseg：一个多领域中文分词工具包
python中文分词-如何下载并安装jieba包
import jieba 显示ModuleNotFoundError: No module named 'jieba'的错误,怎么解决? jieba包是第三方库,需要自己去下载安装离线下载jieba ...

北大开源了中文分词工具包，准确度远超Jieba，提供三个预训练模型

车栗子发自凹非寺
量子位报道 | 公众号 QbitAI

△ 我们 [中出] 了个叛徒

准确度对比

食用方法

预训练模型

△ 微博语料举栗

代码示例

快去试一下

北大开源了中文分词工具包，准确度远超Jieba，提供三个预训练模型相关推荐

最新文章

热门文章

北大开源了中文分词工具包，准确度远超Jieba，提供三个预训练模型

车栗子 发自 凹非寺 量子位 报道 | 公众号 QbitAI

△ 我们 [中出] 了个叛徒

准确度对比

食用方法

预训练模型

△ 微博语料举栗

代码示例

快去试一下

北大开源了中文分词工具包，准确度远超Jieba，提供三个预训练模型相关推荐

最新文章

热门文章

车栗子发自凹非寺
量子位报道 | 公众号 QbitAI