北大开源了中文分词工具包,准确度远超Jieba,提供三个预训练模型
车栗子 发自 凹非寺
量子位 报道 | 公众号 QbitAI
“土地,快告诉俺老孙,俺的金箍棒在哪?”
“大圣,您的金箍,棒就棒在特别适合您的发型。”
中文分词,是一门高深莫测的技术。不论对于人类,还是对于AI。
最近,北大开源了一个中文分词工具包,名为PKUSeg,基于Python。
工具包的分词准确率,远远超过THULAC和结巴分词这两位重要选手。
△ 我们 [中出] 了个叛徒
除此之外,PKUSeg支持多领域分词,也支持用全新的标注数据来训练模型。
准确度对比
这次比赛,PKUSeg的对手有两位:
一位是来自清华的THULAC,一位是要“做最好的中文分词组件”的结巴分词。它们都是目前主流的分词工具。
测试环境是Linux,测试数据集是MSRA (新闻数据) 和CTB8 (混合型文本) 。
结果如下:
比赛用的评判标准,是第二届国际汉语分词评测比赛提供的分词评价脚本。
在F分数和错误率两项指标上,PKUSeg都明显优于另外两位对手。
食用方法
预训练模型
PKUSeg提供了三个预训练模型,分别是在不同类型的数据集上训练的。
一是用MSRA (新闻语料) 训练出的模型:
https://pan.baidu.com/s/1twci0QVBeWXUg06dK47tiA二是用CTB8 (新闻文本及网络文本的混合型语料) 训练出的模型:
https://pan.baidu.com/s/1DCjDOxB0HD2NmP9w1jm8MA三是在微博 (网络文本语料) 上训练的模型:
https://pan.baidu.com/s/1QHoK2ahpZnNmX6X7Y9iCgQ
△ 微博语料举栗
大家可以按照自己的需要,选择加载不同的模型。
除此之外,也可以用全新的标注数据,来训练新的模型。
代码示例
1代码示例1 使用默认模型及默认词典分词
2import pkuseg
3seg = pkuseg.pkuseg() #以默认配置加载模型
4text = seg.cut('我爱北京天安门') #进行分词
5print(text)
1代码示例2 设置用户自定义词典
2import pkuseg
3lexicon = ['北京大学', '北京天安门'] #希望分词时用户词典中的词固定不分开
4seg = pkuseg.pkuseg(user_dict=lexicon) #加载模型,给定用户词典
5text = seg.cut('我爱北京天安门') #进行分词
6print(text)
1代码示例32import pkuseg3seg = pkuseg.pkuseg(model_name='./ctb8') #假设用户已经下载好了ctb8的模型并放在了'./ctb8'目录下,通过设置model_name加载该模型4text = seg.cut('我爱北京天安门') #进行分词5print(text)
如果想自己训练一个新模型的话:
1代码示例52import pkuseg3pkuseg.train('msr_training.utf8', 'msr_test_gold.utf8', './models', nthread=20) #训练文件为'msr_training.utf8',测试文件为'msr_test_gold.utf8',模型存到'./models'目录下,开20个进程训练模型
欲知更详细的用法,可前往文底传送门。
快去试一下
PKUSeg的作者有三位,Ruixuan Luo (罗睿轩),Jingjing Xu (许晶晶) ,以及Xu Sun (孙栩) 。
工具包的诞生,也是基于其中两位参与的ACL论文。
准确率又那么高,还不去试试?
GitHub传送门:
https://github.com/lancopku/PKUSeg-python
论文传送门:
http://www.aclweb.org/anthology/P12-1027
http://aclweb.org/anthology/P16-2092
— 完 —
加入社群
量子位AI社群开始招募啦,欢迎对AI感兴趣的同学,在量子位公众号(QbitAI)对话界面回复关键字“交流群”,获取入群方式;
此外,量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募,面向正在从事相关领域的工程师及研究人员。
进专业群请在量子位公众号(QbitAI)对话界面回复关键字“专业群”,获取入群方式。(专业群审核较严,敬请谅解)
诚挚招聘
量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。
量子位 QbitAI · 头条号签约作者
վ'ᴗ' ի 追踪AI技术和产品新动态
喜欢就点「好看」吧 !
北大开源了中文分词工具包,准确度远超Jieba,提供三个预训练模型相关推荐
- 北大开源了 Python 中文分词工具包,准确度远超 Jieba
关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 转载自量子位 "土地,快告诉俺老孙,俺的金箍棒在哪?" &qu ...
- 北大开源分词工具包: 准确率远超THULAC、jieba 分词
pkuseg 的优势 pkuseg 是由北京大学语言计算与机器学习研究组研制推出的一套全新的中文分词工具包.pkuseg 具有如下几个特点: 多领域分词.相比于其他的中文分词工具包,此工具包同时致力于 ...
- 准确率创新高,北大开源中文分词工具包 pkuseg
北京大学近日开源了一个全新的中文分词工具包 pkuseg ,相比于现有的同类开源工具,pkuseg 大幅提高了分词的准确率. pkuseg 由北大语言计算与机器学习研究组研制推出,具备如下特性: 高分 ...
- pkuseg:一个多领域中文分词工具包
pkuseg简单易用,支持细分领域分词,有效提升了分词准确度. 目录 主要亮点 编译和安装 各类分词工具包的性能对比 使用方式 相关论文 作者 常见问题及解答 主要亮点 pkuseg具有如下几个特点: ...
- 几款开源的中文分词系统
以下介绍4款开源中文分词系统 python环境下,jieba也不错,实现词性分词性能据说不错. 1.ICTCLAS – 全球最受欢迎的汉语分词系统 中文词法分析是中文信息处理的基础与关键.中国科学院计 ...
- 开源 Java 中文分词器 Ansj 作者孙健专访
Ansj 是一个开源的 Java 中文分词工具,基于中科院的 ictclas 中文分词算法,比其他常用的开源分词工具(如mmseg4j)的分词准确率更高. 在线演示: http://ansj.sdap ...
- wordpress php 中文分词 开源,WordPress中文分词与智能搜索
问题 WordPress的搜索功能非常简陋,如果用户搜索"日语综合教程+第六册",WordPress会机械地构造一个wp_posts.post_title LIKE '%日语综合教 ...
- 【NLP】pkuseg:一个多领域中文分词工具包
- python中文分词-如何下载并安装jieba包
import jieba 显示ModuleNotFoundError: No module named 'jieba'的错误,怎么解决? jieba包是第三方库,需要自己去下载安装 离线下载jieba ...
最新文章
- android apk 反编译工具,安卓apk反编译神器
- numpy.ndarray 交换多维数组(矩阵)的行/列
- 华硕笔记本linux触摸板驱动,华硕触摸板驱动,手把手教你如何在华硕官网触控板驱动...
- vijos1942——小岛 Floyed
- Windows中的iTunes Setup Assistant驱动程序错误修复
- linux 安装Elasticsearch
- Leetcode题解(更新中……)
- 电脑管家急救箱linux,腾讯电脑管家系统急救箱
- 基于matlab的排队系统仿真
- 怎么安装sqlserver2000数据库出现挂起提示
- 我平时的一个学习方法
- [UE4] LogicDriver状态机盒体颜色切换简单案例
- 大数据分析软件包含哪些技术?
- Crow和cinatra的C++web框架
- 始终重写 toString 方法
- 智能家居DIY之智能插座
- 《工程伦理与学术道德》之《工程与伦理》
- 陈力:传智播客古代 珍宝币 泡泡龙游戏开发第十二讲:盒子的定位方式
- Python数据分析pandas之多层高维索引
- 电脑C盘清理空间实用技巧
热门文章
- 留给华为、小米、OPPO 们的时间不多了!
- 会员登录 php,php $_SESSION会员登录实例分享
- 三星java3倍拍照手机_最强安卓拍照手机!三星Note 8将采用双摄+三倍光学变焦
- mysql主从的原理_Mysql主从的原理
- java关闭通道_调用map方法后,Java 7文件通道未正确关闭
- python使用级数pi的近似值_JavaScript与Python计算pi的近似值运行时间对比
- python和ui设计哪个更好_Python主流IDE对比:Eric VS. PyCharm
- python compile函数_python 内置函数 compile()
- 在python中、如果异常并未被处理或捕捉_Python异常处理总结
- java break(),Java BreakIterator last()用法及代码示例