北大开源了 Python 中文分词工具包,准确度远超 Jieba
关注上方“深度学习技术前沿”,选择“星标公众号”,
资源干货,第一时间送达!
转载自量子位
“土地,快告诉俺老孙,俺的金箍棒在哪?”
“大圣,您的金箍,棒就棒在特别适合您的发型。”
中文分词,是一门高深莫测的技术。不论对于人类,还是对于AI。
最近,北大开源了一个中文分词工具包,名为PKUSeg,基于Python。
工具包的分词准确率,远远超过THULAC和结巴分词这两位重要选手。
△ 我们 [中出] 了个叛徒
除此之外,PKUSeg支持多领域分词,也支持用全新的标注数据来训练模型。
准确度对比
这次比赛,PKUSeg的对手有两位:
一位是来自清华的THULAC,一位是要“做最好的中文分词组件”的结巴分词。它们都是目前主流的分词工具。
测试环境是Linux,测试数据集是MSRA (新闻数据) 和CTB8 (混合型文本) 。
结果如下:
比赛用的评判标准,是第二届国际汉语分词评测比赛提供的分词评价脚本。
在F分数和错误率两项指标上,PKUSeg都明显优于另外两位对手。
食用方法
预训练模型
PKUSeg提供了三个预训练模型,分别是在不同类型的数据集上训练的。
一是用MSRA (新闻语料) 训练出的模型:
https://pan.baidu.com/s/1twci0QVBeWXUg06dK47tiA二是用CTB8 (新闻文本及网络文本的混合型语料) 训练出的模型:
https://pan.baidu.com/s/1DCjDOxB0HD2NmP9w1jm8MA三是在微博 (网络文本语料) 上训练的模型:
https://pan.baidu.com/s/1QHoK2ahpZnNmX6X7Y9iCgQ
△ 微博语料举栗
大家可以按照自己的需要,选择加载不同的模型。
除此之外,也可以用全新的标注数据,来训练新的模型。
代码示例
1代码示例1 使用默认模型及默认词典分词
2import pkuseg
3seg = pkuseg.pkuseg() #以默认配置加载模型
4text = seg.cut('我爱北京天安门') #进行分词
5print(text)
1代码示例2 设置用户自定义词典
2import pkuseg
3lexicon = ['北京大学', '北京天安门'] #希望分词时用户词典中的词固定不分开
4seg = pkuseg.pkuseg(user_dict=lexicon) #加载模型,给定用户词典
5text = seg.cut('我爱北京天安门') #进行分词
6print(text)
1代码示例3
2import pkuseg
3seg = pkuseg.pkuseg(model_name='./ctb8') #假设用户已经下载好了ctb8的模型并放在了'./ctb8'目录下,通过设置model_name加载该模型
4text = seg.cut('我爱北京天安门') #进行分词
5print(text)
如果想自己训练一个新模型的话:
1代码示例5
2import pkuseg
3pkuseg.train('msr_training.utf8', 'msr_test_gold.utf8', './models', nthread=20) #训练文件为'msr_training.utf8',测试文件为'msr_test_gold.utf8',模型存到'./models'目录下,开20个进程训练模型
欲知更详细的用法,可前往文底传送门。
快去试一下
PKUSeg的作者有三位,Ruixuan Luo (罗睿轩),Jingjing Xu (许晶晶) ,以及Xu Sun (孙栩) 。
工具包的诞生,也是基于其中两位参与的ACL论文。
准确率又那么高,还不去试试?
GitHub传送门:
https://github.com/lancopku/PKUSeg-python
论文传送门:
http://www.aclweb.org/anthology/P12-1027
http://aclweb.org/anthology/P16-2092
推荐阅读:
Python 开源项目大集合,跨 15 个领域,181 个项目
FaceBook开源PyTorch3D:基于PyTorch的新3D计算机视觉库
???? 更多精彩咨讯,长按识别,即可关注
北大开源了 Python 中文分词工具包,准确度远超 Jieba相关推荐
- 北大开源了中文分词工具包,准确度远超Jieba,提供三个预训练模型
车栗子 发自 凹非寺 量子位 报道 | 公众号 QbitAI "土地,快告诉俺老孙,俺的金箍棒在哪?" "大圣,您的金箍,棒就棒在特别适合您的发型." 中文分词 ...
- 北大开源分词工具包: 准确率远超THULAC、jieba 分词
pkuseg 的优势 pkuseg 是由北京大学语言计算与机器学习研究组研制推出的一套全新的中文分词工具包.pkuseg 具有如下几个特点: 多领域分词.相比于其他的中文分词工具包,此工具包同时致力于 ...
- python中文分词-如何下载并安装jieba包
import jieba 显示ModuleNotFoundError: No module named 'jieba'的错误,怎么解决? jieba包是第三方库,需要自己去下载安装 离线下载jieba ...
- Python中文分词工具大合集:安装、使用和测试
转自:AINLP 这篇文章事实上整合了之前文章的相关介绍,同时添加一些其他的Python中文分词相关资源,甚至非Python的中文分词工具,仅供参考. 首先介绍之前测试过的8款中文分词工具,这几款工具 ...
- 准确率创新高,北大开源中文分词工具包 pkuseg
北京大学近日开源了一个全新的中文分词工具包 pkuseg ,相比于现有的同类开源工具,pkuseg 大幅提高了分词的准确率. pkuseg 由北大语言计算与机器学习研究组研制推出,具备如下特性: 高分 ...
- 【NLP】jieba分词-Python中文分词领域的佼佼者
1. jieba的江湖地位 NLP(自然语言)领域现在可谓是群雄纷争,各种开源组件层出不穷,其中一支不可忽视的力量便是jieba分词,号称要做最好的 Python 中文分词组件. "最好的& ...
- python lcut精确分词_jieba分词-Python中文分词领域的佼佼者
1. jieba的江湖地位 NLP(自然语言)领域现在可谓是群雄纷争,各种开源组件层出不穷,其中一支不可忽视的力量便是jieba分词,号称要做最好的 Python 中文分词组件. "最好的& ...
- Python中文分词及词频统计
Python中文分词及词频统计 中文分词 中文分词(Chinese Word Segmentation),将中文语句切割成单独的词组.英文使用空格来分开每个单词的,而中文单独一个汉字跟词有时候完全不是 ...
- 资源 | Python中文分词工具大合集
跟着博主的脚步,每天进步一点点 这篇文章事实上整合了之前文章的相关介绍,同时添加一些其他的Python中文分词相关资源,甚至非Python的中文分词工具,仅供参考. 首先介绍之前测试过的8款中文分词工 ...
最新文章
- 如何使用深度学习训练聊天机器人
- 存储器芯片国产化布局加速 数千亿投资欲打破进口依赖
- docker 安装nginx_使用 Docker 在你的 mac 上搭建个服务器
- android 动态让控件超出屏幕_android 动态设置屏幕控件宽高度
- jQuery相关方法6----三大系列属性
- 科普: 中间件底层实现的分布式协议之Raft
- Flex4_HttpService组件
- 网络基础2(分层模型,通信过程,以太网,ARP协议格式和具体功能详解)
- Leetcode重点250题
- 星级评价组件--引发对React组件的思考
- (48)FPGA三态多驱动(tri型)
- linux 64位 可移植性,linux – #!/ bin / sh vs#!/ bin / bash,实现最大的可移植性
- ALM产品六爻:TeleLogic, Rational, DevTrack, Jira, RTC, URTrack...
- python的实例类方法、修饰器类方法、修饰器保护方法、修饰器静态方法中私有属性的区别和自定义property的读写方法
- WPF实现特殊统计图
- linux网络编程 mingw,Windows网络编程
- java什么是自动类型转换_java自动类型转换
- 固态硬盘性能下降,造成win10卡顿,及解决方法
- Android零基础入门第18节:EditText的属性和使用方法
- PCM开发板模块实验指导--有刷直流马达速度位置控制实验
热门文章
- 手动创建一棵二叉树,然后利用前序、中序、后序、层序进行遍历(从创建二叉树到各种方式遍历)(含运行结果)
- 深入理解pandas读取excel,txt,csv文件等命令
- python SMTP发送邮件常出现问题
- 计算机NLP注意力机制思想和实现原理讲的较清晰
- QT安装由问题的,安装后发现有些控件标签名显示不了
- 出国读博前希望有人告诉我
- 随机访问类(RandomAccessFile)
- mysql面试关联查询语句_MySQL百万级、千万级数据多表关联SQL语句调优
- 如何在Linux下安装Docker
- 一秒看遍10万神经元的「绚丽烟花」,AI究竟向大脑学什么?|北大陈良怡专访...