今天无意间搜寻到一个开源的项目,是北大开源的python版本的分词工具,忍不住就来试用一下,下面就是具体的实践,总体很简单,直接是拿的官方的几个接口来体验一下,主要是掌握多一个的分词工具,之前分词主要是依赖于结巴分词,这里相当于多了一个选择,据说准确率很不错,今天只是简单使用一下。

#!usr/bin/env python
#encoding:utf-8'''
__Author__:沂水寒城
功能: 基于北大开源的分词工具 pkuseg 进行分词实践 https://github.com/yishuihanhan/pkuseg-python参数说明
pkuseg.pkuseg(model_name='msra', user_dict='safe_lexicon')
model_name      模型路径。默认是'msra'表示我们预训练好的模型(仅对pip下载的用户)。用户可以填自己下载或训练的模型所在的路径如model_name='./models'。
user_dict       设置用户词典。默认为'safe_lexicon'表示我们提供的一个中文词典(仅pip)。用户可以传入一个包含若干自定义单词的迭代器。
pkuseg.test(readFile, outputFile, model_name='msra', user_dict='safe_lexicon', nthread=10)
readFile        输入文件路径
outputFile      输出文件路径
model_name      同pkuseg.pkuseg
user_dict       同pkuseg.pkuseg
nthread         测试时开的进程数
pkuseg.train(trainFile, testFile, savedir, nthread=10)
trainFile       训练文件路径
testFile        测试文件路径
savedir         训练模型的保存路径
nthread         训练时开的进程数
'''import pkusegdef testFunc():'''分词'''seg = pkuseg.pkuseg()               #以默认配置加载模型text = seg.cut('我爱北京天安门')   #进行分词print(text)print('='*60)lexicon = ['北京大学', '北京天安门'] #希望分词时用户词典中的词固定不分开seg = pkuseg.pkuseg(user_dict=lexicon)  #加载模型,给定用户词典text = seg.cut('我爱北京天安门')       #进行分词print(text)print('='*60)seg = pkuseg.pkuseg(model_name='ctb8')    #假设用户已经下载好了ctb8的模型并放在了'./ctb8'目录下,通过设置model_name加载该模型text = seg.cut('我爱北京天安门')           #进行分词print(text)print('='*60)pkuseg.test('input.txt', 'output.txt', nthread=20)  #对input.txt的文件分词输出到output.txt中,使用默认模型和词典,开20个进程if __name__=='__main__':testFunc()

在运行上述代码之前需要自己提前下载模型保存到本地。

结果如下:

loading model
finish
['我', '爱', '北京', '天安门']
============================================================
loading model
finish
['我', '爱', '北京天安门']
============================================================
loading model
finish
['我', '爱', '北京', '天安门']
============================================================
loading model
finish
Total time: 120.72599983215332

这里贴一下上述使用的数据文件 input.txt  和  output.txt,一共10条语料数据。

input.txt

我们都有一个家名字叫中国,兄弟姐妹都很多,景色也不错。
男子倒车时将自己碾死,监控记录离奇过程
小米今日有30多亿股限售股解禁,小米集团发布公告,称雷军各控股股东自愿承诺未来365天不出售直接或间接实益拥有的公司股份,惟控股股东可将所持有不超过639,596,190股本公司B类股份
2018年3月5日,王雪吞下十几片安眠药试图自杀,被同学及时发现,将她送往淮安市第一人民医院。洗胃后,她被抢救了过来。
袁咏仪和张智霖是娱乐圈人人羡慕的一对,多年夫妻感情没有变质,从来没有传出夫妻间的任何负面消息。近日张智霖发文分道扬镳,网友纷纷猜测是不是夫妻感情出了问题,随后袁咏仪出面澄清,表示张智霖中文不过关,不会用成语。
日前有网友质疑济南趵突泉为风水养海豹,其中一只海豹眼睛还有伤。趵突泉官方微博8日发布声明称,“趵突泉养海豹为风水说”为不实报道,景区泉水养海豹由来已久,2003年已取得驯养海豹的相关许可证;有一只海豹眼睛发炎,经动物饲养专家会诊后确诊为角膜炎,此为海豹在淡水养殖过程中常见病。
美通社最近公布了"2018年全球企业品牌影响力"排名,不出意料的是亚马逊、特斯拉、苹果等品牌分别位列前茅,而令人惊喜的是,第一名是来自中国的阿里巴巴。
报道称,俄医学和生物问题研究所长期以来一直在地球上进行类似的实验,现在正在进行登月模拟实验系列研究。2017年进行了短期试验,船员被锁进舱室,模拟飞往月球并返回,历时17天。 在2019年3月的第一周,将启动为期四个月的研究阶段。此外,还计划进行为期8个月和3年的研究阶段,为期1年以上试验的可行性研究已经开始。每个研究阶段试验的航天员组成,不分国家和性别,均可参加。
据网友爆料,1月3日,河南农业大学体育学院举办了一场体育学考试,距开考不到20分钟,就有学生因作弊被老师逐出考场,卷面大面积空白。监考老师手下留情,未将该生作弊行为上报学校教务处记录在档。网友称:“因为该学生是学生干部,跟各位老师和领导关系好,托关系找到评卷老师给予人情上的贿赂,分数出来后该学生分数远远高于其他人的成绩,且该科目挂科率高。”
人民网北京1月8日电(记者高星)记者今天从朝阳区“两会”获悉,2019年,朝阳区预计疏解退出一般制造业企业26家,疏解升级商品交易市场9家、区域性物流基地2家,拆除违法建设不低于570万平方米。腾退的土地大部分将用于留白增绿,预计2019年朝阳区留白增绿面积将达215万余平方米,是2018年的近两倍,同时,还将新建105个便民商业网点,增加停车位2000个。

output.txt

我们 都 有 一个 家 名字 叫 中国 , 兄弟姐妹 都 很多 , 景色 也 不错 。
男子 倒车 时 将 自己 碾 死 , 监控 记录 离奇 过程
小米 今日 有 30多亿股 限售 股 解禁 , 小米集团 发布 公告 , 称雷军 各 控股 股东 自愿 承诺 未来 365天 不 出售 直接 或 间接 实益 拥有 的 公司 股份 , 惟 控股 股东 可 将 所 持有 不 超过 639, 596, 190 股本 公司 B类 股份
2018年3月5日 , 王雪吞 下 十几片 安眠药 试图 自杀 , 被 同学 及时 发现 , 将 她 送往 淮安市第一人民医院 。 洗 胃 后 , 她 被 抢救 了 过来 。
袁咏仪 和 张智霖 是 娱乐 圈 人人 羡慕 的 一对 , 多年 夫妻 感情 没有 变质 , 从来没有 传出 夫妻 间 的 任何 负面 消息 。 近日 张智霖 发文 分道扬镳 , 网友 纷纷 猜测 是不是 夫妻 感情 出 了 问题 , 随后 袁 咏 仪 出面 澄清 , 表示 张智霖 中文 不 过关 , 不会 用 成语 。
日前 有 网友 质疑 济南趵突泉 为 风水 养 海豹 , 其中 一 只 海豹 眼睛 还有 伤 。 趵突泉官方微博 8日 发布 声明 称 , “ 趵突泉养海豹 为 风水 说 ” 为 不 实 报道 , 景区 泉水 养 海豹 由来已久 , 2003年 已 取得 驯 养 海豹 的 相关 许可证 ; 有 一 只 海豹 眼睛 发炎 , 经 动物 饲养 专家 会诊 后 确诊 为 角膜炎 , 此 为 海豹 在 淡水 养殖 过程 中 常见病 。
美通社 最近 公布 了 " 2018年 全球 企业 品牌 影响 力 " 排名 , 不 出 意料 的 是 亚马逊 、 特斯拉 、 苹果 等 品牌 分别 位 列 前茅 , 而 令人 惊喜 的 是 , 第一名 是 来自 中国 的 阿里巴巴 。
报道 称 , 俄 医学 和 生物问题研究所 长期以来 一直 在 地球 上 进行 类似 的 实验 , 现在 正在 进行 登月 模拟 实验 系列 研究 。 2017年 进行 了 短期 试验 , 船员 被 锁 进 舱 室 , 模拟 飞往 月球 并 返回 , 历时 17天 。 在 2019年3月 的 第一周 , 将 启动 为期 四个月 的 研究 阶段 。 此外 , 还 计划 进行 为期 8个月 和 3年 的 研究 阶段 , 为期 1年 以上 试验 的 可行性研究 已经 开始 。 每个 研究 阶段 试验 的 航天员 组成 , 不 分 国家 和 性别 , 均 可 参加 。
据 网友 爆料 , 1月3日 , 河南 农业大学 体育学院 举办 了 一 场 体育学 考试 , 距 开 考 不 到 20分钟 , 就 有 学生 因 作弊 被 老师 逐出 考场 , 卷面 大 面积 空白 。 监考 老师 手下留情 , 未 将 该 生 作弊 行为 上报 学校 教务 处 记录 在 档 。 网 友称 : “ 因为 该 学生 是 学生 干部 , 跟 各位 老师 和 领导 关系 好 , 托 关系 找到 评卷 老师 给予 人情 上 的 贿赂 , 分数 出来 后 该 学生 分数 远远 高于 其他 人 的 成绩 , 且 该 科目 挂 科 率 高 。 ”
人民 网 北京 1月8日 电 ( 记者 高星 ) 记者 今天 从 朝阳区 “ 两会 ” 获悉 , 2019年 , 朝阳区 预计 疏解 退出 一般 制造业 企业 26家 , 疏解 升级 商品 交易 市场 9家 、 区域性 物流 基地 2家 , 拆除 违法 建设 不 低于 570万平方米 。 腾 退 的 土地 大部分 将 用于 留 白 增 绿 , 预计 2019年 朝阳区 留 白 增 绿 面积 将 达 215万余平方米 , 是 2018年 的 近 两倍 , 同时 , 还 将 新建 105个 便民 商业网点 , 增加 停车 位 2000个 。

python实现基于北大开源的分词工具 pkuseg 进行分词实践相关推荐

  1. Python工具包-分词工具pkuseg

    pkuseg使用 简介 最近社区推了一些文章介绍了北大开源的一个新的中文分词工具包pkuseg.它在多个分词数据集上都有非常高的分词准确率.其中广泛使用的结巴分词(jieba)误差率高达18.55%和 ...

  2. python 分词工具_「分词工具」干货 | 史上最全中文分词工具整理 - seo实验室

    分词工具 作者 | fendouai 分词服务接口列表 二.准确率评测: THULAC:与代表性分词软件的性能对比 我们选择LTP-3.2.0 .ICTCLAS(2015版) .jieba(C++版) ...

  3. python 分词工具对比_分词工具使用解析

    1.现有的分词工具包 由于中文文本词与词之间没有像英文那样有空格分隔,因此很多时候中文文本操作都涉及切词,因此我上网整理了一些中文分词工具.这些分词工具大都是基于JAVA语言. perminusmin ...

  4. python100例 分词-Python中文分词工具之结巴分词用法实例总结【经典案例】

    本文实例讲述了Python中文分词工具之结巴分词用法.分享给大家供大家参考,具体如下: 结巴分词工具的安装及基本用法,前面的文章<Python结巴中文分词工具使用过程中遇到的问题及解决方法> ...

  5. 北京大学开源分词工具pkuseg 初试与使用感受

    版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/meiqi0538/article/de ...

  6. 基于信通院 Serverless 工具链模型的实践:Serverless Devs

    前言 2022 年 6 月 15 日,信通院在中国信通院云原生产业大会上发布<基于无服务器架构的工具链能力要求>标准,至此全球首个云原生 Serverless 开放工具链模型正式发布!Se ...

  7. java中文分词工具_中文分词工具(LAC) 试用笔记

    一.背景 笔者2年前写过一篇<PHP使用elasticsearch搜索安装及分词方法>的文章,记录了使用ES的分词的实现步骤,最近又需要用到分词,在网上发现一个百度的中文分词项目,中文词法 ...

  8. java中文分词工具_中文分词常用方法简述

    中文分词 就是将一句话分解成一个词一个词,英文中可以用空格来做,而中文需要用一些技术来处理. 三类分词算法: 1. 基于字符串匹配: 将汉字串与词典中的词进行匹配,如果在词典中找到某个字符串,则识别出 ...

  9. jmeter constant timer 如何添加_阿里巴巴在开源压测工具 JMeter 上的实践和优化

    Apache JMeter 是 Apache 旗下的开源压测工具,创建于 1999 年初,迄今已有超过 20 年历史.JMeter 功能丰富,社区(用户群体)庞大,是主流开源压测工具之一. 性能测试通 ...

  10. python scikit learn 关闭开源_Python机器学习工具:Scikit-Learn介绍与实践

    Scikit-learn 简介 官方的解释很简单: Machine Learning in Python, 用python来玩机器学习. 什么是机器学习 机器学习关注的是: 计算机程序如何随着经验积累 ...

最新文章

  1. Adam那么棒,为什么还对SGD念念不忘 (2)—— Adam的两宗罪
  2. 用Java读取xml文件内容
  3. oracle ocp笔记(1)
  4. 知识点滴:持久层,DAO,API,DAL,BLL,DLL,csproj,sln
  5. Find 7轻装版和正式版存储内存方面区别
  6. ubuntu 的使用(五)—— 桌面(desktop)
  7. 谈谈中兴捧月大赛决赛以及总结
  8. markdown语法学习---半小时就能掌握--宋成光
  9. Oracle 10g 安装教程
  10. 浅谈(Java)AIO-异步IO
  11. unable to find setter method for attribute:[commandName]
  12. 绿联USB网卡的使用记录
  13. 影像篡改与识别(三):人工智能时代
  14. python漏洞扫描器爬虫_Python系列之——漏洞平台厂商列表爬虫
  15. 「文档编写」- 常见序号写法 @20210412
  16. Ghost XP封装教程超详细版
  17. Vue-router的使用(vue3.0版本)
  18. 日志模块、正则表达式、时间模块
  19. 微信小程序设置底部tab选项卡
  20. 与你一起学习Microsoft Visio——精华篇:流程图规范及技巧

热门文章

  1. Java多线程(六)线程池
  2. CVPR 2017精彩论文解读:综合使用多形态核磁共振数据的3D生物医学图像分割方法...
  3. Kotlin中定义编译时常量
  4. 7. mybatis实战教程(mybatis in action)之八:mybatis 动态sql语句
  5. 2010.2--ip redirects 和 ip directed-broadcast含义
  6. PAT 1005 继续(3n+1)猜想
  7. 洛谷 P2383 狗哥玩木棒
  8. WebForm 基础
  9. php date()
  10. DispatchAction