中文分词常见方法_mandagod的博客-CSDN博客_中文分词

另外,我们收集了如下部分分词工具,供参考:

中科院计算所NLPIR http://ictclas.nlpir.org/nlpir/

ansj分词器 https://github.com/NLPchina/ansj_seg

哈工大的LTP https://github.com/HIT-SCIR/ltp

清华大学THULAC https://github.com/thunlp/THULAC

斯坦福分词器 https://nlp.stanford.edu/software/segmenter.shtml

Hanlp分词器 https://github.com/hankcs/HanLP

结巴分词 https://github.com/yanyiwu/cppjieba

KCWS分词器(字嵌入+Bi-LSTM+CRF) https://github.com/koth/kcws

ZPar https://github.com/frcchang/zpar/releases

IKAnalyzer https://github.com/wks/ik-analyzer

以及部分分词器的简单说明:

哈工大的分词器:主页上给过调用接口,每秒请求的次数有限制。

清华大学THULAC:目前已经有Java、Python和C++版本,并且代码开源。

斯坦福分词器:作为众多斯坦福自然语言处理中的一个包,目前最新版本3.7.0, Java实现的CRF算法。可以直接使用训练好的模型,也提供训练模型接口。

Hanlp分词:求解的是最短路径。优点:开源、有人维护、可以解答。原始模型用的训练语料是人民日报的语料,当然如果你有足够的语料也可以自己训练。

结巴分词工具:基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图 (DAG);采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合;对于未登录词,采用了基于汉字成词能力的 HMM 模型,使用了 Viterbi 算法。

字嵌入+Bi-LSTM+CRF分词器:本质上是序列标注,这个分词器用人民日报的80万语料,据说按照字符正确率评估标准能达到97.5%的准确率,各位感兴趣可以去看看。

ZPar分词器:新加坡科技设计大学开发的中文分词器,包括分词、词性标注和Parser,支持多语言,据说效果是公开的分词器中最好的,C++语言编写。

关于速度:

由于分词是基础组件,其性能也是关键的考量因素。通常,分词速度跟系统的软硬件环境有相关外,还与词典的结构设计和算法复杂度相关。比如我们之前跑过字嵌入+Bi-LSTM+CRF分词器,其速度相对较慢。另外,开源项目 https://github.com/ysc/cws_evaluation 曾对多款分词器速度和效果进行过对比,可供大家参考。

最后附上公开的分词数据集

测试数据集

1、SIGHAN Bakeoff 2005 MSR,560KB

http://sighan.cs.uchicago.edu/bakeoff2005/

2、SIGHAN Bakeoff 2005 PKU, 510KB

http://sighan.cs.uchicago.edu/bakeoff2005/

3、人民日报 2014, 65MB

https://pan.baidu.com/s/1hq3KKXe

在使用bert_wwm的时候 要基于句子的分词 结巴的分词是 有一些的问题的因为不是针对某一领域的 所以要制作某一领域内的词表。

先来一个示例:

import jiebaprint("|".join(jieba.lcut("滴滴代驾不靠谱,在司机端总是接不到单子。")))
print("|".join(jieba.lcut("今天空车返回,在路上遇到行政执法,平台不派单")))jieba.load_userdict("/Users/didi/Downloads/关键词提取/dict.txt")
print("|".join(jieba.lcut("滴滴代驾不靠谱,在司机端总是接不到单子。")))
print("|".join(jieba.lcut("今天空车返回,在路上遇到行政执法,平台不派单。")))

结巴内置的词表在哪里呢?

在结巴的库里面 :/Library/Frameworks/Python.framework/Versions/3.6/lib/python3.6/site-packages/jieba

把自己定义的词加进去就好了

常见的分词方法接口+ jieba自定义领域内的词表然后加载词表进行分词相关推荐

  1. ueditor上传图片回调_(常见解决方法)UEditor报错“后端配置项没有正常加载,上传插件不能正常使用”...

    (常见解决方法)UEditor报错"后端配置项没有正常加载,上传插件不能正常使用"_向来萧瑟也无畏-CSDN博客​blog.csdn.net 报错信息 详见此文的"排错过 ...

  2. hp laser103 属性没有配置项_(常见解决方法)UEditor报错“后端配置项没有正常加载,上传插件不能正常使用”...

    (常见解决方法)UEditor报错"后端配置项没有正常加载,上传插件不能正常使用"_向来萧瑟也无畏-CSDN博客​blog.csdn.net 报错信息 详见此文的"排错过 ...

  3. ansj词典加载及简洁分词过程

    ansj词典加载及简要分词过程 粗略看了点ansj源代码,记录备忘.   词典等配置文件加载类 (以调用 NlpAnalysis 分词类为例): 1,   MyStaticValue 初始化 NlpA ...

  4. android 在自定义的listview(有刷新加载项)列表中,数据过少时不能铺满整个屏幕时,header和footer同时显示问题...

    android  在自定义的listview(有刷新加载项)列表中,数据过少时,当刷新时,加载项也会显示,这是很头疼的一个问题,查阅了一些资料,总结了一个比较不错的方法: 原来代码: 1 @Overr ...

  5. 一个常用的自定义弹框封装(适配 AndroidX),加载 ProgressDialog,状态显示的 StatusDialog 和自定义 Toast,全部支持背景颜色,圆角,边框和文字的自定义,构建者模

    MNProgressHUD 项目地址:maning0303/MNProgressHUD  简介: 一个常用的自定义弹框封装(适配 AndroidX),加载 ProgressDialog,状态显示的 S ...

  6. 使用MJRefresh自定义下拉刷新,上拉加载动画

    有时候我们需要自己设置下拉刷新,上拉加载动画的实现,这里主要是记录下使用MJRefresh自定义下拉刷新,上拉加载动画..... 下拉刷新我们只需要继承MJRefreshGifHeader即可: 实现 ...

  7. 自定义echarts地图,HTML+CSS加载全国、或某一省市(安徽省)(各个省市县)地图的完美方法

    echarts加载全国.或某一省市(安徽省)(各个省市县)地图: 1.全国地图大屏demo实例下载 2.安徽省地图大屏demo实例下载 如果想要其他省.市.县地图方法一样,可以参考这篇文章:链接如下: ...

  8. Vue自定义指令及实现图片懒加载指令

    一. 速识概念:   在我们使用 Vue 的过程中,遇到了很多方便我们操作的vue内置指令,以 v-xxx 表示.比如有 v-module,v-for,v-if,v-show 等等,每个指令都能实现一 ...

  9. 使用自定义的item、Adapter和AsyncTask、第三方开源框架PullToRefresh联合使用实现自定义的下拉列表(从网络加载图片显示在item中的ImageView)...

    AsyncTask使用方法详情:http://www.cnblogs.com/zzw1994/p/4959949.html 下拉开源框架PullToRefresh使用方法和下载详情:http://ww ...

最新文章

  1. 学文科的优势_男生学文科有优势吗?
  2. [HDU5215]Cycle
  3. Vue2.0全家桶实现一个买买买提醒应用
  4. 三级菜单 ajax 已经测试成功
  5. flv 开源 修复_如何修复开源软件中的错误
  6. 首次使用物联网设备进行的 Wi-Fi 6 试用测试宣布成功
  7. 实现1-2+3-4+5-6+…+99-100的算法的程序
  8. UI 设计常用尺寸规格
  9. 少儿编程孩子的学习路线
  10. 安居客app源码java_Android项目源码仿百大易商城APP源码
  11. 大话伊辛模型之一:源起
  12. Vue2.0 响应式原理 通俗易懂
  13. 世界上顶级英文歌曲首选
  14. 初中生用计算机作弊,初中生,总是偷偷用手机作弊,好想哭怎么办?
  15. vs怎么配置c语言codemac,在Mac上使用vs-code快速上手c语言学习(入门文,老鸟退散)...
  16. 深入理解Android Crash 流程
  17. 史上最简单的 MySQL 教程
  18. 32位PCI转CPCI转接板
  19. 遥感学习笔记(五)——Landsat卫星简介
  20. 全国河南话8级考试试题(听力+笔试)

热门文章

  1. pandas相关函数sort_values、字符串处理、index、merge、数据合并cancat、groupby分组统计
  2. SQL学习五、计算字段
  3. Linux命令之logrotate命令
  4. 如何用手机访问本地页面?
  5. mac抹掉磁盘重装系统未能与服务器取得联系_macOS降级重装系统教程:手把手教你Mac降级不再难...
  6. 时间序列分析中的自相关
  7. SQL Server服务远程过程调用失败解决
  8. spring中读不到配置文件问题
  9. 伺服控制原理 及RT and IRT
  10. bandit(21-25)