Segment

Segment 是基于结巴分词词库实现的更加灵活,高性能的 java 分词实现。

创作目的

分词是做 NLP 相关工作,非常基础的一项功能。

jieba-analysis 作为一款非常受欢迎的分词实现,个人实现的 opencc4j 之前一直使用其作为分词。

但是随着对分词的了解,发现结巴分词对于一些配置上不够灵活。

(1)有很多功能无法指定关闭,比如 HMM 对于繁简体转换是无用的,因为繁体词是固定的,不需要预测。

(2)最新版本的词性等功能好像也被移除了,但是这些都是个人非常需要的。

(3)对于中文繁体分词支持不友好。

所以重新实现了一遍,希望实现一套更加灵活,更多特性的分词框架。

而且 jieba-analysis 的更新似乎停滞了,个人的实现方式差异较大,所以建立了全新的项目。

Features 特点

面向用户的极简静态 api 设计

面向开发者 fluent-api 设计,让配置更加优雅灵活

详细的中文代码注释,便于源码阅读

基于 DFA 实现的高性能分词

基于 HMM 的新词预测

支持不同的分词模式

支持全角半角/英文大小写/中文繁简体格式处理

允许指定自定义词库

最新变更

支持中文繁体分词

快速入门

准备

jdk1.7+

maven 3.x+

maven 引入

com.github.houbb

segment

0.1.2

默认分词示例

返回分词,下标等信息。

final String string = "这是一个伸手不见五指的黑夜。我叫孙悟空,我爱北京,我爱学习。";

List resultList = SegmentHelper.segment(string);

Assert.assertEquals("[这是[0,2), 一个[2,4), 伸手不见五指[4,10), 的[10,11), 黑夜[11,13), 。[13,14), 我[14,15), 叫[15,16), 孙悟空[16,19), ,[19,20), 我爱[20,22), 北京[22,24), ,[24,25), 我爱[25,27), 学习[27,29), 。[29,30)]", resultList.toString());

指定返回形式

有时候我们根据自己的应用场景,需要选择不同的返回形式。

SegmentResultHandlers 用来指定对于分词结果的处理实现,便于保证 api 的统一性。

方法

实现

说明

common()

SegmentResultHandler

默认实现,返回 ISegmentResult 列表

word()

SegmentResultWordHandler

只返回分词字符串列表

默认模式

默认分词形式,等价于下面的写法

List resultList = SegmentHelper.segment(string, SegmentResultHandlers.common());

只获取分词信息

final String string = "这是一个伸手不见五指的黑夜。我叫孙悟空,我爱北京,我爱学习。";

List resultList = SegmentHelper.segment(string, SegmentResultHandlers.word());

Assert.assertEquals("[这是, 一个, 伸手不见五指, 的, 黑夜, 。, 我, 叫, 孙悟空, ,, 我爱, 北京, ,, 我爱, 学习, 。]", resultList.toString());

分词模式

分词模式简介

分词模式可以通过类 SegmentModes 工具类获取。

序号

方法

准确度

性能

备注

1

search()

一般

结巴分词的默认模式

2

dict()

较高

一般

和 search 模式类似,但是缺少 HMM 新词预测

3

index()

一般

尽可能多的返回词组信息,提高召回率

4

greedyLength()

一般

贪心最大长度匹配,对准确度要求不高时可采用。

使用方式

针对灵活的配置,引入了 SegmentBs 作为引导类,解决工具类方法配置参数过多的问题。

search 模式

segmentMode() 指定分词模式,不指定时默认就是 SegmentModes.search()。

final String string = "这是一个伸手不见五指的黑夜。";

List resultList = SegmentBs.newInstance()

.segmentMode(SegmentModes.search())

.segment(string);

Assert.assertEquals("[这是[0,2), 一个[2,4), 伸手不见五指[4,10), 的[10,11), 黑夜[11,13), 。[13,14)]", resultList.toString());

dict 模式

只依赖词库实现分词,没有 HMM 新词预测功能。

final String string = "这是一个伸手不见五指的黑夜。";

List resultList = SegmentBs.newInstance()

.segmentMode(SegmentModes.dict())

.segment(string);

Assert.assertEquals("[这[0,1), 是[1,2), 一个[2,4), 伸手不见五指[4,10), 的[10,11), 黑夜[11,13), 。[13,14)]", resultList.toString());

index 模式

这里主要的区别就是会返回 伸手、伸手不见 等其他词组。

final String string = "这是一个伸手不见五指的黑夜。";

List resultList = SegmentBs.newInstance()

.segmentMode(SegmentModes.index())

.segment(string);

Assert.assertEquals("[这[0,1), 是[1,2), 一个[2,4), 伸手[4,6), 伸手不见[4,8), 伸手不见五指[4,10), 的[10,11), 黑夜[11,13), 。[13,14)]", resultList.toString());

GreedyLength 模式

这里使用贪心算法实现,准确率一般,性能较好。

final String string = "这是一个伸手不见五指的黑夜。";

List resultList = SegmentBs.newInstance()

.segmentMode(SegmentModes.greedyLength())

.segment(string);

Assert.assertEquals("[这[0,1), 是[1,2), 一个[2,4), 伸手不见五指[4,10), 的[10,11), 黑夜[11,13), 。[13,14)]", resultList.toString());

格式化处理

格式化接口

可以通过 SegmentFormats 工具类获取对应的格式化实现,在分词时指定即可。

序号

方法

名称

说明

1

defaults()

默认格式化

等价于小写+半角处理。

2

lowerCase()

字符小写格式化

英文字符处理时统一转换为小写

3

halfWidth()

字符半角格式化

英文字符处理时统一转换为半角

4

chineseSimple()

中文简体格式化

用于支持繁体中文分词

5

none()

无格式化

无任何格式化处理

6

chains(formats)

格式化责任链

你可以针对上述的格式化自由组合,同时允许自定义格式化。

默认格式化

全角半角+英文大小写格式化处理,默认开启。

这里的 Q 为全角大写,默认会被转换处理。

String text = "阿Q精神";

List segmentResults = SegmentHelper.segment(text);

Assert.assertEquals("[阿Q[0,2), 精神[2,4)]", segmentResults.toString());

中文繁体分词

无论是结巴分词还是当前框架,默认对繁体中文的分词都不友好。

默认分词示例

显然和简体中文的分词形式不同。

String text = "這是一個伸手不見五指的黑夜";

List defaultWords = SegmentBs.newInstance()

.segment(text, SegmentResultHandlers.word());

Assert.assertEquals("[這是, 一, 個, 伸手, 不見, 五指, 的, 黑夜]", defaultWords.toString());

启用中文繁体分词

指定分词中文格式化,可以得到符合我们预期的分词。

String text = "這是一個伸手不見五指的黑夜";

List defaultWords = SegmentBs.newInstance()

.segmentFormat(SegmentFormats.chineseSimple())

.segment(text, SegmentResultHandlers.word());

Assert.assertEquals("[這是, 一個, 伸手不見五指, 的, 黑夜]", defaultWords.toString());

格式化责任链

格式化的形式可以有很多,我们可以根据自己的需求自由组合。

比如我们想同时启用默认格式化+中文简体格式化。

final String text = "阿Q,這是一個伸手不見五指的黑夜";

List defaultWords = SegmentBs.newInstance()

.segmentFormat(SegmentFormats.chains(SegmentFormats.defaults(),

SegmentFormats.chineseSimple()))

.segment(text, SegmentResultHandlers.word());

Assert.assertEquals("[阿Q, ,, 這是, 一個, 伸手不見五指, 的, 黑夜]", defaultWords.toString());

Benchmark 性能对比

性能对比

性能对比基于 jieba 1.0.2 版本,测试条件保持一致,保证二者都做好预热,然后统一处理。

验证下来,默认模式性能略优于 jieba 分词,贪心模式是其性能 3 倍左右。

备注:

(1)默认模式和结巴 Search 模式一致。

后期考虑 HMM 也可以配置是否开启,暂定为默认开启

(2)后期将引入多线程提升性能。

性能对比图

相同长文本,循环 1W 次耗时。(Less is Better)

后期 Road-Map

核心特性

HMM 词性标注

HMM 实体标注

CRF 算法实现

N 元组算法实现

优化

多线程的支持,性能优化

双数组 DFA 实现,降低内存消耗

辅助特性

拓展自定义词库的特性

创作感谢

原文出处:https://www.cnblogs.com/houbbBlogs/p/12194059.html

java结巴分词如何提高运行速度_结巴分词 java 高性能实现,优雅易用的 api 设计,性能优于 huaban jieba 分词...相关推荐

  1. 结巴分词关键词相似度_结巴分词5--关键词抽取

    作者:zhbzz2007 出处:http://www.cnblogs.com/zhbzz2007 欢迎转载,也请保留这段声明.谢谢! 1 简介 关键词抽取就是从文本里面把跟这篇文档意义最相关的一些词抽 ...

  2. java中的标识符和关键字_浅谈java中的标识符、修饰符和关键字

    合法标识符 Java语言中,对于变量,常量,函数,语句块均有名字,我们统统称之为Java标识符.标识符是用来给类.对象.方法.变量.接口和自定义数据类型命名的. 组成:Java标识符由数字,字母和下划 ...

  3. java程序的装载与检查_浅谈Java类型装载、连接与初始化

    类型装载.连接与初始化 Java虚拟机通过装载.连接和初始化一个Java类型,使该类型可以被正在运行的Java程序所使用.其中装载就是把二进制形式的Java class文件读入Java虚拟机中去;连接 ...

  4. java中常量final的用法_详解Java中final的用法

    本文主要介绍了Java中final的使用方法,final是java的关键字,本文就详细说明一下它的使用方法,需要的朋友可以参考下 概念 final 具有"不可改变的"的含义,可以修 ...

  5. java中如何运行小程序_一起学java(一)——运行第一个小程序

    接下来的一段时间内会更新一起学java系列,喜欢的关注一下我吧.微信公众号:什么都不懂的大佬:初学,有错误的地方请大家多多指教. ---------------分割线-------------- 一. ...

  6. java中的switch的规则_细细讲述Java技术开发的那些不为人知的规则

    本文介绍的Java规则的说明分为3个主要级别,中级是平时开发用的比较多的级别,在今后将陆续写出其他的规则.遵守了这些规则可以提高程序的效率.使代码又更好的可读性等. 一.在finally方法里关掉in ...

  7. java2实验手册求方程的根_完成实验手册实验六:P101编程题2、3、4 Java程序设计上机实验手册(完稿)_吴娜炯.pdf_学小易找答案...

    [简答题]将一个文件的内容装换为大写,显示出来,并把内容复制到文件中去. [简答题]什么是自主访问控制?什么是强制访问控制? 什么是基于角色的访问控制? [简答题]根据第五课教学视频,实现可视化日历. ...

  8. java 电池类类代码举例_教案:Java第7章 类的方法

    授课教师:牟勇 课时:100分钟 l 本章技能目标 n 会定义和使用类的方法 n 理解变量作用域 n 会创建包组织Java工程 n 会添加类方法的JavaDoc注释 n 会阅读JavaSE6文档 l ...

  9. Java每日一讲讲什么好_撩课-Java每天10道面试题第1天

    1.简述JDK.JRE.JVM? 一.JDK JDK(Java Development Kit) 是整个JAVA的核心, 包括了Java运行环境(Java Runtime Envirnment), 一 ...

最新文章

  1. C 语言编程 — 结构化程序流的汇编代码与 CPU 指令集
  2. 神经网络防止过拟合的方法
  3. 3.1.1 什么是内存?进程的基本原理,深入指令理解其过程
  4. ​分布式数据库技术基础:数据分布介绍
  5. Linux设备模型:kset, kobj, ktype
  6. 制作一个遍历当前子目录的Makefile
  7. 无法登录 mysql 服务器_无法登录 MySQL服务器/无法开启 MySQL服务
  8. windows电脑系统自带的画图工具如何实现自由拼图
  9. 《认识突围:做复杂时代的明白人》读书笔记和自我理解感受
  10. 计算机主机箱进行总结,工业级主机用机箱分类总结
  11. 3DsMAX期末紧急复习
  12. OPC教程三:KEPServerEX6的使用
  13. pyká Unlimited for Mac(项目管理软件)
  14. layui数据表格与后台交互进行渲染
  15. 索骥馆-OFFICE系列之《EXCEL数据分析之道:让你的数据更有说服力》扫描版[PDF]
  16. 怎么在Word中固定表头
  17. actuator微服务信息完善
  18. wampserver配置虚拟主机
  19. y空间兑换代码_动态空间面板模型教程(一文读懂动态面板空间spregdpd操作应用)...
  20. 基于Matlab计算天线阵列方向图和绘制方向图

热门文章

  1. java抽象类存在的意义
  2. php strstr批量替换,也就这样,
  3. java:解一元二次方程
  4. Elk实时日志分析平台搭建
  5. 突然有一天,我老无所依
  6. MySQL入门教程系列-1.5 如何学习MySQL
  7. 计算机视觉和机器学习_我从计算机视觉和机器学习硕士课程中学到的东西
  8. “竹影扫阶尘不动,月穿潭底水无痕”引出的……
  9. 【OpenCV】色彩空间介绍
  10. 【嵌入式蓝桥杯】解决LED和LCD引脚冲突的方法