Segment

Segment 是基于结巴分词词库实现的更加灵活,高性能的 java 分词实现。

创作目的

分词是做 NLP 相关工作,非常基础的一项功能。

jieba-analysis 作为一款非常受欢迎的分词实现,个人实现的 opencc4j 之前一直使用其作为分词。

但是随着对分词的了解,发现结巴分词对于一些配置上不够灵活。

(1)有很多功能无法指定关闭,比如 HMM 对于繁简体转换是无用的,因为繁体词是固定的,不需要预测。

(2)最新版本的词性等功能好像也被移除了,但是这些都是个人非常需要的。

(3)对于中文繁体分词支持不友好。

所以重新实现了一遍,希望实现一套更加灵活,更多特性的分词框架。

而且 jieba-analysis 的更新似乎停滞了,个人的实现方式差异较大,所以建立了全新的项目。

Features 特点

面向用户的极简静态 api 设计

面向开发者 fluent-api 设计,让配置更加优雅灵活

详细的中文代码注释,便于源码阅读

基于 DFA 实现的高性能分词

基于 HMM 的新词预测

支持不同的分词模式

支持全角半角/英文大小写/中文繁简体格式处理

允许指定自定义词库

最新变更

支持中文繁体分词

快速入门

准备

jdk1.7+

maven 3.x+

maven 引入

com.github.houbb

segment

0.1.2

默认分词示例

返回分词,下标等信息。

final String string = "这是一个伸手不见五指的黑夜。我叫孙悟空,我爱北京,我爱学习。";

List resultList = SegmentHelper.segment(string);

Assert.assertEquals("[这是[0,2), 一个[2,4), 伸手不见五指[4,10), 的[10,11), 黑夜[11,13), 。[13,14), 我[14,15), 叫[15,16), 孙悟空[16,19), ,[19,20), 我爱[20,22), 北京[22,24), ,[24,25), 我爱[25,27), 学习[27,29), 。[29,30)]", resultList.toString());

指定返回形式

有时候我们根据自己的应用场景,需要选择不同的返回形式。

SegmentResultHandlers 用来指定对于分词结果的处理实现,便于保证 api 的统一性。

方法

实现

说明

common()

SegmentResultHandler

默认实现,返回 ISegmentResult 列表

word()

SegmentResultWordHandler

只返回分词字符串列表

默认模式

默认分词形式,等价于下面的写法

List resultList = SegmentHelper.segment(string, SegmentResultHandlers.common());

只获取分词信息

final String string = "这是一个伸手不见五指的黑夜。我叫孙悟空,我爱北京,我爱学习。";

List resultList = SegmentHelper.segment(string, SegmentResultHandlers.word());

Assert.assertEquals("[这是, 一个, 伸手不见五指, 的, 黑夜, 。, 我, 叫, 孙悟空, ,, 我爱, 北京, ,, 我爱, 学习, 。]", resultList.toString());

分词模式

分词模式简介

分词模式可以通过类 SegmentModes 工具类获取。

序号

方法

准确度

性能

备注

1

search()

一般

结巴分词的默认模式

2

dict()

较高

一般

和 search 模式类似,但是缺少 HMM 新词预测

3

index()

一般

尽可能多的返回词组信息,提高召回率

4

greedyLength()

一般

贪心最大长度匹配,对准确度要求不高时可采用。

使用方式

针对灵活的配置,引入了 SegmentBs 作为引导类,解决工具类方法配置参数过多的问题。

search 模式

segmentMode() 指定分词模式,不指定时默认就是 SegmentModes.search()。

final String string = "这是一个伸手不见五指的黑夜。";

List resultList = SegmentBs.newInstance()

.segmentMode(SegmentModes.search())

.segment(string);

Assert.assertEquals("[这是[0,2), 一个[2,4), 伸手不见五指[4,10), 的[10,11), 黑夜[11,13), 。[13,14)]", resultList.toString());

dict 模式

只依赖词库实现分词,没有 HMM 新词预测功能。

final String string = "这是一个伸手不见五指的黑夜。";

List resultList = SegmentBs.newInstance()

.segmentMode(SegmentModes.dict())

.segment(string);

Assert.assertEquals("[这[0,1), 是[1,2), 一个[2,4), 伸手不见五指[4,10), 的[10,11), 黑夜[11,13), 。[13,14)]", resultList.toString());

index 模式

这里主要的区别就是会返回 伸手、伸手不见 等其他词组。

final String string = "这是一个伸手不见五指的黑夜。";

List resultList = SegmentBs.newInstance()

.segmentMode(SegmentModes.index())

.segment(string);

Assert.assertEquals("[这[0,1), 是[1,2), 一个[2,4), 伸手[4,6), 伸手不见[4,8), 伸手不见五指[4,10), 的[10,11), 黑夜[11,13), 。[13,14)]", resultList.toString());

GreedyLength 模式

这里使用贪心算法实现,准确率一般,性能较好。

final String string = "这是一个伸手不见五指的黑夜。";

List resultList = SegmentBs.newInstance()

.segmentMode(SegmentModes.greedyLength())

.segment(string);

Assert.assertEquals("[这[0,1), 是[1,2), 一个[2,4), 伸手不见五指[4,10), 的[10,11), 黑夜[11,13), 。[13,14)]", resultList.toString());

格式化处理

格式化接口

可以通过 SegmentFormats 工具类获取对应的格式化实现,在分词时指定即可。

序号

方法

名称

说明

1

defaults()

默认格式化

等价于小写+半角处理。

2

lowerCase()

字符小写格式化

英文字符处理时统一转换为小写

3

halfWidth()

字符半角格式化

英文字符处理时统一转换为半角

4

chineseSimple()

中文简体格式化

用于支持繁体中文分词

5

none()

无格式化

无任何格式化处理

6

chains(formats)

格式化责任链

你可以针对上述的格式化自由组合,同时允许自定义格式化。

默认格式化

全角半角+英文大小写格式化处理,默认开启。

这里的 Q 为全角大写,默认会被转换处理。

String text = "阿Q精神";

List segmentResults = SegmentHelper.segment(text);

Assert.assertEquals("[阿Q[0,2), 精神[2,4)]", segmentResults.toString());

中文繁体分词

无论是结巴分词还是当前框架,默认对繁体中文的分词都不友好。

默认分词示例

显然和简体中文的分词形式不同。

String text = "這是一個伸手不見五指的黑夜";

List defaultWords = SegmentBs.newInstance()

.segment(text, SegmentResultHandlers.word());

Assert.assertEquals("[這是, 一, 個, 伸手, 不見, 五指, 的, 黑夜]", defaultWords.toString());

启用中文繁体分词

指定分词中文格式化,可以得到符合我们预期的分词。

String text = "這是一個伸手不見五指的黑夜";

List defaultWords = SegmentBs.newInstance()

.segmentFormat(SegmentFormats.chineseSimple())

.segment(text, SegmentResultHandlers.word());

Assert.assertEquals("[這是, 一個, 伸手不見五指, 的, 黑夜]", defaultWords.toString());

格式化责任链

格式化的形式可以有很多,我们可以根据自己的需求自由组合。

比如我们想同时启用默认格式化+中文简体格式化。

final String text = "阿Q,這是一個伸手不見五指的黑夜";

List defaultWords = SegmentBs.newInstance()

.segmentFormat(SegmentFormats.chains(SegmentFormats.defaults(),

SegmentFormats.chineseSimple()))

.segment(text, SegmentResultHandlers.word());

Assert.assertEquals("[阿Q, ,, 這是, 一個, 伸手不見五指, 的, 黑夜]", defaultWords.toString());

Benchmark 性能对比

性能对比

性能对比基于 jieba 1.0.2 版本,测试条件保持一致,保证二者都做好预热,然后统一处理。

验证下来,默认模式性能略优于 jieba 分词,贪心模式是其性能 3 倍左右。

备注:

(1)默认模式和结巴 Search 模式一致。

后期考虑 HMM 也可以配置是否开启,暂定为默认开启

(2)后期将引入多线程提升性能。

性能对比图

相同长文本,循环 1W 次耗时。(Less is Better)

后期 Road-Map

核心特性

HMM 词性标注

HMM 实体标注

CRF 算法实现

N 元组算法实现

优化

多线程的支持,性能优化

双数组 DFA 实现,降低内存消耗

辅助特性

拓展自定义词库的特性

创作感谢

Java动态编译优化——提升编译速度(N倍)

一.前言 最近一直在研究Java8 的动态编译, 并且也被ZipFileIndex$Entry 内存泄漏所困扰,在无意中,看到一个第三方插件的动态编译.并且编译速度是原来的2-3倍.原本打算直接用这个 ...

java 支持分词的高性能拼音转换工具,速度是 pinyin4j 的两倍

pinyin pinyin 是 java 实现的高性能中文拼音转换工具. 变更日志 创作目的 想为 java 设计一款便捷易用的拼音工具. 如何为 java 设计一款高性能的拼音转换工具 pinyin ...

solr+jieba结巴分词

为什么选择结巴分词 分词效率高 词料库构建时使用的是jieba (python) 结巴分词Java版本 下载 git clone https://github.com/huaban/jieba-ana ...

jieba GitHUb 结巴分词

1.GitHub jieba-analysis 结巴分词: https://github.com/fxsjy/jieba 2.jieba-analysis 结巴分词(java版): https://g ...

python 结巴分词学习

结巴分词(自然语言处理之中文分词器) jieba分词算法使用了基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能生成词情况所构成的有向无环图(DAG), 再采用了动态规划查找最大概率路径,找出基于 ...

python 结巴分词(jieba)详解

文章转载:http://blog.csdn.net/xiaoxiangzi222/article/details/53483931 jieba “结巴”中文分词:做最好的 Python 中文分词组件 ...

python调用jieba(结巴)分词 加入自定义词典和去停用词功能

把语料从数据库提取出来以后就要进行分词啦,我是在linux环境下做的,先把jieba安装好,然后找到内容是build jieba PKG-INFO setup.py test的那个文件夹(我这边是ji ...

python jieba分词(结巴分词)、提取词,加载词,修改词频,定义词库 -转载

转载请注明出处  “结巴”中文分词:做最好的 Python 中文分词组件,分词模块jieba,它是python比较好用的分词模块, 支持中文简体,繁体分词,还支持自定义词库. jieba的分词,提取关 ...

转]python 结巴分词(jieba)学习

原文  http://www.gowhich.com/blog/147 主题 中文分词Python 源码下载的地址:https://github.com/fxsjy/jieba 演示地址:http:/ ...

随机推荐

【视频处理】YUV格式说明

YUV,是一种颜色编码方法,Y表示明亮度(Luminance.Luma),U和V则是色度.浓度(Chrominance.Chroma). YUV,Y`UV,YCbCr,YPbPr等都可以称为YUV,彼 ...

一个ActionResult中定位到两个视图—<团委项目>

在使用MVC做项目的时候一般的情况就是一个ActionResult一个视图,这样对应的Return View();就可以找到下面对应的视图,这是根据一个原则,"约定大于配置&quo ...

十分钟学会python

1.raw_input的使用 从键盘读取信息,返回字符串. 例: hrs = raw_input("Enter Hours:")pay=raw_input("Enter ...

Data Science at the Command Line学习笔记(二)

1.vagrant建立简单httpserver方法: 1)映射端口 修改Vagrantfile, 末尾添加本地端口和虚机端口的映射关系, 然后执行vagrant reload. Vagrant::Co ...

[译]ASP.NET 性能监控

概述:在性能测试中性能监视器是非常强大的工具,本文主要简述了几个关键的计数器和相关的阈值. 监控性能计数器 很多的性能计数器在性能调优中是非常重要的,由于性能计数器太多,很多人不知道选择那些计数器. ...

使用tolua++编译pkg,从而创建自定义类让Lua脚本使用

步骤一:首先自定义类(这里Himi自定义类名 “MySprite”) MySprite.h 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 // //  ...

VS2012 独占编辑 设置

用VS2008建立的项目就有(禁止其他用户签出和签入) 为什么VS2012的项目就没有了呢??(管理员说他什么都没设置)VS2012: 两个项目同样是用VS2012打开的,而第一个是用VS2008创建 ...

Surface Pro 4 和 Surface Book 使用名为 Surface UEFI(统一可扩展固件接口)的新固件接口

Surface Pro 4 和 Surface Book 使用名为 Surface UEFI(统一可扩展固件接口)的新固件接口.Surface UEFI 提供新功能,如启动更快速.安全性更高.可替换 ...

HTML5:footer定位(底部+居中)的探讨+div图片居中问题

初学HTML+CSS布局,尝试自己写一个百度首页,可是footer的定位遇到麻烦而且百度没有好的解决方法,在此记录下逐步的过程.记录之,备忘. 初学,解决方法难免出现不妥之处,也请看到这篇文章的前辈指 ...

Android 訪问权限清单

Android权限设置 概述 权限 说明 訪问登记属性 android.permission.ACCESS_CHECKIN_PROPERTIES 读取或写入登记check-in数据库属性表的权限 获取 ...

mysql使用结巴语句_结巴分词 java 高性能实现,是 huaban jieba 速度的 2倍相关推荐

  1. mysql函数 动态语句_自定义函数动态执行SQL语句

    Oracle 动态SQL有两种写法:用 DBMS_SQL 或 execute immediate,建议使用后者. DDL 和 DML Sql代码 收藏代码 /*** DDL ***/ begin EX ...

  2. 正确加载MySQL驱动的语句_正确加载MySQL驱动的语句_____________________;_学小易找答案...

    [多选题]电子图书的特点是 [简答题] [单选题]为了准备病理学考试,王同学想在图书馆借一本人民卫生出版社出版的熊小亮编写的<病理学试题库>,经过检索发现该书都被借出去了 , 最方便快捷的 ...

  3. java结巴分词如何提高运行速度_结巴分词 java 高性能实现,优雅易用的 api 设计,性能优于 huaban jieba 分词...

    Segment Segment 是基于结巴分词词库实现的更加灵活,高性能的 java 分词实现. 创作目的 分词是做 NLP 相关工作,非常基础的一项功能. jieba-analysis 作为一款非常 ...

  4. MySQL删除空值语句_数据库语句sql 删除空记录

    最简单删除SQL Server中所有数据的方法 原文:最简单删除SQL Server中所有数据的方法 最简单删除SQL Server中所有数据的方法   编写人:CC阿爸   2014-3-14 其实 ...

  5. mysql数据去重语句_数据库 mysql 语句

    LAMP: Linux系统 A阿帕奇服务器 Mysql数据库 Php语言 mysql:常用代码 create table CeShi1 ( Uid varchar(50) primary key, P ...

  6. jaba窗体连接mysql增删改查_知识实现——Java使用jdbc连接MySql数据库,实现增删改查...

    Java使用jdbc连接MySql数据库,实现增删改查 首先,导入MySql连接数据库的jar包,我用的是 mysql连接jar包 DB类,用于获得数据库连接 import java.sql.Driv ...

  7. mysql原生sql语句_原生SQL语句

    -- -sql语句的注意 : 1 以;作为结束符 2不区分大小写--01mysql 数据库的操作--链接数据库 mysql-uroot -pmysql--不显示密码 mysql-uroot -p my ...

  8. mysql hql查询语句_查询hql语句

    Hibernate-HQL 了解HQL 一.HQL定义 1.Hibernate QueryLanguage,Hibernate查询语言 2.HQL是面向对象的查询语言 3.HQL提供了丰富灵活的查询特 ...

  9. 正确加载MySQL驱动的语句_使用数据库客户端工具Oracle SQL Developer加载第三方驱动连接mysql的方法...

    用Oracle SQL Developer时遇到no ocijdbc11 in java.library.path怎么办 不是配置环境变量,而是去选项里面,添加数据库的驱动 jdbc的驱动没有在cla ...

最新文章

  1. Async await 异步编程说明
  2. 那些年,我在游戏开发中改过的bug:坑爹的Vista与中间件
  3. linux的apche支持PHP,Linux下apache支持PHP配置
  4. 第十章 深入理解Session与Cookie
  5. 2019-07-10
  6. c语言如何在坐标输出,tc 如何在指定坐标处 输出bmp图片??
  7. tolua中使用protobuf3—集成lua-protobuf
  8. 第五节 电阻分压 蓦然回首,那人却在,灯火阑珊处
  9. SQL练习题——店铺UV、访客信息
  10. 【华为云·云筑2020】DevCloud考卷答案
  11. cocos creator实现读取白鹭movieClip组件(尝试)
  12. 如何鉴别虚拟主机好坏
  13. 11G_RAC扩容方案
  14. SpringMVC入门运行成功的实例(一)
  15. SSM框架学习(2)CRM项目软件开发周期
  16. Python AST node转为string(source code)
  17. 北京圣思园 张龙老师 全部视频 下载 地址
  18. 基础web制作网页的学习 HTML
  19. Ansible 实现批量建立互信
  20. 高等数学竞赛题解析教程P26 - 例1.52(浙江2008竞赛题)

热门文章

  1. Python学习基础方便查询
  2. ORA-3136 问题处理
  3. Eclipse+ GNU ARM Eclipse Plug-in+ Sourcery G++ Lite Edition for ARM+OPENCD+Jlink的开源开发环境。
  4. 《安卓逆向》查壳工具,权限查询,提取工具
  5. 蓝桥杯入门即劝退(六)等差素数数列
  6. 架构师之spring------@Autowire注入多泛型实例 can not cast to的问题解决
  7. vue修改浏览器的标题和图标
  8. iframe标签中写html,html页面中嵌套iframe标签,我们可以用html中的iframe标签搞定
  9. 干支纪年法简便算法_2020年天干地支对照表,干支日历表
  10. 我的世界服务端大全-服务器插件等相关网站推荐