本文使用Double Array Trie实现了一个性能极高的Aho Corasick自动机,应用于分词可以取得1400万字每秒,约合27MB/s的分词速度。其中词典为150万词,构建耗时1801 ms。以前就在构想将AC自动机与双数组Trie树结合起来,考虑到持久化比较困难(goto和fail表是内存指针/引用),一直没下决心实现,今天终于成功了。

AC自动机能高速完成多模式匹配,然而具体实现聪明与否决定最终性能高低。大部分实现都是一个Map了事,无论是TreeMap的对数复杂度,还是HashMap的巨额空间复杂度与哈希函数的性能消耗,都会降低整体性能。

双数组Trie树能高速O(n)完成单串匹配,并且内存消耗可控,然而软肋在于多模式匹配,如果要匹配多个模式串,必须先实现前缀查询,然后频繁截取文本后缀才可多匹配,这样一份文本要回退扫描多遍,性能极低。

如果能用双数组Trie树表达AC自动机,就能集合两者的优点,得到一种近乎完美的数据结构。在我的Java实现中,我称其为AhoCorasickDoubleArrayTrie,支持泛型和持久化,自己非常喜爱。

原理

基本原理是为一颗双数组Trie树的每个状态(体现为下标)附上额外的信息。在《Aho-Corasick算法的Java实现与分析》我曾经提到过,AC自动机的基础(success表)就是Trie树,只不过比Trie树多了output表和fail表。那么AhoCorasickDoubleArrayTrie的构建原理就是为每个状态(base[i]和check[i])构建output[i][]和fail[i]。

构建

双数组Trie树的构建是一个先序dfs,AC自动机的构建是一个先序bfs。如果同时构建或者先构建AC自动机,那么AC自动机的每个状态将无法对应到双数组Trie树的状态;另一方面,同步构建会导致代码不可控。

所以我的实现中采取了三步构建法——

构建trie树

即将所有模式串构建为一颗字典树,同时将终止状态绑定外部value。在实现上可以先用TreeMap简单实现。

构建双数组Trie树

有了trie树,将其压缩到两个数组上非常简单。有一些实现已经做得非常不错了,比如前面介绍的《双数组Trie树(DoubleArrayTrie)Java实现》。

与单独构建双数组Trie树不同,在为一个trie树State创建base[i]的时候,让该State记住自己的i,这样就建立State和下标的映射。

构建AC自动机

在构建AC自动机时,每构建一个节点State的fail表,就利用上述映射下标State.id将fail[id]设为failState.id。对于output表,也是同理。

其实构建完全可以离线进行,并不要求苛刻的速度。

查询

精确单模式匹配

AhoCorasickDoubleArrayTrie本质上是一颗双数组Trie树,所以它也像双数组Trie树一样支持

前缀查询

同上

多模式匹配

在《Aho-Corasick算法的Java实现与分析》中,每次转移返回的都是一个State引用,但是这次将其改为返回id,利用下标id,既可以按照success表(双数组base和check)转移,转移失败时也可以按照fail[id]退回到合适的位置。

具体实现

接口

返回所有匹配到的模式串

/**

* 匹配母文本

*

* @param text 一些文本

* @return 一个pair列表

*/

public List> parseText(String text)

其中Hit是一个表示命中结果的结构:

/**

* 一个命中结果

*

* @param

*/

public class Hit

{

/**

* 模式串在母文本中的起始位置

*/

public final int begin;

/**

* 模式串在母文本中的终止位置

*/

public final int end;

/**

* 模式串对应的值

*/

public final V value;

}

即时处理接口

很明显,返回一个巨大的List并不是个好主意,AhoCorasickDoubleArrayTrie提供即时处理的结构:

/**

* 处理文本

*

* @param text      文本

* @param processor 处理器

*/

public void parseText(String text, IHit processor)

其中IHit是一个轻便的接口:

/**

* 命中一个模式串的处理方法

*/

public interface IHit

{

/**

* 命中一个模式串

*

* @param begin 模式串在母文本中的起始位置

* @param end   模式串在母文本中的终止位置

* @param value 模式串对应的值

*/

void hit(int begin, int end, V value);

}

调用方法

TreeMap map = new TreeMap<>();

String[] keyArray = new String[]

{

"hers",

"his",

"she",

"he"

};

for (String key : keyArray)

{

map.put(key, key);

}

AhoCorasickDoubleArrayTrie act = new AhoCorasickDoubleArrayTrie<>();

act.build(map);

act.parseText("uhers", new AhoCorasickDoubleArrayTrie.IHit()

{

@Override

public void hit(int begin, int end, String value)

{

System.out.printf("[%d:%d]=%s\n", begin, end, value);

}

});

// 或者System.out.println(act.parseText("uhers"));

输出

[1:3]=he

[1:5]=hers

一些调试输出:

output:

107 : [0]

118 : [1]

120 : [2]

123 : [3, 0]

fail:

1 : 1

118 : 117

120 : 117

122 : 106

123 : 107

DoubleArrayTrie:

char =      ×    h    e     ×    i    s     s      ×    s     ×    h    e     ×

i    =      0   106   107   108   111   117   118   119   120   121   122   123   124

base =      1     5   108    -1     4    17   119    -2   121    -3    21   124    -4

check=      0     1     5   108     5     1     2   119     4   121    17    21   124

分词

将AhoCorasickDoubleArrayTrie应用于分词简直是物尽其用,HanLP中的核心词典已经替换为由AhoCorasickDoubleArrayTrie提供支持:

CoreDictionaryACDAT.trie.parseText(charArray, new AhoCorasickDoubleArrayTrie.IHit()

{

@Override

public void hit(int begin, int end, CoreDictionary.Attribute value)

{

wordNetStorage.add(begin + 1, new Vertex(new String(charArray, begin, end - begin), value));

}

});

另外,HanLP中还实现了一个基于AhoCorasickDoubleArrayTrie的最长分词器:

public void testACSegment() throws Exception

{

Segment segment = new AhoCorasickSegment();

segment.enablePartOfSpeechTagging(true);

System.out.println(segment.seg("江西鄱阳湖干枯,中国最大淡水湖变成大草原"));

}

输出:

[江西/ns, 鄱阳湖/ns, 干枯/vi, ,/nz, 中国/ns, 最大/gm, 淡水湖/n, 变成/v, 大草原/nz]

就是这个最长分词器,得到了前文逆天的分词速度!

public static void main(String[] args)

{

String text = "江西鄱阳湖干枯,中国最大淡水湖变成大草原";

System.out.println(SpeedTokenizer.segment(text));

long start = System.currentTimeMillis();

int pressure = 1000000;

for (int i = 0; i

{

SpeedTokenizer.segment(text);

}

double costTime = (System.currentTimeMillis() - start) / (double)1000;

System.out.printf("分词速度:%.2f字每秒", text.length() * pressure / costTime);

}

输出:

[江西/null, 鄱阳湖/null, 干枯/null, ,/null, 中国/null, 最大/null, 淡水湖/null, 变成/null, 大草原/null]

分词速度:14164305.95字每秒

真实应用环境中,在132 ms内分完了整本《我的团长我的团》.txt,共774165字,速度是5864886.36 字/秒!

反馈

技术问题请在Github上发issue ,大家一起讨论,也方便集中管理。博客留言、微博私信、邮件不受理任何开源项目相关的问题,谢谢合作!

反馈问题的时候请一定附上版本号、触发代码、输入输出,否则无法处理。

ac自动机 匹配最长前缀_Aho Corasick自动机结合DoubleArrayTrie极速多模式匹配相关推荐

  1. ac自动机 匹配最长前缀_别再暴力匹配字符串了,高效的KMP,才是真的香

    如果你想了解KMP算法,请静下心读完这篇文章,一定不会辜负你的时间 暴力匹配(BF) 字符串匹配是我们在编程中常见的问题,其中从一个字符串(主串)中检测出另一个字符串(模式串)是一个非常经典的问题,当 ...

  2. ac自动机 匹配最长前缀_AC自动机算法

    AC自动机简介: 首先简要介绍一下AC自动机:Aho-Corasick automation,该算法在1975年产生于贝尔实验室,是著名的多模匹配算法之一.一个常见的例子就是给出n个单词,再给出一段包 ...

  3. 《深入浅出DPDK》读书笔记(六):报文转发(run to completion、pipeline、精确匹配算法、最长前缀匹配LPM)

    本文内容为读书笔记,摘自<深入浅出DPDK> 65.网络报文的处理和转发主要分为硬件处理部分与软件处理部分,由以下模块构成: ❑Packet input:报文输入. ❑Pre-proces ...

  4. 什么是最长前缀匹配?为什么网络前缀越长,其地址块就越小,路由就越具体?

    使用 CIDR 时,路由表中的每个项目由"网络前缀"和"下一跳地址"组成.在查找路由表时可能会得到不止一个匹配结果. 应当从匹配结果中选择具有最长网络前缀的路由 ...

  5. 计算机网络-网络层(IPV4地址,网络转化技术NAT,子网划分和子网掩码,无分类编址CIDR,构成超网,最长前缀匹配)

    文章目录 1. 分类IP地址 2. NAT技术 3. 子网划分和子网掩码 4. 无分类编址CIDR 1. 分类IP地址 IP地址:全世界唯一的32位/4字节标识符,标识路由器主机的接口. IP地址=网 ...

  6. HCNP——动态路由协议及分类和最长前缀匹配

    基于协议算法的不同,可以将动态路由协议分为两类:一类是距离矢量路由协议:另一类是链路状态路由协议. 一.距离矢量路由协议(RIP) 距离矢量路由协议指的是基于距离矢量的路由协议,RIP是最具代表性的距 ...

  7. (小白练题)字符串最长前缀匹配

    关于字符串的最长前缀匹配 学习数组的部分对二维字符数组一直不熟悉 导致一直没有思路 当然这也引出对字符型指针思考 当然要恶补一下相关知识点哈 编写一个函数来查找字符串数组中的最长公共前缀. 例题 如果 ...

  8. usaco ★Longest Prefix 最长前缀

    ★Longest Prefix 最长前缀 在生物学中,一些生物的结构是用包含其要素的大写字母序列来表示的.生物学家对于把长的序列 28 分解成较短的(称之为元素的)序列很感兴趣. 如果一个集合 P 中 ...

  9. 索引的使用—— 验证索引提升查询效率 || 避免索引失效 —— 全值匹配 /最左前缀法则/范围查询右边的列,不能使用索引/不要在索引列上进行运算操作/字符串不加单引号,造成索引失效

    索引的使用 索引是数据库优化最常用也是最重要的手段之一, 通过索引通常可以帮助用户解决大多数的MySQL的性能优化问题 验证索引提升查询效率 查询速度很快,接近0s ,主要的原因是因为id为主键,有索 ...

最新文章

  1. 最常用的20个Git命令与示例,你都会了么?
  2. mysql-sql优化--笔记
  3. html嵌入war_WAR文件与具有嵌入式服务器的Java应用程序
  4. EXPORT_SYMBOL使用
  5. 华为SDN+VxLAN学习小记
  6. 嵌入式系统——软件开发模型
  7. 如何跨越线程调用窗体控件?(3)
  8. 关于PC机相关系统的远程桌面协作的相关介绍和配置(转帖整理)
  9. python3---情感分析(基于词典中文)
  10. xshell linux cmd命令大全,Linux(Xshell)命令大全
  11. 如何出一道计算机仿真题,计算机仿真试题
  12. Exception in thread main java.util.UnknownFormatConversionException: Conversion = ';'
  13. 计算锋生的函数 frontogenesis
  14. Feign传输MultipartFile 报错 Error converting request body
  15. USDCNY即期均值顺势信号——基于Python的均值回归进阶策略
  16. Linux命令·rmdir
  17. 用Iconv应对NodeJs对称加密技术在汉字编码与NoSQL的一些坑洞
  18. 微信订阅号之连接服务器
  19. C语言面试题(嵌入式开发方向,附答案及点评)
  20. 2022 计算机网络面试题整理(二)

热门文章

  1. 感知算法工程师卷得要死,算法部署工程师却成为了香饽饽
  2. vmware桥接模式-无法内网通-克隆机要删除的文件-ssl
  3. 简析外贸网站建设应注意的要术
  4. Android 悬浮窗,绝对是目前相关悬浮窗开源库最完美的适配方案
  5. 永恒python太变态了_【图片】【教皇】【永恒】Python 全方位评测【反恐精英ol吧】_百度贴吧...
  6. 使用WebCollector爬虫框架进行微信公众号文章爬取并持久化
  7. 深信服下一代防火墙NGAF高可用组网
  8. 计算机毕业设计Python+uniapp+安卓仿网易云音乐客户端APP(WEB+APP+LW)
  9. node.js毕业设计安卓仿网易云音乐客户端APP(程序+APP+LW)
  10. Cytoskeleton——高纯度Tubulin聚合检测试剂盒