ac自动机 匹配最长前缀_Aho Corasick自动机结合DoubleArrayTrie极速多模式匹配
本文使用Double Array Trie实现了一个性能极高的Aho Corasick自动机,应用于分词可以取得1400万字每秒,约合27MB/s的分词速度。其中词典为150万词,构建耗时1801 ms。以前就在构想将AC自动机与双数组Trie树结合起来,考虑到持久化比较困难(goto和fail表是内存指针/引用),一直没下决心实现,今天终于成功了。
AC自动机能高速完成多模式匹配,然而具体实现聪明与否决定最终性能高低。大部分实现都是一个Map了事,无论是TreeMap的对数复杂度,还是HashMap的巨额空间复杂度与哈希函数的性能消耗,都会降低整体性能。
双数组Trie树能高速O(n)完成单串匹配,并且内存消耗可控,然而软肋在于多模式匹配,如果要匹配多个模式串,必须先实现前缀查询,然后频繁截取文本后缀才可多匹配,这样一份文本要回退扫描多遍,性能极低。
如果能用双数组Trie树表达AC自动机,就能集合两者的优点,得到一种近乎完美的数据结构。在我的Java实现中,我称其为AhoCorasickDoubleArrayTrie,支持泛型和持久化,自己非常喜爱。
原理
基本原理是为一颗双数组Trie树的每个状态(体现为下标)附上额外的信息。在《Aho-Corasick算法的Java实现与分析》我曾经提到过,AC自动机的基础(success表)就是Trie树,只不过比Trie树多了output表和fail表。那么AhoCorasickDoubleArrayTrie的构建原理就是为每个状态(base[i]和check[i])构建output[i][]和fail[i]。
构建
双数组Trie树的构建是一个先序dfs,AC自动机的构建是一个先序bfs。如果同时构建或者先构建AC自动机,那么AC自动机的每个状态将无法对应到双数组Trie树的状态;另一方面,同步构建会导致代码不可控。
所以我的实现中采取了三步构建法——
构建trie树
即将所有模式串构建为一颗字典树,同时将终止状态绑定外部value。在实现上可以先用TreeMap简单实现。
构建双数组Trie树
有了trie树,将其压缩到两个数组上非常简单。有一些实现已经做得非常不错了,比如前面介绍的《双数组Trie树(DoubleArrayTrie)Java实现》。
与单独构建双数组Trie树不同,在为一个trie树State创建base[i]的时候,让该State记住自己的i,这样就建立State和下标的映射。
构建AC自动机
在构建AC自动机时,每构建一个节点State的fail表,就利用上述映射下标State.id将fail[id]设为failState.id。对于output表,也是同理。
其实构建完全可以离线进行,并不要求苛刻的速度。
查询
精确单模式匹配
AhoCorasickDoubleArrayTrie本质上是一颗双数组Trie树,所以它也像双数组Trie树一样支持
前缀查询
同上
多模式匹配
在《Aho-Corasick算法的Java实现与分析》中,每次转移返回的都是一个State引用,但是这次将其改为返回id,利用下标id,既可以按照success表(双数组base和check)转移,转移失败时也可以按照fail[id]退回到合适的位置。
具体实现
接口
返回所有匹配到的模式串
/**
* 匹配母文本
*
* @param text 一些文本
* @return 一个pair列表
*/
public List> parseText(String text)
其中Hit是一个表示命中结果的结构:
/**
* 一个命中结果
*
* @param
*/
public class Hit
{
/**
* 模式串在母文本中的起始位置
*/
public final int begin;
/**
* 模式串在母文本中的终止位置
*/
public final int end;
/**
* 模式串对应的值
*/
public final V value;
}
即时处理接口
很明显,返回一个巨大的List并不是个好主意,AhoCorasickDoubleArrayTrie提供即时处理的结构:
/**
* 处理文本
*
* @param text 文本
* @param processor 处理器
*/
public void parseText(String text, IHit processor)
其中IHit是一个轻便的接口:
/**
* 命中一个模式串的处理方法
*/
public interface IHit
{
/**
* 命中一个模式串
*
* @param begin 模式串在母文本中的起始位置
* @param end 模式串在母文本中的终止位置
* @param value 模式串对应的值
*/
void hit(int begin, int end, V value);
}
调用方法
TreeMap map = new TreeMap<>();
String[] keyArray = new String[]
{
"hers",
"his",
"she",
"he"
};
for (String key : keyArray)
{
map.put(key, key);
}
AhoCorasickDoubleArrayTrie act = new AhoCorasickDoubleArrayTrie<>();
act.build(map);
act.parseText("uhers", new AhoCorasickDoubleArrayTrie.IHit()
{
@Override
public void hit(int begin, int end, String value)
{
System.out.printf("[%d:%d]=%s\n", begin, end, value);
}
});
// 或者System.out.println(act.parseText("uhers"));
输出
[1:3]=he
[1:5]=hers
一些调试输出:
output:
107 : [0]
118 : [1]
120 : [2]
123 : [3, 0]
fail:
1 : 1
118 : 117
120 : 117
122 : 106
123 : 107
DoubleArrayTrie:
char = × h e × i s s × s × h e ×
i = 0 106 107 108 111 117 118 119 120 121 122 123 124
base = 1 5 108 -1 4 17 119 -2 121 -3 21 124 -4
check= 0 1 5 108 5 1 2 119 4 121 17 21 124
分词
将AhoCorasickDoubleArrayTrie应用于分词简直是物尽其用,HanLP中的核心词典已经替换为由AhoCorasickDoubleArrayTrie提供支持:
CoreDictionaryACDAT.trie.parseText(charArray, new AhoCorasickDoubleArrayTrie.IHit()
{
@Override
public void hit(int begin, int end, CoreDictionary.Attribute value)
{
wordNetStorage.add(begin + 1, new Vertex(new String(charArray, begin, end - begin), value));
}
});
另外,HanLP中还实现了一个基于AhoCorasickDoubleArrayTrie的最长分词器:
public void testACSegment() throws Exception
{
Segment segment = new AhoCorasickSegment();
segment.enablePartOfSpeechTagging(true);
System.out.println(segment.seg("江西鄱阳湖干枯,中国最大淡水湖变成大草原"));
}
输出:
[江西/ns, 鄱阳湖/ns, 干枯/vi, ,/nz, 中国/ns, 最大/gm, 淡水湖/n, 变成/v, 大草原/nz]
就是这个最长分词器,得到了前文逆天的分词速度!
public static void main(String[] args)
{
String text = "江西鄱阳湖干枯,中国最大淡水湖变成大草原";
System.out.println(SpeedTokenizer.segment(text));
long start = System.currentTimeMillis();
int pressure = 1000000;
for (int i = 0; i
{
SpeedTokenizer.segment(text);
}
double costTime = (System.currentTimeMillis() - start) / (double)1000;
System.out.printf("分词速度:%.2f字每秒", text.length() * pressure / costTime);
}
输出:
[江西/null, 鄱阳湖/null, 干枯/null, ,/null, 中国/null, 最大/null, 淡水湖/null, 变成/null, 大草原/null]
分词速度:14164305.95字每秒
真实应用环境中,在132 ms内分完了整本《我的团长我的团》.txt,共774165字,速度是5864886.36 字/秒!
反馈
技术问题请在Github上发issue ,大家一起讨论,也方便集中管理。博客留言、微博私信、邮件不受理任何开源项目相关的问题,谢谢合作!
反馈问题的时候请一定附上版本号、触发代码、输入输出,否则无法处理。
ac自动机 匹配最长前缀_Aho Corasick自动机结合DoubleArrayTrie极速多模式匹配相关推荐
- ac自动机 匹配最长前缀_别再暴力匹配字符串了,高效的KMP,才是真的香
如果你想了解KMP算法,请静下心读完这篇文章,一定不会辜负你的时间 暴力匹配(BF) 字符串匹配是我们在编程中常见的问题,其中从一个字符串(主串)中检测出另一个字符串(模式串)是一个非常经典的问题,当 ...
- ac自动机 匹配最长前缀_AC自动机算法
AC自动机简介: 首先简要介绍一下AC自动机:Aho-Corasick automation,该算法在1975年产生于贝尔实验室,是著名的多模匹配算法之一.一个常见的例子就是给出n个单词,再给出一段包 ...
- 《深入浅出DPDK》读书笔记(六):报文转发(run to completion、pipeline、精确匹配算法、最长前缀匹配LPM)
本文内容为读书笔记,摘自<深入浅出DPDK> 65.网络报文的处理和转发主要分为硬件处理部分与软件处理部分,由以下模块构成: ❑Packet input:报文输入. ❑Pre-proces ...
- 什么是最长前缀匹配?为什么网络前缀越长,其地址块就越小,路由就越具体?
使用 CIDR 时,路由表中的每个项目由"网络前缀"和"下一跳地址"组成.在查找路由表时可能会得到不止一个匹配结果. 应当从匹配结果中选择具有最长网络前缀的路由 ...
- 计算机网络-网络层(IPV4地址,网络转化技术NAT,子网划分和子网掩码,无分类编址CIDR,构成超网,最长前缀匹配)
文章目录 1. 分类IP地址 2. NAT技术 3. 子网划分和子网掩码 4. 无分类编址CIDR 1. 分类IP地址 IP地址:全世界唯一的32位/4字节标识符,标识路由器主机的接口. IP地址=网 ...
- HCNP——动态路由协议及分类和最长前缀匹配
基于协议算法的不同,可以将动态路由协议分为两类:一类是距离矢量路由协议:另一类是链路状态路由协议. 一.距离矢量路由协议(RIP) 距离矢量路由协议指的是基于距离矢量的路由协议,RIP是最具代表性的距 ...
- (小白练题)字符串最长前缀匹配
关于字符串的最长前缀匹配 学习数组的部分对二维字符数组一直不熟悉 导致一直没有思路 当然这也引出对字符型指针思考 当然要恶补一下相关知识点哈 编写一个函数来查找字符串数组中的最长公共前缀. 例题 如果 ...
- usaco ★Longest Prefix 最长前缀
★Longest Prefix 最长前缀 在生物学中,一些生物的结构是用包含其要素的大写字母序列来表示的.生物学家对于把长的序列 28 分解成较短的(称之为元素的)序列很感兴趣. 如果一个集合 P 中 ...
- 索引的使用—— 验证索引提升查询效率 || 避免索引失效 —— 全值匹配 /最左前缀法则/范围查询右边的列,不能使用索引/不要在索引列上进行运算操作/字符串不加单引号,造成索引失效
索引的使用 索引是数据库优化最常用也是最重要的手段之一, 通过索引通常可以帮助用户解决大多数的MySQL的性能优化问题 验证索引提升查询效率 查询速度很快,接近0s ,主要的原因是因为id为主键,有索 ...
最新文章
- 最常用的20个Git命令与示例,你都会了么?
- mysql-sql优化--笔记
- html嵌入war_WAR文件与具有嵌入式服务器的Java应用程序
- EXPORT_SYMBOL使用
- 华为SDN+VxLAN学习小记
- 嵌入式系统——软件开发模型
- 如何跨越线程调用窗体控件?(3)
- 关于PC机相关系统的远程桌面协作的相关介绍和配置(转帖整理)
- python3---情感分析(基于词典中文)
- xshell linux cmd命令大全,Linux(Xshell)命令大全
- 如何出一道计算机仿真题,计算机仿真试题
- Exception in thread main java.util.UnknownFormatConversionException: Conversion = ';'
- 计算锋生的函数 frontogenesis
- Feign传输MultipartFile 报错 Error converting request body
- USDCNY即期均值顺势信号——基于Python的均值回归进阶策略
- Linux命令·rmdir
- 用Iconv应对NodeJs对称加密技术在汉字编码与NoSQL的一些坑洞
- 微信订阅号之连接服务器
- C语言面试题(嵌入式开发方向,附答案及点评)
- 2022 计算机网络面试题整理(二)
热门文章
- 感知算法工程师卷得要死,算法部署工程师却成为了香饽饽
- vmware桥接模式-无法内网通-克隆机要删除的文件-ssl
- 简析外贸网站建设应注意的要术
- Android 悬浮窗,绝对是目前相关悬浮窗开源库最完美的适配方案
- 永恒python太变态了_【图片】【教皇】【永恒】Python 全方位评测【反恐精英ol吧】_百度贴吧...
- 使用WebCollector爬虫框架进行微信公众号文章爬取并持久化
- 深信服下一代防火墙NGAF高可用组网
- 计算机毕业设计Python+uniapp+安卓仿网易云音乐客户端APP(WEB+APP+LW)
- node.js毕业设计安卓仿网易云音乐客户端APP(程序+APP+LW)
- Cytoskeleton——高纯度Tubulin聚合检测试剂盒