多模字符串匹配算法在这里指的是在一个字符串中寻找多个模式字符字串的问题。一般来说,给出一个长字符串和很多短模式字符串,如何最快最省的求出哪些模式字符串出现在长字符串中是我们所要思考的。该算法广泛应用于关键字过滤、入侵检测、病毒检测、分词等等问题中。多模问题一般有Trie树,AC算法,WM算法等等。

背景

在做实际工作中,最简单也最常用的一种自然语言处理方法就是关键词匹配,例如我们要对n条文本进行过滤,那本身是一个过滤词表的,通常进行过滤的代码如下

for (String document : documents) {

for (String filterWord : filterWords) {

if (document.contains(filterWord)) {

//process ...

}

}

}

如果文本的数量是n,过滤词的数量是k,那么复杂度为O(nk);如果关键词的数量较多,那么支行效率是非常低的。

计算机科学中,Aho–Corasick算法是由AlfredV.Aho和MargaretJ.Corasick发明的字符串搜索算法,用于在输入的一串字符串中匹配有限组“字典”中的子串。它与普通字符串匹配的不同点在于同时与所有字典串进行匹配。算法均摊情况下具有近似于线性的时间复杂度,约为字符串的长度加所有匹配的数量。然而由于需要找到所有匹配数,如果每个子串互相匹配(如字典为a,aa,aaa,aaaa,输入的字符串为aaaa),算法的时间复杂度会近似于匹配的二次函数。

原理

在一般的情况下,针对一个文本进行关键词匹配,在匹配的过程中要与每个关键词一一进行计算。也就是说,每与一个关键词进行匹配,都要重新从文档的开始到结束进行扫描。AC自动机的思想是,在开始时先通过词表,对以下三种情况进行缓存:

按照字符转移成功进行跳转(success表)

按照字符转移失败进行跳转(fail表)

匹配成功输出表(output表)

因此在匹配的过程中,无需从新从文档的开始进行匹配,而是通过缓存直接进行跳转,从而实现近似于线性的时间复杂度。

构建

构建的过程分三个步骤,分别对success表,fail表,output表进行构建。其中output表在构建sucess和fail表进行都进行了补充。fail表是一对一的,output表是一对多的。

按照字符转移成功进行跳转(success表)

sucess表实际就是一棵trie树,构建的方式和trie树是一样的,这里就不赘述。

按照字符转移失败进行跳转(fail表)

设这个节点上的字母为C,沿着他父亲的失败指针走,直到走到一个节点,他的儿子中也有字母为C的节点。然后把当前节点的失败指针指向那个字母也为C的儿子。如果一直走到了root都没找到,那就把失败指针指向root。使用广度优先搜索BFS,层次遍历节点来处理,每一个节点的失败路径。

匹配成功输出表(output表)

匹配

举例说明,按顺序先后添加关键词he,she,,his,hers。在匹配ushers过程中。先构建三个表,如下图,实线是sucess表,虚线是fail表,结点后的单词是ourput表。

代码

import java.util.*;

/**

*/

public class ACTrie {

private Boolean failureStatesConstructed = false;

//是否建立了failure表

private Node root;

//根结点

public ACTrie() {

this.root = new Node(true);

}

/**

* 添加一个模式串

* @param keyword

*/

public void addKeyword(String keyword) {

if (keyword == null || keyword.length() == 0) {

return;

}

Node currentState = this.root;

for (Character character : keyword.toCharArray()) {

currentState = currentState.insert(character);

}

currentState.addEmit(keyword);

}

/**

* 模式匹配

*

* @param text 待匹配的文本

* @return 匹配到的模式串

*/

public Collection parseText(String text) {

checkForConstructedFailureStates();

Node currentState = this.root;

List collectedEmits = new ArrayList<>();

for (int position = 0; position < text.length(); position++) {

Character character = text.charAt(position);

currentState = currentState.nextState(character);

Collection emits = currentState.emit();

if (emits == null || emits.isEmpty()) {

continue;

}

for (String emit : emits) {

collectedEmits.add(new Emit(position - emit.length() + 1, position, emit));

}

}

return collectedEmits;

}

/**

* 检查是否建立了failure表

*/

private void checkForConstructedFailureStates() {

if (!this.failureStatesConstructed) {

constructFailureStates();

}

}

/**

* 建立failure表

*/

private void constructFailureStates() {

Queue queue = new LinkedList<>();

// 第一步,将深度为1的节点的failure设为根节点

//特殊处理:第二层要特殊处理,将这层中的节点的失败路径直接指向父节点(也就是根节点)。

for (Node depthOneState : this.root.children()) {

depthOneState.setFailure(this.root);

queue.add(depthOneState);

}

this.failureStatesConstructed = true;

// 第二步,为深度 > 1 的节点建立failure表,这是一个bfs 广度优先遍历

/**

* 构造失败指针的过程概括起来就一句话:设这个节点上的字母为C,沿着他父亲的失败指针走,直到走到一个节点,他的儿子中也有字母为C的节点。

* 然后把当前节点的失败指针指向那个字母也为C的儿子。如果一直走到了root都没找到,那就把失败指针指向root。

* 使用广度优先搜索BFS,层次遍历节点来处理,每一个节点的失败路径。

*/

while (!queue.isEmpty()) {

Node parentNode = queue.poll();

for (Character transition : parentNode.getTransitions()) {

Node childNode = parentNode.find(transition);

queue.add(childNode);

Node failNode = parentNode.getFailure().nextState(transition);

childNode.setFailure(failNode);

childNode.addEmit(failNode.emit());

}

}

}

private static class Node{

private Map map;

private List emits;

//输出

private Node failure;

//失败中转

private Boolean isRoot = false;

//是否为根结点

public Node(){

map = new HashMap<>();

emits = new ArrayList<>();

}

public Node(Boolean isRoot) {

this();

this.isRoot = isRoot;

}

public Node insert(Character character) {

Node node = this.map.get(character);

if (node == null) {

node = new Node();

map.put(character, node);

}

return node;

}

public void addEmit(String keyword) {

emits.add(keyword);

}

public void addEmit(Collection keywords) {

emits.addAll(keywords);

}

/**

* success跳转

* @param character

* @return

*/

public Node find(Character character) {

return map.get(character);

}

/**

* 跳转到下一个状态

* @param transition 接受字符

* @return 跳转结果

*/

private Node nextState(Character transition) {

Node state = this.find(transition);

// 先按success跳转

if (state != null) {

return state;

}

//如果跳转到根结点还是失败,则返回根结点

if (this.isRoot) {

return this;

}

// 跳转失败的话,按failure跳转

return this.failure.nextState(transition);

}

public Collection children() {

return this.map.values();

}

public void setFailure(Node node) {

failure = node;

}

public Node getFailure() {

return failure;

}

public Set getTransitions() {

return map.keySet();

}

public Collection emit() {

return this.emits == null ? Collections.emptyList() : this.emits;

}

}

private static class Emit{

private final String keyword;

//匹配到的模式串

private final int start;

private final int end;

/**

* 构造一个模式串匹配结果

* @param start 起点

* @param end 重点

* @param keyword 模式串

*/

public Emit(final int start, final int end, final String keyword) {

this.start = start;

this.end = end;

this.keyword = keyword;

}

/**

* 获取对应的模式串

* @return 模式串

*/

public String getKeyword() {

return this.keyword;

}

@Override

public String toString() {

return super.toString() + "=" + this.keyword;

}

}

public static void main(String[] args) {

ACTrie trie = new ACTrie();

trie.addKeyword("hers");

trie.addKeyword("his");

trie.addKeyword("she");

trie.addKeyword("he");

Collection emits = trie.parseText("ushers");

for (Emit emit : emits) {

System.out.println(emit.start + " " + emit.end + "\t" + emit.getKeyword());

}

}

}

总结

以上就是本文关于多模字符串匹配算法原理及Java实现代码的全部内容,希望对大家有所帮助。感兴趣的朋友可以继续参阅本站:

如有不足之处,欢迎留言指出。感谢朋友们对本站的支持。

java 字符串匹配_多模字符串匹配算法原理及Java实现代码相关推荐

  1. java字符串匹配dp_[OI]字符串DP小结

    顾名又思义,是在字符串上进行的DP操作.因为字符串本身可以看作是一个序列,所以有些时候字符串DP可以用区间DP来解决. P2246 SAC#1 - Hello World(升级版) 题目描述 在讲义的 ...

  2. iOS 字符串截取、iOS 字符串替换、iOS 字符串分隔、iOS 字符串匹配、截取字符串、匹配字符串、分隔字符串

    iOS之字符串截取.iOS 字符串替换.iOS字符串分隔.iOS之字符串匹配.截取字符串.匹配字符串.分隔字符串 1.iOS 字符串截取 //1.ios截取字符串NSString *string =@ ...

  3. 大量的数据做字符串匹配_【重学数据结构与算法(JS)】字符串匹配算法(三)——BM算法...

    前言 文章的一开头,还是要强调下字符串匹配的思路 将模式串和主串进行比较 从前往后比较 从后往前比较 2. 匹配时,比较主串和模式串的下一个位置 3. 失配时, 在模式串中寻找一个合适的位置 如果找到 ...

  4. 数据结构 kmp字符串匹配_用动画解释 KMP 算法

    大家好,我是一个每天在互联网都被读者催更催到爆肝,爆肾小鹿童鞋. 说实话,一些数据结构和算法我这辈子都不可能用到实际当中,但个人一直觉得能把复杂的东西讲明白是一件很牛逼的事情. 毕竟想牛逼也是很难的, ...

  5. 文本字符分析python_Python实现字符串匹配算法代码示例

    字符串匹配存在的问题 Python中在一个长字符串中查找子串是否存在可以用两种方法:一是str的find()函数,find()函数只返回子串匹配到的起始位置,若没有,则返回-1:二是re模块的find ...

  6. 蓝桥杯 java 字符串匹配

    问题描述 给出一个字符串和多行文字,在这些文字中找到字符串出现的那些行.你的程序还需支持大小写敏感选项:当选项打开时,表示同一个字母的大写和小写看作不同的字符:当选项关闭时,表示同一个字母的大写和小写 ...

  7. java字符序列_字符序列(CharSequence)

    字符序列(CharSequence) 1.相关接口 java.lang.CharSequence 接口 java.lang.Appendable接口 java.lang.Comparable接口 ja ...

  8. java字符数组转化为字符串_java字符数组转字符串,java数组转字符串

    字符串转数组 使用Java split() 方法 split() 方法根据匹配给定的正则表达式来拆分字符串. 注意: . . | 和 * 等转义字符,必须得加 \\.多个分隔符,可以用 | 作为连字符 ...

  9. java io字符输出流_灵魂一击!详解Java中的IO输入输出流

    什么是流?流表示任何有能力产生数据的数据源对象或者是有能力接收数据的接收端对象,它屏蔽了实际的I/O设备中处理数据的细节. IO流是实现输入输出的基础,它可以很方便地实现数据的输入输出操作,即读写操作 ...

最新文章

  1. k2677场效应管参数引脚_常用功率场效应管参数大全
  2. iOS 隐藏顶部状态栏方式和更改颜色
  3. Linux不能上网ping:unknown host问题怎么解决?
  4. 信息系统项目管理师考试时间安排
  5. 【简单易懂】getBean(id)和getBean(Class)使用的区别
  6. python自动化工具哪个好用_10款好用的自动化测试工具推荐
  7. UI设计实用素材|数据可视化UX套件
  8. 剑指 Offer 43. 1~n 整数中 1 出现的次数
  9. 推荐一个免费绘制软件架构图的网站
  10. POJ 1860 Currency Exchange 最短路+负环
  11. OpenCV学习:OpenCV文件一览
  12. 信号与线性系统翻转课堂笔记1
  13. C++打卡17-【排序模板】选择排序
  14. Vue父组件传参数给子组件时,页面崩溃或者报undefined或者数据为空或者执行了两遍
  15. 2019最新补单安全小技巧
  16. Docker设置阿里云镜像加速器
  17. 实战项目——智能农业沙盘
  18. UDP重传,似牛非马。。。
  19. 灰色预测模型_python
  20. 新一代音视频架构在元宇宙场景的实践

热门文章

  1. linux gentoo安装,Gentoo安装教程——萌新向
  2. 去除小圆点_去除li小圆点以及解决其空格问题
  3. 为什么c语言读文件少内容,这个程序为什么在读文件时候读不全数据?
  4. java udp 同一个端口实现收发_Java网络编程之UDP协议
  5. iframe 跨域_【梯云纵】搞定前端跨域
  6. linux协议栈劫持,Linux系统优化之TCP协议栈优化-基本篇1
  7. lptv自建服务器,如何搭建自己的IPTV平台
  8. simulink和c语言开发,Simulink之嵌入式C代码生成-应用层和底层的接口
  9. html5绘制矩形动画,HTML5下绘制矩形教程
  10. 去掉窗口_Flink 基础——窗口(Window)理论篇