文章目录

  • BF算法
  • RK算法
  • 编辑器中的全局替换方法:BM算法
    • 坏字符
    • 好后缀规则
    • 代码实现
  • KMP算法

一说到字符串匹配算法,不知道会有多少小伙伴不由自主的想起那个kmp算法呢?

想到是很正常的,谁让它那么优秀呢。


BF算法

不要被事物的表面现象所迷惑,这个算法全称:Brute Force,有个拉风的中文名:暴力匹配算法。

能想明白了吧。

如果模式串长度为 m,主串长度为 n,那在主串中,就会有 n-m+1 个长度为 m 的子串,我们只需要暴力地对比这 n-m+1 个子串与模式串,就可以找出主串与模式串匹配的子串。

1、从头开始往后遍历匹配;
2、遇上不对了,就回头,把子串和主串的匹配头后移一位
3、重复以上。直到找到或确定找不到。

复杂度很高啊,但是在实际开发中也是比较常用的。为什么呢?
真当天天都有成千上万个字符的主串让我们去匹配吗?一般都比较短,而且,统计意义上,算法执行效率不会真的到M*N的地步。

理论还是要结合实际的。

还有另一个原因,就是它好写。当然kmp现在更好写,因为封装好了。
我说的是类似的场景,没有封装好的函数时候,好写,好改。


RK算法

RK 算法的思路是这样的:我们通过哈希算法对主串中的 n-m+1 个子串分别求哈希值,然后逐个与模式串的哈希值比较大小。如果某个子串的哈希值与模式串相等,那就说明对应的子串和模式串匹配了(这里先不考虑哈希冲突的问题,后面我们会讲到)。因为哈希值是一个数字,数字之间比较是否相等是非常快速的,所以模式串和子串比较的效率就提高了。

有没有方法可以提高哈希算法计算子串哈希值的效率呢?

我们假设要匹配的字符串的字符集中只包含 K 个字符,我们可以用一个 K 进制数来表示一个子串,这个 K 进制数转化成十进制数,作为子串的哈希值。

比如要处理的字符串只包含 a~z 这 26 个小写字母,那我们就用二十六进制来表示一个字符串。我们把 a~z 这 26 个字符映射到 0~25 这 26 个数字,a 就表示 0,b 就表示 1,以此类推,z 表示 25。

这里有一个小细节需要注意,那就是 26^(m-1) 这部分的计算,我们可以通过查表的方法来提高效率。我们事先计算好 26^0、26^1、26^2……26^(m-1),并且存储在一个长度为 m 的数组中

模式串哈希值与每个子串哈希值之间的比较的时间复杂度是 O(1),总共需要比较 n-m+1 个子串的哈希值,所以,这部分的时间复杂度也是 O(n)。所以,RK 算法整体的时间复杂度就是 O(n)。

但是呢,还有一个很致命的问题,叫做数值过大。
以幂增的速度是非常快的,用不了多久int就hold不住了啊,那要怎么办?难道我们前面所做的努力都白费了?

其实不然。
比方说我们可以改乘为加,当我们匹配到一样的哈希值的时候,再打开子串进行比对,因为相加的话是会有哈西冲突的。

此外,我们还可以加点优化,一边对主串构建,一边对子串进行匹配,如果一样的话就不继续计算后面的hash了。
该省的时候就要省,该花的时候就要花。


编辑器中的全局替换方法:BM算法

用过吗?比方说要在我这篇博客里找出全部的“主串”这个词,有没有想过其底层的原理?

这是一个性能优于KMP的算法。

坏字符

BM 算法的匹配顺序比较特别,它是按照模式串下标从大到小的顺序,倒着匹配的。

我们从模式串的末尾往前倒着匹配,当我们发现某个字符没法匹配的时候。我们把这个没有匹配的字符叫作坏字符(主串中的字符)

这时候该如何操作呢?我们去子串中寻找这个坏字符,如果找到了,就让两个字符的位置对上,继续往后,如果没有找到,就将整个子串移动到坏字符后面。

很显然,这会儿没找到。

接下来该怎么滑呢?又是个坏字符。
但是在子串中找到了那个坏字符,那就将两个字符的位置对上。

模式串中有对应的坏字符时,让模式串中 最靠右 的对应字符与坏字符相对。

但是呢,用这个规则还是不太够用的,有些个特殊情况吧,它会导致不但不会向后滑动模式串,还有可能会倒推、

比如说主串:kkkkkkkkkkkkkkkkkk,模式串是 akk


好后缀规则

如果模式串中存在已经匹配成功的好后缀,则把目标串与好后缀对齐,然后从模式串的最尾元素开始往前匹配。

如果无法找到匹配好的后缀,找一个匹配的最长的前缀,让目标串与最长的前缀对齐:

如果完全不存在和好后缀匹配的子串,则右移整个模式串


代码实现

难顶,我一定会回来的

// a,b 表示主串和模式串;n,m 表示主串和模式串的长度。
public int bm(char[] a, int n, char[] b, int m) {int[] bc = new int[SIZE]; // 记录模式串中每个字符最后出现的位置generateBC(b, m, bc); // 构建坏字符哈希表int[] suffix = new int[m];boolean[] prefix = new boolean[m];generateGS(b, m, suffix, prefix);int i = 0; // j 表示主串与模式串匹配的第一个字符while (i <= n - m) {int j;for (j = m - 1; j >= 0; --j) { // 模式串从后往前匹配if (a[i+j] != b[j]) break; // 坏字符对应模式串中的下标是 j}if (j < 0) {return i; // 匹配成功,返回主串与模式串第一个匹配的字符的位置}int x = j - bc[(int)a[i+j]];int y = 0;if (j < m-1) { // 如果有好后缀的话y = moveByGS(j, m, suffix, prefix);}i = i + Math.max(x, y);}return -1;
}// j 表示坏字符对应的模式串中的字符下标 ; m 表示模式串长度
private int moveByGS(int j, int m, int[] suffix, boolean[] prefix) {int k = m - 1 - j; // 好后缀长度if (suffix[k] != -1) return j - suffix[k] +1;for (int r = j+2; r <= m-1; ++r) {if (prefix[m-r] == true) {return r;}}return m;
}

KMP算法

【C++】算法集锦(10)通俗讲kmp算法

字符串匹配算法知多少?相关推荐

  1. KMP字符串匹配算法理解(转)

    一.引言 主串(被扫描的串):S='s0s1...sn-1',i 为主串下标指针,指示每回合匹配过程中主串的当前被比较字符: 模式串(需要在主串中寻找的串):P='p0p1...pm-1',j 为模式 ...

  2. 字符串匹配算法之KMP

    目录 需求 基础知识 逻辑解析 源码实现 需求 先简单描述溪源曾经遇到的需求: 需求一:项目结果文件中实验结论可能会存在未知类型.转换错误.空指针.超过索引长度等等.这里是类比需求,用日常开发中常出现 ...

  3. 字符串匹配KMP算法设计C语言,KMP字符串匹配算法笔记

    网上有很多解释KMP算法的文章,A_B_C_ABC的这篇很详细,反复看了好几遍,总算理解了个大概,但是总觉得没那么爽快.其实,一种算法各人有各人的理解方法,找到适合自己理解的才容易记住.下面是我对这个 ...

  4. 字符串匹配算法——KMP算法学习

    KMP算法是用来解决字符串的匹配问题的,即在字符串S中寻找字符串P.形式定义:假设存在长度为n的字符数组S[0...n-1],长度为m的字符数组P[0...m-1],是否存在i,使得SiSi+1... ...

  5. 数据结构与算法之美笔记——基础篇(下):图、字符串匹配算法(BF 算法和 RK 算法、BM 算法和 KMP 算法 、Trie 树和 AC 自动机)

    图 如何存储微博.微信等社交网络中的好友关系?图.实际上,涉及图的算法有很多,也非常复杂,比如图的搜索.最短路径.最小生成树.二分图等等.我们今天聚焦在图存储这一方面,后面会分好几节来依次讲解图相关的 ...

  6. 字符串匹配算法(BF、KMP)

    BF算法 描述: BF,Brute Force,暴力匹配的意思,是最简单直观的字符串匹配算法.假设有主串s1和子串s2,根据BF算法判断s1是否包含s2的步骤如下: 初始下标指针 i, j 分别指向s ...

  7. 字符串匹配算法(BF算法KMP算法)

    字符串匹配算法 暴力匹配(BF)算法 KMP算法 next数组 求next数组的练习 next数组的优化(nextval数组) 练习 暴力匹配(BF)算法 BF算法,即暴力(Brute Force)算 ...

  8. 字符串匹配算法——JavaScript

    字符串匹配算法--javascript 文章目录 字符串匹配算法--javascript 字符串匹配 BF算法 (暴力匹配) √ KMP算法 √ BM算法 **坏字符规则** 好后缀规则 Trid树( ...

  9. 字符串匹配算法 -- BM(Boyer-Moore) 和 KMP(Knuth-Morris-Pratt)详细设计及实现

    文章目录 1. 算法背景 2. BM(Boyer-Moore)算法 2.1 坏字符规则(bad character rule) 2.2 好后缀规则(good suffix shift) 2.3 复杂度 ...

  10. Go 语言实现字符串匹配算法 -- BF(Brute Force) 和 RK(Rabin Karp)

    今天介绍两种基础的字符串匹配算法,当然核心还是熟悉一下Go的语法,巩固一下基础知识 BF(Brute Force) RK(Rabin Karp) 源字符串:src, 目标字符串:dest: 确认des ...

最新文章

  1. GitHub与PyCharm配置最新简单教程
  2. linux控制台界面编程,控制台窗口界面的编程控制(二)
  3. 2打开md文件_File Cabinet Pro for Mac(菜单栏文件管理器)
  4. 变异蛮牛 树,dfs,二分图染色 牛客白月赛44
  5. javaCh6课堂测试
  6. Python基于OpenCV的人脸检测
  7. 【Git】Git-常用命令备忘录(二)
  8. Leaflet文档阅读笔记-Quick Start Guide笔记
  9. syslog工具_07 Docker 可视化管理和监控工具
  10. 前端架构之路:使用Vue开始第一个项目
  11. 天正坐标标注显示不全_高效率的天正CAD技巧,其实制图很简单!
  12. 互联网的职场红利已经没了
  13. 标书导出html,Python爬取比比网中标标书并保存成PDF格式
  14. java删除文件夹及下面的所有文件
  15. 做了三年开发后,我选择回家创业
  16. 十首最美的诗,醉美了整个秋天
  17. 五年谷歌ML Infra生涯,我学到最重要的3个教训
  18. 入门级node+uni-app开发即时通讯聊天室(3)用户的搜索以及好友添加(二)
  19. 阿里云+Android Studio+sql数据库实现增改删查与云端登录数据交互
  20. 电子英汉词典c语言程序设计报告,英汉电子词典设计报告_设计_C语言_C语言程序设计.doc...

热门文章

  1. 【基本算法】概率算法
  2. sublime 格式化Json
  3. 数据库基本知识点总结
  4. 信息收集(C段扫描)
  5. matlab划分训练集验证和测试集代码_Matlab随机划分训练集和测试集
  6. android x5webview截长图
  7. 微信小程序 java运动健身课程打卡系统uniapp
  8. c语言fltk图形库,FLTK编程模型
  9. MATLAB制作简易小动画入门详解
  10. 3.6 矩阵秩的其它重要关系