1. 单模式串匹配
    BF 算法和 RK 算法
    BM 算法和 KMP 算法
  2. 多模式串匹配算法
    Trie 树和 AC 自动机

KMP 算法

KMP 算法是根据三位作者(D.E.Knuth,J.H.Morris 和 V.R.Pratt)的名字来命名的,算法的全称是 Knuth Morris Pratt 算法,简称为 KMP 算法。

思想

1,KMP算法的核心思想,与BM算法非常相近。假设主册是a,模式串是b。再模式串与主串匹配的过程中,当遇到不可匹配的字符的时候,找到一些规律,将模式串往后多滑动几位,跳过肯定不会匹配的情况。
2,当遇到坏字符的时候,我们就要把模式串往后滑动,在滑动的过程中,只要模式串和好前缀有上下重合,前面几个字符的比较,就相当于拿好前缀的后缀子串,跟模式串的前缀子串在比较。
3,KMP算法就是试图寻找一种规律:在模式串和主串匹配的过程中,当遇到坏字符后,对于已经对过的好前缀,将模式串一次性滑动很多位?
4,我们只需要拿好前缀本身,在它的后缀子串中,查找最长的那个可以跟好前缀的前缀子串匹配的。假设最长的可匹配的那部分前缀子串是{v},长度是k。我们把模式串一次性往后滑动j-k位,相当于,每次遇到坏字符的时候,我们就把j更新为k,i不变,然后继续比较。

5,KMP算法也可以提前构建一个数组,用来存储模式串中每个前缀(这些前缀都有可能是好前缀)的最长可匹配子串的结尾字符下标。将这个数组定义为next数组,很多书中将这个数组起名为**失效函数(failure function)。**next数组的下标是每个前缀结尾字符下标,数组的值是这个前缀的最长可以匹配的前缀子串的结尾字符下标。

next数组(失效函数)计算方法

精髓:k = next[k]
因为前一个的最长串的下一个字符不与最后一个相等,需要找前一个的次长串,问题就变成了求0到next(k)的最长串,如果下个字符与最后一个不等,继续求次长串,也就是下一个next(k),直到找到,或者完全没有

①:按照下标从小到大,依次计算next数组的值。当我们要计算next[i]时,前面的next[0],next[1],……,next[i-1]应该已经计算出来了。利用已经计算出来的next值,可以快速推导出next[i]的值。
②:如果next[i-1] = k-1,即子串b[0,k-1]是b[0,i-1]的最长可匹配前缀子串。如果子串b[0,k-1]的下一个字符b[k],与b[0,i-1]的下一个字符b[i]匹配,那子串b[0,k]就是b[0,i]的最长可匹配前缀子串。所以,next[i]等于k。但是,如果b[0,k-1]的下一个字符b[k]跟b[0,i-1]的下一个字符不相等,则需要进一步处理。

③:假设b[0,i]的最长可匹配后缀子串是b[r,i]。如果把最后一个字符去掉,那b[r,i-1]肯定是b[0,i-1]的可匹配后缀子串,但不一定是最长可匹配后缀子串。所以,既然b[0,i-1]最长可匹配后缀子串对应的模式串的前缀子串的下一个字符并不等于b[i],那么我们就可以考察b[0,i-1]的次长可匹配后缀子串b[x,i-1]对应的可匹配前缀子串b[0,i-1-x]的下一个字符b[i-x]是否等于b[i]。如果等于,那[x,i]就是b[0,i]的最长可匹配后缀子串。

④:求b[0,i-1]的次长可匹配后缀子串,次长可匹配后缀子串肯定被包含在最长可匹配后缀子串中,而最长可匹配后缀子串又对应最长可匹配前缀子串b[0,y]。于是,查找b[0,i-1]的次长可匹配后缀子串,这个问题就变成,查找b[0,y]的最长匹配后缀子串的问题。

⑤:按照这个思路,可以考察完所有的b[0,i-1]的可匹配后缀子串b[y,i-1],直到找到一个可匹配的后缀子串,他对应的前缀子串的下一个字符等于b[i],那这个b[y,i]就是b[0,i]的最长可匹配后缀子串。


// a, b分别是主串和模式串;n, m分别是主串和模式串的长度。
public static int kmp(char[] a, int n, char[] b, int m) {int[] next = getNexts(b, m);int j = 0;for (int i = 0; i < n; ++i) {while (j > 0 && a[i] != b[j]) { // 一直找到a[i]和b[j]j = next[j - 1] + 1;}if (a[i] == b[j]) {++j;}if (j == m) { // 找到匹配模式串的了return i - m + 1;}}return -1;
}// b表示模式串,m表示模式串的长度
private static int[] getNexts(char[] b, int m) {int[] next = new int[m];next[0] = -1;int k = -1;for (int i = 1; i < m; ++i) {//因为前一个的最长串的下一个字符不与最后一个相等,需要找前一个的次长串,问题就变成了求0到next(k)的最长串,如果下个字符与最后一个不等,继续求次长串,也就是下一个next(k),直到找到,或者完全没有while (k != -1 && b[k + 1] != b[i]) {k = next[k];}if (b[k + 1] == b[i]) {++k;}next[i] = k;}return next;
}

KMP算法复杂度分析

KMP算法包含两部分,**第一部分是构建next数组,第二部分是借助next数组匹配。**所以时间复杂度分析要分别从这两部分来分析。

关于第一部分的时间复杂度:
计算next数组得代码中,第一层for循环中i从1到m-1,即内部的代码被执行了m-1次,for循环内部代码有一个while循环,如果我们能知道每次for循环,while循环平均执行的次数,假设是k,那时间复杂度就是O(k*m)。但是,while循环执行的次数不好统计,所以放弃这种方式。

可以找一些参照变量,i和k。i从1开始一直增加到m,而k并不是每次for循环都会增加,所以,k累积增加的值肯定小于m。而while循环里k=next[k]。实际上是在减小k的值,k累积都没有增加超过m,所以while循环里面k=next[k]总的执行次数也不可能超过m。因此next数组计算的时间复杂度是O(m)。

关于第二部分的时间复杂度
I从0循环增长到n-1,j的增量不可能超过i,所以肯定小于n。而while循环中的那条语句j=next[j-1]+1,不会让j增长的。因为next[j-1]的值肯定小于j-1,所以while循环中的这条语句实际上也是让j的值减少。而j总共增长的量都会超过n,那减少的量也不可能超过n,所以while循环中的这条语句总的执行次数也不会超过n,所以这部分的时间复杂度是O(n)。

所以综合两部分的时间复杂度,KMP算法的时间复杂度就是O(m+n)

【数据结构与算法】字符串匹配 KMP 算法相关推荐

  1. kmp算法详解php,php中字符串匹配KMP算法实现例子

    KMP算法是一个比较高级的算法了,加了改进了,下面我们来在php中实现KMP算法,希望例子对各位同学会带来帮助哦. kmp算法是一种改进的字符串匹配算法,由D.E.Knuth与V.R.Pratt和J. ...

  2. C++实现字符串匹配KMP算法

    文章目录 1. 概述 2. 代码实现 3. 代码测试 1. 概述 Kmp算法的介绍及思想参阅下面两篇文章: 字符串匹配KMP算法 算法)通俗易懂的字符串匹配KMP算法及求next值算法 2. 代码实现 ...

  3. 字符串匹配 KMP算法

    问题描述:字符串匹配即查找待匹配字符串(模式串)p在主串s中的位置.一般处理这种问题往往采用简单粗暴的方法--暴力匹配法.所谓暴力匹配法,就是对主串s的每一个字符与要匹配的字符串p的每个字符进行逐一匹 ...

  4. 字符串匹配——KMP算法

    字符串匹配--KMP算法 ​ 字符串匹配是计算机编程中最常使用到的基础算法之一.字符串匹配相关的算法很多,Knuth-Morris-Pratt(KMP)算法是最常用的之一.最近在学习KMP算法,学习了 ...

  5. 字符串匹配KMP算法的理解(详细)

    1. 引言 本KMP原文最初写于2年多前的2011年12月,因当时初次接触KMP,思路混乱导致写也写得混乱.所以一直想找机会重新写下KMP,但苦于一直以来对KMP的理解始终不够,故才迟迟没有修改本文. ...

  6. 字符串匹配KMP算法

    字符串匹配KMP KMP过程其实就是去找下一个更好的状态的过程,省略去了中间穷举的无用过程,直接跳到下一个更好的状态,通过模式串本身的信息,站在模式串的角度来考虑问题 取长的一对 若想让模式串直接从S ...

  7. 字符串匹配——KMP算法【C语言】

    KMP算法是一种改进的字符串匹配算法,由D.E.Knuth,J.H.Morris和V.R.Pratt提出的,因此人们称它为克努特-莫里斯-普拉特操作(简称KMP算法).KMP算法的核心是利用匹配失败后 ...

  8. C语言实现字符串匹配KMP算法

    相信很多人(包括自己)初识KMP算法的时候始终是丈二和尚摸不着头脑,要么完全不知所云,要么看不懂书上的解释,要么自己觉得好像心里了解KMP算法的意思,却说不出个究竟,所谓知其然不知其所以然是也. 字符 ...

  9. 字符串匹配KMP算法的讲解C++

    转自http://blog.csdn.net/starstar1992/article/details/54913261 也可以参考http://blog.csdn.net/liu940204/art ...

最新文章

  1. Java 数组的 12 个最佳方法
  2. 【转载】register、volatile、restrict 三关键字的用法
  3. UVa 537 - Artificial Intelligence?
  4. [知识图谱构建] 一.Neo4j图数据库安装初识及药材供应图谱实例
  5. 国产嵌入式操作系统发展思考
  6. 学习vue.js的自我梳理笔记
  7. 集结号!四大国产开源数据库共聚申城,共话未来技术演进
  8. 贪吃蛇python语言代码_Python贪吃蛇简单的代码
  9. spring读取XML配置文件的三种方式
  10. WSH:Web Shell生成器和命令行接口工具
  11. AndrOid系统亭子运行,饼干智能好物开箱 篇二十二:给父母换个手机,让他成楼下凉亭的拍照KOL...
  12. walking机器人入门教程-离线建图-cartographer算法建图
  13. php mysql orm_初探PHP ORM框架Doctrine
  14. vue视频播放插件vue-video-player
  15. 之江实验室牵手国科大杭高院 重磅启动全方位合作
  16. 计算机平均数函数试题,计算机期末Excel表格题及二级考试常用函数
  17. 【基础知识】PCB布局设计入门步骤
  18. Google Earth Engine(GEE)——基于Landsat的高级植被指数 (AVI)、裸土指数 (BSI) 和冠层阴影指数 (SSI) 的计算
  19. freopen函数的运用
  20. 人工智能:长相越「娘」颜值越高

热门文章

  1. kafka 常用命令汇总
  2. BZOJ 4241 分块
  3. 数据库 数据库SQL语句五
  4. NYU Hand Pose Dataset
  5. UVA 11557 - Code Theft (KMP + HASH)
  6. dataBinding和retrofit的使用
  7. ssh WARNING: REMOTE HOST IDENTIFICATION HAS CHANGED!
  8. postgresql数据库迁移技巧(降低版本迁移到GreenPlum pg11-pg8)
  9. winmail计算机三级,2016年计算机三级网络技术机考模拟题(1)
  10. wangeditor修改图片上传和视频上传