转载请注明来源,并包含相关链接。

网上有很多讲解KMP算法的博客,我就不浪费时间再写一份了。直接推荐一个当初我入门时看的博客吧: http://www.cnblogs.com/yjiyjige/p/3263858.html 这位同学用详细的图文模式讲解了KMP算法,非常适合入门。 ----------------------------------------------------------------------------------------------

KMP的next数组求法是很不容易搞清楚的一部分,也是最重要的一部分。我这篇文章就以我自己的感悟来慢慢推导一下吧!保证你看完过后是知其然,也知其所以然。

如果你还不知道KMP是什么,请先阅读上面的链接,先搞懂KMP是要干什么。 下面我们就来说说KMP的next数组求法。 KMP的next数组简单来说,假设有两个字符串,一个是待匹配的字符串strText,一个是要查找的关键字strKey。现在我们要在strText中去查找是否包含strKey,用i来表示strText遍历到了哪个字符,用j来表示strKey匹配到了哪个字符。 如果是暴力的查找方法,当strText[i]和strKey[j]匹配失败的时候,i和j都要回退,然后从i-j的下一个字符开始重新匹配。 而KMP就是保证i永远不回退,只回退j来使得匹配效率有所提升。它用的方法就是利用strKey在失配的j为之前的成功匹配的子串的特征来寻找j应该回退的位置。而这个子串的特征就是前后缀的相同程度。 所以next数组其实就是查找strKey中每一位前面的子串的前后缀有多少位匹配,从而决定j失配时应该回退到哪个位置。

我知道上面那段废话很难懂,下面我们看一个彩图:

这个图画的就是strKey这个要查找的关键字字符串。假设我们有一个空的next数组,我们的工作就是要在这个next数组中填值。 下面我们用数学归纳法来解决这个填值的问题。 这里我们借鉴数学归纳法的三个步骤(或者说是动态规划?): 1、初始状态 2、假设第j位以及第j位之前的我们都填完了 3、推论第j+1位该怎么填

初始状态我们稍后再说,我们这里直接假设第j位以及第j位之前的我们都填完了。也就是说,从上图来看,我们有如下已知条件: next[j] == k; next[k] == 绿色色块所在的索引; next[绿色色块所在的索引] == 黄色色块所在的索引; 这里要做一个说明:图上的色块大小是一样的(没骗我?好吧,请忽略色块大小,色块只是代表数组中的一位)。

我们来看下面一个图,可以得到更多的信息:

1.由"next[j] == k;"这个条件,我们可以得到A1子串 == A2子串(根据next数组的定义,前后缀那个)。

2.由"next[k] == 绿色色块所在的索引;"这个条件,我们可以得到B1子串 == B2子串。

3.由"next[绿色色块所在的索引] == 黄色色块所在的索引;"这个条件,我们可以得到C1子串 == C2子串。

4.由1和2(A1 == A2,B1 == B2)可以得到B1 == B2 == B3。

5.由2和3(B1 == B2, C1 == C2)可以得到C1 == C2 == C3。

6.B2 == B3可以得到C3 == C4 == C1 == C2

上面这个就是很简单的几何数学,仔细看看都能看懂的。我这里用相同颜色的线段表示完全相同的子数组,方便观察。

接下来,我们开始用上面得到的条件来推导如果第j+1位失配时,我们应该填写next[j+1]为多少?

next[j+1]即是找strKey从0到j这个子串的最大前后缀:

#:(#:在这里是个标记,后面会用)我们已知A1 == A2,那么A1和A2分别往后增加一个字符后是否还相等呢?我们得分情况讨论:

(1)如果str[k] == str[j],很明显,我们的next[j+1]就直接等于k+1。

  用代码来写就是next[++j] = ++k;

(2)如果str[k] != str[j],那么我们只能从已知的,除了A1,A2之外,最长的B1,B3这个前后缀来做文章了。

那么B1和B3分别往后增加一个字符后是否还相等呢?

由于next[k] == 绿色色块所在的索引,我们先让k = next[k],把k挪到绿色色块的位置,这样我们就可以递归调用"#:"标记处的逻辑了。

由于j+1位之前的next数组我们都是假设已经求出来了的,因此,上面这个递归总会结束,从而得到next[j+1]的值。

我们唯一欠缺的就是初始条件了:

next[0] = -1,  k = -1, j = 0

另外有个特殊情况是k为-1时,不能继续递归了,此时next[j+1]应该等于0,即把j回退到首位。

即 next[j+1] = 0; 也可以写成next[++j] = ++k;

public static int[] getNext(String ps)
{char[] strKey = ps.toCharArray(); int[] next = new int[strKey.length]; // 初始条件 int j = 0; int k = -1; next[0] = -1; // 根据已知的前j位推测第j+1位 while (j < strKey.length - 1) { if (k == -1 || strKey[j] == strKey[k]) { next[++j] = ++k; } else { k = next[k]; } } return next; }

现在再看这段代码应该没有任何问题了吧。

优化:

细心的朋友应该发现了,上面有这样一句话:

(1)如果str[k] == str[j],很明显,我们的next[j+1]就直接等于k+1。用代码来写就是next[++j] = ++k;

可是我们知道,第j+1位是失配了的,如果我们回退j后,发现新的j(也就是此时的++k那位)跟回退之前的j也相等的话,必然也是失配。所以还得继续往前回退。

public static int[] getNext(String ps)
{char[] strKey = ps.toCharArray(); int[] next = new int[strKey.length]; // 初始条件 int j = 0; int k = -1; next[0] = -1; // 根据已知的前j位推测第j+1位 while (j < strKey.length - 1) { if (k == -1 || strKey[j] == strKey[k]) { // 如果str[j + 1] == str[k + 1],回退后仍然失配,所以要继续回退 if (str[j + 1] == str[k + 1]) { next[++j] = next[++k]; } else { next[++j] = ++k; } } else { k = next[k]; } } return next; }

好了,自此KMP的next求法全部讲解完毕。欢迎大家指出文章的错误,我好更加完善它。

----------------------------------------------------------------------------------------------------------

下面说说面试的时候,给一个字符串,要你写出它的Next数组,应该怎么写:

①:先对每一位左边的子串求出最大前后缀串的长度,作为初始的Next数组

②:因为第一位失配时需要移动i,因此赋值为-1

③:P[3] == A, Next[3] == 0, P[0] == A;  所以P[3] == P[0], (移动过去后还是失配,需要继续移动),优化Next[3]为Next[0],即-1

④:同理优化Next[10]为Next[0],即-1

⑤:同理优化P[14],P[15],P[16]

http://www.cnblogs.com/tangzhengyue/p/4315393.html

KMP算法的Next数组详解(转)相关推荐

  1. KMP算法之next数组详解

    KMP算法之next数组详解 KMP算法实现原理 KMP算法是一种非常高效的字符串匹配算法,下面我们来讲解一下KMP算如何高效的实现字符串匹配.我们假设如下主串和模式串: int i;//i表示主串的 ...

  2. 算法与数据结构 - 数组详解

    文章目录 前言 引言 一.场景模拟 二.数组介绍 2.1 什么是线性表 2.2 什么是数组 2.3 数组的特点 2.4 优缺点 三.图话数组 3.1 数组的创建过程 3.2 数据的插入过程 3.3 数 ...

  3. JavaScript数据结构与算法——数组详解(下)

    1.二维与多维数组 JavaScript只支持一维数组,但是通过在数组里保存数组元素的方式,可以轻松创建多维数组. 1.1 创建二维数组 二维数组类似一种由行和列构成的数组表格,在JavaScript ...

  4. JavaScript数组结构与算法——数组详解(中)

    迭代器方法 在上篇中,我们探讨了很多数组方法,接下来总结一下最后一组方法--迭代器方法.这些方法对数组的每个元素应用一个函数,可以返回一个值.一组值.或者一个新数组. 1.不生成新数组的迭代器方法 以 ...

  5. 操作系统:基于页面置换算法的缓存原理详解(下)

    概述: 在上一篇<操作系统:基于页面置换算法的缓存原理详解(上)>中,我们主要阐述了FIFO.LRU和Clock页面置换算法.接着上一篇说到的,本文也有三个核心算法要讲解.分别是LFU(L ...

  6. 希尔排序基础java代码_java 算法之希尔排序详解及实现代码

    摘要:这篇Java开发技术栏目下的"java 算法之希尔排序详解及实现代码",介绍的技术点是"希尔排序详解.实现代码.希尔排序.Java.实现.代码",希望对大 ...

  7. 天津理工大学《操作系统》实验二,存储器的分配与回收算法实现,代码详解,保姆式注释讲解

    天津理工大学<操作系统>实验二,存储器的分配与回收算法实现,代码详解,保姆式注释讲解 实验内容 1. 本实验是模拟操作系统的主存分配,运用可变分区的存储管理算法设计主存分配和回收程序,并不 ...

  8. 算法经典“钓鱼”问题详解 基于贪心算法 C语言描述

    算法经典"钓鱼"问题详解 基于贪心算法 初始条件 在一条水平路边,有 n 2 ≤ n ≤ 25个钓鱼池,从左到右编号为1.2.3.--.n.小明有H1 ≤ H ≤ 16个小时的空余 ...

  9. c语言数组详解视频,C语言数组详解

    <C语言数组详解>由会员分享,可在线阅读,更多相关<C语言数组详解(55页珍藏版)>请在人人文库网上搜索. 1.就是一组具有固定数目的.有序的.类型相同的数据的集合.根据数组下 ...

最新文章

  1. 从零开始在ubuntu上安装和使用k8s集群及报错解决
  2. 手把手教你用Python构建自己的「王二狗」
  3. 15年资深产品经理判官:怎样搭建完整的产品矩阵
  4. 主机无法连接虚拟机中的redis服务
  5. bzoj 1660: [Usaco2006 Nov]Bad Hair Day 乱发节(单调栈)
  6. pandas常用函数总结
  7. 统计学 常用的数据分析方法大总结,推荐收藏
  8. (1.6w字)浏览器与前端性能灵魂之问,请问你能接得住几个?
  9. SpringBoot打通微信公众号模板消息通知
  10. PTA:7-120 新浪微博热门话题 (30分)--(map方法,加解析)
  11. 计算机保研面试英文,计算机保研面试英文自我介绍范文
  12. 深入浅出ERC777合约
  13. 爱奇艺推荐系统架构与实践
  14. h5php大转盘抽奖,html5的非常简单圆形转盘抽奖代码
  15. 获取控制台程序的返回值
  16. MATLAB求解复系数特征方程的实数根的方法
  17. 智能优化与机器学习结合算法实现时序数据预测matlab代码清单
  18. 随机点名器的实现!!!
  19. php使用addons,addons
  20. 云栖大会人脸识别闸机【技术亮点篇7】--人脸识别闸机可挑战12万组人脸数据

热门文章

  1. 只剩 1 天 | 神策 2019 数据驱动大会明天开幕
  2. 案例 | 日活提升 50%,海尔智慧厨房平台如何引领行业革命?
  3. 华为敏捷DevOps实践:如何从Excel管理软件的方式中走出来
  4. 初识大数据(三. Hadoop与MPP数据仓库)
  5. jenkins+testlink+python搭建自动化测试环境
  6. 关于Hexo6.0搭建个人博客(github+Google-收录篇)
  7. VMware vSphere/vCenter/ESX(i)介绍
  8. UITableviewcell重用机制以及解决重绘出现的重叠现象
  9. Liteide go: cannot find GOROOT directory
  10. 高级特性(2)- XML