算法学习笔记【1】：KMP 算法

实际上这个算法很早就学了，但是那个时候并没有了解的很清晰。搞得好像现在有似的

首先，KMP 是三个人的名字。。。

首先，KMP 算法是用于字符串匹配的，时间复杂度为 O(n+m)O(n+m)O(n+m) [1]^{[1]}[1]。

Part 0:KMP 算法的诞生（可跳过）

我们假设有两个字符串 s1s_1s1，s2s_2s2，其中 s1s_1s1 为模式串，s2s_2s2 为文本串。

首先我们考虑普通查找算法的时间复杂度，最坏会被卡到 O(nm)O(nm)O(nm)

为什么会这么慢？

加入我们的 s1s_1s1，s2s_2s2 长这样 [2]^{[2]}[2]：

abababcabaa
ababcabaa

当 i=5i=5i=5 而 j=5j=5j=5 时，jjj 会直接跳回到 111，但是显然，跳到 333 会更加快速，那么我该怎么让电脑知道这个 jjj 跳到这里也行呢~

KMP 算法横空出世！

使用 KMP 算法即可解决

Part 1：KMP 算法的思路

KMP 算法的精髓就在于一个数组 kmpkmpkmp 上。

这个数组可以记录下当失配时 jjj 要跳到的地方。

这样就可以方便快速的“智能”选择。

那么匹配就变得十分简单：【见下文 Part 2】

请读者自行理解 kmpkmpkmp 数组的含义

那么 kmpkmpkmp 数组有什么含义？

注：此处的 i，j 含义与一般情况下不同

kmpkmpkmp 数组可以记录下模式串在第 1−j1-j1−j 的位置中的最长的真前缀与真后缀相同的长度。

如此，我们就可以实现回跳时可以跳到最后的位置，以便继续匹配。

接下来，我们就需要思考如何求出 kmpkmpkmp 数组。

这里我们考虑一个骚操作：自己匹配自己。

代码见下文 Part 2

然后就结果了。

Part 2:Code

首先放代码（洛谷 P3375 【模板】KMP字符串匹配）：

#include<bits/stdc++.h>
using namespace std;
const int N=1e6+10;
int n,m,kmp[N];//kmp 数组，懂得都懂
char s1[N],s2[N];
int main(){scanf("%s%s",s1+1,s2+1);n=strlen(s1+1),m=strlen(s2+1);int j=0;
//kmp begin
emm 这个只是我自己写代码的注释
//这个就是自己匹配自己的操作for(int i=2;i<=m;i++){while(j&&s2[j+1]!=s2[i])j=kmp[j];if(s2[j+1]==s2[i])j++;kmp[i]=j;}
//匹配文本串j=0;for(int i=1;i<=n;i++){while(j&&s2[j+1]!=s1[i])j=kmp[j];if(s2[j+1]==s1[i]){j++;if(j==m)cout<<i-m+1<<endl,j=kmp[j];}}for(int i=1;i<=m;i++)cout<<kmp[i]<<' ';
//主要懒得写注释
//kmp endreturn 0;
}

Part 3: 时间复杂度分析

众所周知，显然，复杂度是 O(n+m)O(n+m)O(n+m)。

其实很简单，因为 jjj 所进行的自增的次数不可能超过 mmm，因为每次最多自增 111，会跳又不可能跳到比 000 更小，所以就只跳 n+mn+mn+m 次。

注：

[1]本文中 nnn，mmm 分别代表模式串和文本串的长度，同时 iii 表示文本串的索引，jjj 表示模式串的索引；
[2]此处的字符串借鉴了此文章：link；