KMP 看毛片算法原理及其实现
kmp算法
- 前言: 如何匹配字符串???
- 一. 暴力匹配字符串
- 1.1 暴力算法描述
- 1.2 暴力算法实现
- 二. KMP算法 匹配字符串
- 2.1 三个概念: 最长前缀; 最长后缀; 最长公共前后缀?
- 2.2 滑动多少距离
- 2.2 回退多少??
- 2.2 如何得到最长公共前后缀的长度?
- 2.1 pm 数组
- 2.2 next 数组
- 2.2.2 模式串供 1 开始的 next 数组构造
- 2.3 KMP 算法步骤描述
- 2.3 KMP 算法实现
- 三、 KMP 算法优化 -- nextval 数组
- 3.1 kmp 算法的缺点
- 3.2 kmp 算法的优化
- 四. 完整代码
前言: 如何匹配字符串???
如对于以下两个字符串:
char *str = "bacbababadababacambabacaddababacasdsd";
char *ptr = "ababaca";
如何判断 str 串中是否有 ptr 串?? 如果有, 请给出匹配到的字符串的下标.
通常而言,进行字符串匹配有两种做法:
- 暴力法
- KMP 法
一. 暴力匹配字符串
1.1 暴力算法描述
暴力法步骤如下:
- 从目标字符串str 的 i (第一次为首元素) 起 截取ptr长度(长度为m) 的子字符串进行比较
- 如果一样,就返回匹配到的子串的下标值.
- 不一样,i = i+1 .(且 ptr 指针回退到 0 (即令 j == 0)).
- 重复1,2,3 直到str的末尾(实际比较时,下标移动到n-m)。这样的时间复杂度是O(n*m)。
1.2 暴力算法实现
int volence(const char* str, int str_len, const char* ptr, int ptr_len)
{int i = 0;int j = 0;while(i < str_len && j < ptr_len){if(str[i] == ptr[j])//匹配相等则继续{++i;++j;}else{i = i - j + 1; //比对失败, 说明从 i 开始的串匹配失败, //所以要向右移动一位到 i+1 位再进行匹配//又因为和错误的串匹配已经前进了j个单位,所以要 - j 个单位.j = 0;// p 串匹配失败了, 要从头开始匹配故置0}}if(j == ptr_len)//代表匹配上了{return i - j;//i 代表已经匹配上的串的末尾的下一个, 减去长度 j 即可得到串首的下标}return -1;
}
二. KMP算法 匹配字符串
我们可以发现, 暴力法匹配字符串有着显而易见的缺点:
匹配失败时每次向后移动一个单位, 再继续匹配, 而且模式串 Ptr 需要置为 0.
那么有没有跟快速的算法呢???
kmp 算法出现了.
如图所示:
2.1 三个概念: 最长前缀; 最长后缀; 最长公共前后缀?
以模式串为例
const char* = "ababaca";
列出其所有子串
- 最长前缀: 除了最后一个字符以外的字符串。
- 最长后缀: 除了第一个字符以外的字符串。
- 最长公共前后缀:
看图中红色, 前缀在最长前缀中从前往后找 后缀在最长后缀中从后往前找( 注意是整体找,不是一个字母一个字母找)
ps: 这里图有错误, 接下里的例子中, 最长公共前后缀的长度从 1 开始而不是从 0 开始.
2.2 滑动多少距离
如图, 紫色部分 的两个元素已经匹配失败了.
这个时候不用像暴力匹配一次移动一个
而是:
将模式串 ptr 从 绿色 的位置移动到 蓝色 的位置即可
可以看出, 要往后移动的距离为
绿色部分的长度 move_size == 红色长度 - 绿色或蓝色部分长度(最长公共前后缀的长度)
然后再继续比较即可.
2.2 回退多少??
滑动操作难以用代码表示, 在实际编程中. 用 j 回退来表示模式串的后移更为方便
即:
往后滑动 一段距离 == j 往前 回退一段同样的距离
如图, 紫色部分 d 与 e 的两个元素已经匹配失败了.
此时,
将 i 保持不变
将 j 回退到 蓝色部分 的第一个字母位置
然后从 j 处继续比对即可.
此方法实际上等价于滑动数组.
回退后的 j 用公式可表示为:
j = j - move_size
=> j = j - (红色长度 - 蓝色长度)
=> j = j - (j - 最长公共前后缀长度)
=> j = 最长公共前后缀长度
2.2 如何得到最长公共前后缀的长度?
所以 kmp 比对的移动依赖于 最长公共前后缀的长度.
以之前举过的模式串为例
const char* = "ababaca";
.
2.1 pm 数组
用 pm 数组 来记录最长公共前后缀的长度
如, 此串的 index 为 0-4
假设已经算出所有的 pm[i].
pm[4] 的值表示从 0 开始到 4 的这个子串: ababa 的最长公共前后缀 的长度 3
所以 pm[4-1] 可以用来表示最长公共前缀的坐标 3.(因为二者长度相等, 且ptr从0开始, i要减1)
推广:
pm[i] 的值表示从 0 开始到 i 的这个子串 的最长公共前后缀 的长度
所以 pm[i-1] 可以用来表示最长公共前缀的坐标.(因为二者长度相等, 且ptr从0开始, i要减1)
当扫描到的只有首元素 a 时, 最长公共前后缀数量一定为 0.
即 i = 0 的时候:
pm[0] = 0;
当扫描到的有 首元素和第二个元素时
若 首元素 等于 第二个元素, 则 最长公共前后缀的数量为 1
即: 比上个串的最长公共前后缀长度 +1
p[1] = pm[0]+1;
我们用 for 循环来表示.
pm[0] = 0;
for(int i = 1; i < str_len; ++i)
{if(ptr[i] == ptr[next[i-1]])pm[i] = pm[i-1]+1;
}
若 第二个元素 不等于 首元素, 则最长公共前后缀数量一定为 0.
pm[0] = 0;
for(int i = 1; i < str_len; ++i)
{if(ptr[i] == ptr[next[i-1]])pm[i] = pm[i-1]+1;elsepm[i] = 0;
}
pm[i] 表示最长后缀末尾下标
ptr[pm[i-1]] 表示最长前缀的末尾元素
每当 ( ptr[i] != ptr[next[i-1]] ) 时, 公共前后缀长度 为 0
反之, 则在之前串的 公共前后缀长度上 +1.
2.2 next 数组
前面已经证明了
在遇到 ptr[j] != str[i] 匹配失败时
回退为:
j = 最长公共前后缀长度
可能是论文的编写者觉得太麻烦了, 直接 j = pm[j] 不好吗???
于是乎就将 pm 数组的所有元素全部往右移动了一个单位.
就有了简介的:
j = pm[j]
由于可以直接指出, 下一步 j 回退到哪里, 所以 pm 改名为 next
j = next[j]
由于 右挪, 左边多出来的一位记为 -1, 右边挤掉的一位一定用不到.
代码实现可不是先算出 pm 再往右挪奥, 那样太麻烦.
而是:
void get_next(int* next, const char* ptr, int ptr_len)
{//将pm中的元素右移一位next[0] = -1; //第0个元素为-1不作数next[1] = 0; //第一个元素的公共前后缀必然为 0for(int i = 2; i < ptr_len; ++i){if(ptr[i - 1] == ptr[next[i - 1]])//ptr[next[i-1]] 中 next[i-1] 为最长前缀末尾元素的坐标.//ptr[i-1] 中为当前已经匹配元素的坐标.//和pm的代码改动只有这里{next[i] = next[i - 1] + 1;}elsenext[i] = 0;}for(int i = 0; i < ptr_len; ++i)cout << next[i] << ' ';cout << endl;}
2.2.2 模式串供 1 开始的 next 数组构造
当模式串从 1 开始存储元素时, 比如给 next 数组总体加 1
才能满足 j = next[j]
这里不再多讨论
2.3 KMP 算法步骤描述
通过上述 最长公共前后缀的特性我们可以发现 KMP 的步骤为:
- 从目标字符串str(假设长度为n)的首元素起 截取ptr长度(长度为m) 的子字符串进行比较
- 如果一样,就返回匹配到的子串的下标值.
- 不一样,就将
ptr 第一个匹配失败所在元素的的下标 j , 回退到这个最长公共前后缀后的一位
再同样选取长度为n的字符串进行比较.
(或者可以理解为: ptr整体 滑动到 ptr 的另一个靠后最长公共前后缀处,) - 直到str的末尾(实际比较时,下标移动到n-m)。这样的时间复杂度是O(n+m)。
-------------------------视频讲解: 步骤以及是未匹配的部分移动而不是已经匹配的部分移动
2.3 KMP 算法实现
int kmp_by_using_next(const char* str, int str_len, const char* ptr, int ptr_len, int* next)
{get_next(next, ptr, ptr_len);int i = 0;int j = 0;while(i < str_len && j < ptr_len){if(str[i] == ptr[j])//匹配上了就继续匹配{++i;++j;}else if(j == 0)//两个串的首元素没匹配上, 这个时候若 j == next[j], j 就会被赋值为 -1.// 所以要特殊处理//ps: 这里隐含了 str[i] != str[j] && j==0.//即: str[0] != str[0]//代表: 如果两个串的第一个元素就不相等, 则应该从主串的第i+1个位置开始,所以++i;{++i;}else//当匹配失效时,i不变,j 回退next[j]的位置继续比较{j = next[j];//cout << "j:" << j << endl;}}if(j >= ptr_len)//此时i的位置减去匹配串的长度为首次找到的字符串的位置return i - ptr_len;return -1;
}
三、 KMP 算法优化 – nextval 数组
3.1 kmp 算法的缺点
思考一下 kmp 的缺点:
以 next 数组作为回退依据.
有时候匹配失效(s[i] != p[j]),
那么 j 回退到 next[j] .
这个 j 我们就用 next[j] 表示.
接下来就是 s[i] 与 p[next[j]] 继续比较.
但是如果回退后的 p[next[j]] 与回退之前的 p[j] 相等.
那就完全没有必要比较啊. 因为
p[j] != s[i];
p[next[j]] == p[i]
等价代换
p[next[j]] 必然 != s[i],
但是 kmp 算法会忠实的做这种无意义的比较,这就是缺点.
3.2 kmp 算法的优化
由缺点得出:
当 p[j] != s[i] 时,只要 ( p[ next[j] ] == p[j] ),
则 让 j = next[j] 再进行下次比较必然是徒劳的.
所以,
我们要改进 pm 数组为 => pm_val 数组.
从左到右遍历pm数组
if( p[ next[j] ] == p[j])next[j] == next[next[j]]
如果新的 next[j] 依然 == p[j],那就继续跟新直到不相等为止.
这里 next[next[j]] 的含义是将 next 更新. 避免 pm[j-1] == pm[pm[j-1]] 的情况出现.
代码实现:
void get_nextval(int* next, const char* ptr, int ptr_len)
//在原有next
{//将pm中的元素右移一位next[0] = -1; //第0个元素为-1不作数next[1] = 0; //第一个元素的公共前后缀必然为 0for(int i = 2; i < ptr_len; ++i){if(ptr[i - 1] == ptr[next[i - 1]])//ptr[next[i-1]] 中 next[i-1] 为最长前缀末尾元素的坐标.//ptr[i-1] 中为当前已经匹配元素的坐标.//和pm的代码改动只有这里{next[i] = next[i - 1] + 1;}elsenext[i] = 0;while( ptr[next[i-1]] == ptr[i-1] && next[i-1]!=0)//更新操作{next[i-1] = next[next[i-1]];}}for(int i = 0; i < ptr_len; ++i)cout << next[i] << ' ';cout << endl;
}
四. 完整代码
/***********************************************************Author : Joe_YangLast modified: 2020-09-24 15:21Email : 1514784049@qq.com || 1514784049yz@gmail.comWeblog : https://blog.csdn.net/pursue_my_life/Filename : tmp.cppDescription : 本代码 模式串 ptr 从 0 开始, 所以不用+1
************************************************************/
#include <iostream>
#include <cstring>
using std::cout;
using std::cin;
using std::endl;int volence(const char* str, int str_len, const char* ptr, int ptr_len)
{int i = 0;int j = 0;while(i < str_len && j < ptr_len){if(str[i] == ptr[j])//匹配相等则继续{++i;++j;}else{j = 0;// p 串匹配失败了要从头开始匹配i = i - j + 1; //s 串失败了说明从 i 开始的串匹配失败, 所以要向右移动一位到 i+1再进行匹配, 又因为和错误的串匹配已经前进了j个单位,所以要 - j 个单位.}}if(j == ptr_len)//代表匹配上了{return i - j;//i 代表已经匹配上的串的末尾的下一个, 减去长度 j 即可得到串首的下标}return -1;
}void get_pm(int* next, const char* ptr, int ptr_len)
{//最长公共前后缀next[0] = 0; //第一个元素必然为0for(int i = 1; i < ptr_len; ++i){if(ptr[i] == ptr[next[i - 1]])//ptr[next[i-1]] 中 next[i-1] 为最长前缀末尾元素的坐标.{next[i] = next[i - 1] + 1;}elsenext[i] = 0;}for(int i = 0; i < ptr_len; ++i)cout << next[i] << ' ';cout << endl;
}void get_next(int* next, const char* ptr, int ptr_len)
{//将pm中的元素右移一位next[0] = -1; //第0个元素为-1不作数next[1] = 0; //第一个元素的公共前后缀必然为 0for(int i = 2; i < ptr_len; ++i){if(ptr[i - 1] == ptr[next[i - 1]])//ptr[next[i-1]] 中 next[i-1] 为最长前缀末尾元素的坐标.//ptr[i-1] 中为当前已经匹配元素的坐标.//和pm的代码改动只有这里{next[i] = next[i - 1] + 1;}elsenext[i] = 0;}for(int i = 0; i < ptr_len; ++i)cout << next[i] << ' ';cout << endl;}void get_nextval(int* next, const char* ptr, int ptr_len)
//在原有next
{//将pm中的元素右移一位next[0] = -1; //第0个元素为-1不作数next[1] = 0; //第一个元素的公共前后缀必然为 0for(int i = 2; i < ptr_len; ++i){if(ptr[i - 1] == ptr[next[i - 1]])//ptr[next[i-1]] 中 next[i-1] 为最长前缀末尾元素的坐标.//ptr[i-1] 中为当前已经匹配元素的坐标.//和pm的代码改动只有这里{next[i] = next[i - 1] + 1;}elsenext[i] = 0;while( ptr[next[i-1]] == ptr[i-1] && next[i-1]!=0)//更新操作{next[i-1] = next[next[i-1]];}}for(int i = 0; i < ptr_len; ++i)cout << next[i] << ' ';cout << endl;
}int kmp_by_using_pm(const char* str, int str_len, const char* ptr, int ptr_len, int* next)
{get_pm(next, ptr, ptr_len);int i = 0;int j = 0;while(i < str_len && j < ptr_len){if(str[i] == ptr[j]){++i;++j;}else if(j == 0)//ps: 这里隐含了 str[i] != str[j] && j==0.//即: str[0] != str[0]//代表: 如果两个串的第一个元素就不相等, 则应该从主串的第i+1个位置开始,所以++i;{++i;}else//当匹配失效时,i不变,j 回退next[j-1]的位置继续比较{j = next[j - 1];//cout << "j:" << j << endl;}}if(j >= ptr_len)//此时i的位置减去匹配串的长度为首次找到的字符串的位置return i - ptr_len;return -1;
}int kmp_by_using_next(const char* str, int str_len, const char* ptr, int ptr_len, int* next)
{get_next(next, ptr, ptr_len);int i = 0;int j = 0;while(i < str_len && j < ptr_len){if(str[i] == ptr[j]){++i;++j;}else if(j == 0)//ps: 这里隐含了 str[i] != str[j] && j==0.//即: str[0] != str[0]//代表: 如果两个串的第一个元素就不相等, 则应该从主串的第i+1个位置开始,所以++i;{++i;}else//当匹配失效时,i不变,j 回退next[j]的位置继续比较{j = next[j];//cout << "j:" << j << endl;}}if(j >= ptr_len)//此时i的位置减去匹配串的长度为首次找到的字符串的位置return i - ptr_len;return -1;
}int kmp_by_using_nextval(const char* str, int str_len, const char* ptr, int ptr_len, int* next)
{get_nextval(next, ptr, ptr_len);int i = 0;int j = 0;while(i < str_len && j < ptr_len){if(str[i] == ptr[j]){++i;++j;}else if(j == 0)//ps: 这里隐含了 str[i] != str[j] && j==0.//即: str[0] != str[0]//代表: 如果两个串的第一个元素就不相等, 则应该从主串的第i+1个位置开始,所以++i;{++i;}else //当匹配失效时,i不变,j 回退next[j-1]的位置继续比较{j = next[j];//cout << "j:" << j << endl;}}if(j >= ptr_len)//此时i的位置减去匹配串的长度为首次找到的字符串的位置return i - ptr_len;return -1;
}int main()
{const char *str = "bacbababadababacambabacaddababacasdsd";const char *ptr = "ababaca";int next[100];//告诉我们:当模式串中某个字符跟文本串中某个字符失配时,模式串下一步应该跳到next[j]这个位置.int str_len = strlen(str);int ptr_len = strlen(ptr);//cout << volence(str, str_len, ptr, ptr_len) << endl;;//get_pm(next, ptr, ptr_len);get_nextval(next, ptr, ptr_len);//cout << kmp_by_using_pm(str, str_len, ptr, ptr_len, next) << endl;//cout << kmp_by_using_pm(str, str_len, ptr, ptr_len, next) << endl;//cout << kmp_by_using_next(str, str_len, ptr, ptr_len, next) << endl;cout << kmp_by_using_nextval(str, str_len, ptr, ptr_len, next) << endl;return 0;
}
KMP 看毛片算法原理及其实现相关推荐
- 王道数据结构课代表 - 考研数据结构 第四章 串-KMP(看毛片算法) 究极精华总结笔记(C版本)
本篇博客是考研期间学习王道课程 传送门 的笔记,以及一整年里对数据结构知识点的理解的总结.希望对新一届的计算机考研人提供帮助!!! 关于对 串 章节知识点总结的十分全面,涵括了<王道数据结构 ...
- KMP算法——俗称看毛片算法
咳咳咳,这是看毛片算法的简单介绍 首推一个博客,这个博客很优秀,我的KMP算法就是从上面学来的--https://www.cnblogs.com/yjiyjige/p/3263858.html 算法思 ...
- 每日算法练习——模式匹配KMP算法(看毛片算法?)
知识补充: 在计算机科学中,Knuth-Morris-Pratt字符串查找算法(简称为KMP算法)可在一个主文本字符串S内查找一个词W的出现位置.此算法通过运用对这个词在不匹配时本身就包含足够的信息来 ...
- [看毛片算法][KM]zoj 3615:Choir II
大致题意: 有n个男生,m个女生,每个人用一句话描述其他的异性.对与第i个人和第j个异性,其好感值为其姓名第一次出现的位置和出现次数的乘积.现在要匹配这些人,使得总的好感值之和最大,求这个值. ...
- 谱聚类算法原理(一)
谱聚类(spectral clustering)是广泛使用的聚类算法,比起传统的K-Means算法,谱聚类对数据分布的适应性更强,聚类效果也很优秀,同时聚类的计算量也小很多,更加难能可贵的是实现起来也 ...
- KMP算法原理描述,告诉你为什么要“j = next[j]”
KMP算法原理描述,告诉你为什么要"j = next[j]" 研究KMP算法的起因,是在刷leetcode的 214.最短回文串时,一开始使用了 O ( n 2 ) O(n^2) ...
- xgboost算法原理_从XGB到SecureBoost:看联邦学习XGB的算法原理
摘要: 最近与某厂完成基于FATE的联邦学习框架的一个项目,第一次实践了一把联邦学习在实际业务场景中的应用,从模型评估结果来看,效果还不错.因此,本文将完成对于其中实现的提升算法SecureBoost ...
- 算法 - KMP算法原理顿悟有感
算法 - KMP算法原理顿悟有感 KMP? KMP核心思想 举个栗子 上点代码 next数组 (1)若P~j~ == P~t~ (2) 若P~j~ 和 P~t~不相等 改进上面的KMP算法 nextv ...
- java移动平均线算法_移动平均线怎么看,它的原理与算法是什么?
原标题:移动平均线怎么看,它的原理与算法是什么? 移动平均线的定义是将一段时期的股票价格加以平均,然后把不同时间的平均值连接起来成一条线,这就是移动平均线的本质,具体如何将股价加以平均就是它的算法问题 ...
最新文章
- Silverlight 参考:三维效果(透视转换) -- MSN
- Java的TheadLocal使用
- Twitter Storm安装配置(Ubuntu系统)单机版
- Java、Android、oc冒泡排序算法随笔
- c语言和电脑猜拳,c语言编写和电脑猜拳的游戏
- Flutter 即学即用系列博客——09 MethodChannel 实现原生与 Flutter 通信(二)
- Java8 的 Stream API 的确牛X,但性能究竟如何呢?
- opencv_找cv::Mat中的最大值和最小值
- svn clean up 失败
- 创业管理:创业者的十八般武艺——1.2 创业者素质体系(1)
- 吴军的数学通识讲义 读书笔记
- 后台管理页面通过点击左侧导航栏的菜单项实现右边内容的改变
- 浅谈加密技术在电子商务中的应用
- 至联云课堂:隐私泄露屡禁不止,根本原因其实是...
- 我为什么加入 TDengine
- 世界上第一台电子计算机的配置,1 世界上第一台电子计算机诞生于年
- 如何使用 Redis 实现 “附近的人” 这个功能?
- iOS开发键盘设置,IOS7深灰色键盘
- Java后端基础知识笔记
- js删除css某个属性值
热门文章
- RuntimeError: Sizes of tensors must match except in dimension 2. Got 5 and 4
- Opencv 笔记8 霍夫变换
- 获取企业微信授权code
- google map 看经度和纬度
- python计算线性相关系数_Python+pandas计算数据相关系数(person、Kendall、spearman)
- 基于Ubuntu(x86)系统和STM32(Keil)编写C程序分别进行编程、验证
- matlab 可见度和衬噪比
- 基于golang的爬虫demo,爬取微博用户的粉丝和关注者信息
- windows编程学习——1 关闭窗口不退出
- 量子理论学习:概率幅