【算法入门漫画】:什么是字符串匹配算法?
————— 第二天 —————
什么意思呢?让我们来举一个例子:
在上图中,字符串B是A的子串,B第一次在A中出现的位置下标是2(字符串的首位下标是0),所以返回 2。
我们再看另一个例子:
在上图中,字符串B在A中并不存在,所以返回 -1。
为了统一概念,在后文中,我们把字符串A称为主串,把字符串B称为模式串。
小灰的想法简单粗暴,让我们用下面的例子来演示一下:
第一轮,我们从主串的首位开始,把主串和模式串的字符逐个比较:
显然,主串的首位字符是a,模式串的首位字符是b,两者并不匹配。
第二轮,我们把模式串后移一位,从主串的第二位开始,把主串和模式串的字符逐个比较:
主串的第二位字符是b,模式串的第二位字符也是b,两者匹配,继续比较:
主串的第三位字符是b,模式串的第三位字符也是c,两者并不匹配。
第三轮,我们把模式串再次后移一位,从主串的第三位开始,把主串和模式串的字符逐个比较:
主串的第三位字符是b,模式串的第三位字符也是b,两者匹配,继续比较:
主串的第四位字符是c,模式串的第四位字符也是c,两者匹配,继续比较:
主串的第五位字符是e,模式串的第五位字符也是e,两者匹配,比较完成!
由此得到结果,模式串 bce 是主串 abbcefgh 的子串,在主串第一次出现的位置下标是 2:
以上就是小灰想出的解决方案,这个算法有一个名字,叫做BF算法,是Brute Force(暴力算法)的缩写。
上图的情况,在每一轮进行字符匹配时,模式串的前三个字符a都和主串中的字符相匹配,一直检查到模式串最后一个字符b,才发现不匹配:
这样一来,两个字符串在每一轮都需要白白比较4次,显然非常浪费。
假设主串的长度是m,模式串的长度是n,那么在这种极端情况下,BF算法的最坏时间复杂度是O(mn)。
————————————
比较哈希值是什么意思呢?
用过哈希表的朋友们都知道,每一个字符串都可以通过某种哈希算法,转换成一个整型数,这个整型数就是hashcode:
hashcode = hash(string)
显然,相对于逐个字符比较两个字符串,仅比较两个字符串的hashcode要容易得多。
给定主串和模式串如下(假定字符串只包含26个小写字母):
第一步,我们需要生成模式串的hashcode。
生成hashcode的算法多种多样,比如:
按位相加
这是最简单的方法,我们可以把a当做1,b当做2,c当做3......然后把字符串的所有字符相加,相加结果就是它的hashcode。
bce = 2 + 3 + 5 = 10
但是,这个算法虽然简单,却很可能产生hash冲突,比如bce、bec、cbe的hashcode是一样的。
转换成26进制数
既然字符串只包含26个小写字母,那么我们可以把每一个字符串当成一个26进制数来计算。
bce = 2*(26^2) + 3*26 + 5 = 1435
这样做的好处是大幅减少了hash冲突,缺点是计算量较大,而且有可能出现超出整型范围的情况,需要对计算结果进行取模。
为了方便演示,后续我们采用的是按位相加的hash算法,所以bce的hashcode是10:
第二步,生成主串当中第一个等长子串的hashcode。
由于主串通常要长于模式串,把整个主串转化成hashcode是没有意义的,只有比较主串当中和模式串等长的子串才有意义。
因此,我们首先生成主串中第一个和模式串等长的子串hashcode,
即abb = 1 + 2 + 2 = 5:
第三步,比较两个hashcode。
显然,5!=10,说明模式串和第一个子串不匹配,我们继续下一轮比较。
第四步,生成主串当中第二个等长子串的hashcode。
bbc = 2 + 2 + 3 = 7:
第五步,比较两个hashcode。
显然,7!=10,说明模式串和第二个子串不匹配,我们继续下一轮比较。
第六步,生成主串当中第三个等长子串的hashcode。
bce= 2 + 3 + 5 = 10:
第七步,比较两个hashcode。
显然,10 ==10,两个hash值相等!这是否说明两个字符串也相等呢?
别高兴的太早,由于存在hash冲突的可能,我们还需要进一步验证。
第八步,逐个字符比较两字符串。
hashcode的比较只是初步验证,之后我们还需要像BF算法那样,对两个字符串逐个字符比较,最终判断出两个字符串匹配。
最后得出结论,模式串bce是主串abbcefgh的子串,第一次出现的下标是2。
什么意思呢?让我们再来看一个例子:
上图中,我已知子串abbcefg的hashcode是26,那么如何计算下一个子串,也就是bbcefgd的hashcode呢?
我们没有必要把子串的字符重新进行累加运算,而是可以采用一个更简单的方法。由于新子串的前面少了一个a,后面多了一个d,所以:
新hashcode = 旧hashcode - 1 + 4 = 26-1+4 = 29
再下一个子串bcefgde的计算也是同理:
新hashcode = 旧hashcode - 2 + 5 = 29-2+5 = 32
public static int rabinKarp(String str, String pattern){//主串长度int m = str.length();//模式串的长度int n = pattern.length();//计算模式串的hash值int patternCode = hash(pattern);//计算主串当中第一个和模式串等长的子串hash值int strCode = hash(str.substring(0, n));//用模式串的hash值和主串的局部hash值比较。//如果匹配,则进行精确比较;如果不匹配,计算主串中相邻子串的hash值。for (int i=0; i<m-n+1; i++) {if(strCode == patternCode && compareString(i, str, pattern)){return i;}//如果不是最后一轮,更新主串从i到i+n的hash值if(i<m-n){strCode = nextHash(str, strCode, i, n);}}return -1;
}
private static int hash(String str){int hashcode = 0;//这里采用最简单的hashcode计算方式://把a当做1,把b当中2,把c当中3.....然后按位相加for (int i = 0; i < str.length(); i++) {hashcode += str.charAt(i)-'a';}return hashcode;
}
private static int nextHash(String str, int hash, int index, int n){hash -= str.charAt(index)-'a';hash += str.charAt(index+n)-'a';return hash;
}
private static boolean compareString(int i, String str, String pattern) {String strSub = str.substring(i, i+pattern.length());return strSub.equals(pattern);
}
public static void main(String[] args) {String str = "aacdesadsdfer";String pattern = "adsd";System.out.println("第一次出现的位置:" + rabinKarp(str, pattern));
}
—————END—————
备注:公众号菜单包含了整理了一本AI小抄,非常适合在通勤路上用学习。
往期精彩回顾2019年公众号文章精选适合初学者入门人工智能的路线及资料下载机器学习在线手册深度学习在线手册AI基础下载(第一部分)备注:加入本站微信群或者qq群,请回复“加群”加入知识星球(4500+用户,ID:92416895),请回复“知识星球”
喜欢文章,点个在看
【算法入门漫画】:什么是字符串匹配算法?相关推荐
- 字符串匹配KMP算法设计C语言,KMP字符串匹配算法笔记
网上有很多解释KMP算法的文章,A_B_C_ABC的这篇很详细,反复看了好几遍,总算理解了个大概,但是总觉得没那么爽快.其实,一种算法各人有各人的理解方法,找到适合自己理解的才容易记住.下面是我对这个 ...
- 算法导论笔记:32字符串匹配算法
在编辑文本程序中,经常需要在文本中找到某个模式的所有出现位置.典型的情况是:在一个文本文件中,搜索用户输入的关键字.解决这种问题的算法叫做字符串匹配算法.字符串匹配算法的形式化定义如下:假设文本是长度 ...
- 【算法入门漫画】:“排序算法” 大总结
冒泡排序: 漫画:什么是冒泡排序? 选择排序: 漫画:什么是选择排序? 插入排序: 漫画:什么是插入排序? 此外还有冒泡排序的变种,鸡尾酒排序: 漫画:什么是鸡尾酒排序? 第三梯队的排序算法有什么共同 ...
- sunday java_Sunday算法:最快的字符串匹配算法
之前被KMP的next数组搞的头昏脑胀说不上也是比较烦人的,今天看到还有这么有趣而且高效的算法(比KMP还快),看来有必要做一点笔记了 Sunday算法是Daniel M.Sunday于1990年提出 ...
- 栈判断字符串是否为中心对称_数据结构和算法入门之判断括号字符串的合法性(valid parentheses)...
今天终于开始看栈的部分咯!栈这个东西没啥好介绍的,我想基本只要写过一丢丢代码的人已经都非常清楚了.今天这个题目是一个非常简单但是也很经典地用到栈这个数据结构的题,废话不多说,原题链接如下: Loadi ...
- 字符串处理 —— 单模式匹配 —— 朴素的字符串匹配算法(BF 算法)
[算法流程] 朴素的字符串匹配算法即暴力匹配算法(BF,Brute Force),其本质是暴力枚举,主要特点有: 没有预处理阶段: 滑动窗口总是后移 1 位: 对模式中的字符的比较顺序不限定,可以从前 ...
- 字符串匹配算法之暴力做法(朴素算法)
字符串匹配算法之暴力做法(朴素算法) 1.字符串匹配算法 1.1 简介 1.2 类型 1.3 示例题目 2.暴力做法(朴素算法) 2.1 暴力算法的思路 2.2 暴力算法的特点: 2.3 暴力算法的J ...
- 【算法与数据结构】字符串匹配算法
文章目录 一.暴力穷解法 二.KMP算法 二.BM算法 三.Sunday算法 四.完整代码 所有的LeetCode题解索引,可以看这篇文章--[算法和数据结构]LeetCode题解. 一.暴力穷解法 ...
- 漫画:如何优化 “字符串匹配算法”?
作者 | 小灰 来源 | 程序员小灰(ID:chengxuyuanxiaohui) 说起"字符串匹配",恐怕算得上是计算机领域应用最多的功能之一,为了满足这一需求,聪明的计算机科学 ...
最新文章
- 自从上了 SkyWalking,睡觉真香!!
- Linux学习(3)-常用命令
- 245热图展示微生物组的物种和功能丰度或有无、距离矩阵
- vue知识点归纳与总结(笔记)
- object-c 代理反向传值
- java 向上抛异常_Java 异常的处理方式throws
- Log Parser Studio 分析 IIS 日志
- MySQL函数少传参数_Mysql中的少用函数
- js根据数组对象中某属性进行排序
- 使用若依前后端分离下载需要授权的url文件
- java迭代法求圆周率用梯形_感悟数学“近似计算”之美——“望星楼”里的圆周率...
- python求解对给定字符串,求解所有子序列是否为回文序列
- filebeat配置文件
- 为何吾博客周排名没有数字显示?
- python 返回函数,偏函数,装饰器,itertools,collections,dir()type()
- win10cmd重置系统_命令提示符修复系统win10 系统还原
- 机器人学基础——坐标
- Logistic回归分类器
- jsp调用getParameterValues获取表单信息
- SUN ZFS STORAGE 7320阵列管理
热门文章
- JavaWeb_检查用户是否登录的过滤器
- Oracle关于TX锁的一个有趣的问题
- POJ 3017 DP + 单调队列 + 堆
- Python(2)-- 运算符
- [WPF]静态资源(StaticResource)和动态资源(DynamicResource)
- Java学习笔记-7.Java IO流
- C++ 如何判断所调用的重载函数
- [zz] C++智能指针循环引用解决
- python 时序数据库_时序数据库InfluxDB
- Windows Server 2016离线安装.NET Framework 3.5