Rabin-Karp 指纹字符串查找算法

M.O.Rabin 和 R.A.Karp 发明了一种完全不同的基于散列的字符串查找算法。我们需要计算模式字符串的散列函数,然后用相同的散列函数计算文本中所有可能的 M 个字符的子字符串散列值并寻找匹配。如果找到了一个散列值和模式字符串相同的子字符串,那么再继续验证两者是否匹配。这个过程等价于将模式保存在一张散列表中,然后在文本的所有子字符串中进行查找。但不需要为散列表预留任何空间,因为它只会含有一个元素。根据这段描述直接实现的算法将会比暴力子字符串查找算法慢很多(因为计算散列值将会涉及字符串中的每个字符, 成本比直接比较这些字符要高得多)。 Rabin 和 Karp 发明了一种能够在常数时间内算出 M 个字符的子字符串散列值的方法(需要预处理),这样就得到了在实际应用中的运行时间为线性级别的字符串查找算法。

基本思想

长度为 M 的字符串对应着一个 R 进制的 M 位数。为了用一张大小为 Q 的散列表来保存这种类型的键,需要一个能够将 R 进制的 M 位数转化为一个 0 到 Q-1 之间的 int 值散列函数。除留余数法是一个很好的选择:将该数除以 Q 并取余。在实际应用中会使用一个随机的素数 Q,在不溢出的情况下选择一个尽可能大的值。(因为我们并不会真的需要一张散列表。)理解这个方法最简单的办法就是取一个较小的 Q 和 R=10 的情况,如下所示。要在文本3 1 4 1 5 9 2 6 5 3 5 8 9 7 9 3中找到模式 2 6 5 3 5,首先要选择散列表的大小 Q(在这个例子中是 997),则散列值为26535 % 997 = 613,然后计算文本中所有长度为 5 个数字的子字符串的散列值并寻找匹配。在这个例子中,在找到 613 的匹配之前,得到的散列值分别为 508、 201、 715、 971、 442 和 929,如下图所示:

计算函数散列

对于 5 位的数值,只需使用 int 值即可完成所有所需的计算。但如果 M 是 100 或者1000 怎么办?这里使用的是 Horner 方法,代码如下面所示。这段代码计算了用 char 值数组表示的 R 进制的 M 位数的散列函数,所需时间与 M 成正比。(将 M 作为参数传递给该方法,这样就可以将它同时用于模式字符串和正文。)对于这个数中的每一位数字,将散列值乘以 R,加上这个数字,除以 Q 并取其余数。例如,这样计算示例模式字符串散列值的过程如下图解所示。我们也可以用同样的方法计算文本中的子字符串散列值,但这样一来字符串查找算法的成本就将是对文本中的每个字符进行乘法、加法和取余计算的成本之和。在最坏情况下这需要 NM 次操作,相对于暴力子字符串查找算法来说并没有任何改进。

Horner方法,用于除留余数法计算散列值

private long stringHash(String str,int m){long hash = 0;for(int i = 0; i < m; i++){hash = (hash * R + str.charAt(i)) % Q;}return hash;
}

使用 Horner 方法计算模式字符串的散列值图解

关键思想

Rabin-Karp 算法的基础是对于所有位置 i,高效计算文本中i+1 位置的子字符串散列值。这可以由一个简单的数学公式得到。我们用 tit_iti​ 表示txt.charAt(i),那么文本 txt 中起始于位置 i 的
含有 M 个字符的子字符串所对应的数即为:

xi=tiRM−1+ti+1RM−2+...+ti+M−1R0x_i = t_iR^{M-1} + t_{i+1}R^{M-2} + ... + t_{i+M-1}R^0xi​=ti​RM−1+ti+1​RM−2+...+ti+M−1​R0

假设已知 h(xix_ixi​)=xix_ixi​ mod Q 。将模式字符串右移一位即等价于将xix_ixi​ 替换为:

xi+1=(xi−tiRM−1)R+ti+Mx_{i+1} = (x_i - t_iR^{M-1})R + t_{i+M}xi+1​=(xi​−ti​RM−1)R+ti+M​

即将它减去第一个数字的值,乘以 R,再加上最后一个数字的值。现在,关键的一点在于不需要保存这些数的值,而只需要保存它们除以 Q 之后的余数。取余操作的一个基本性质是如果在每次算术操作之后都将结果除以 Q 并取余,这等价于在完成了所有算术操作之后再将最后的结果除以 Q 并取余。曾经在用 Horner 方法实现除留余数法时利用过这个性质。这么做的结果就是无论 M 是 5、100 还是 1000,都可以在常数时间内高效地不断向右一格一格地移动 。

图解

蒙特卡罗法

在文本 txt 中找到散列值与模式字符串相匹配的一个 M 个字符的子字符串之后,你可能会逐个比较它们的字符以确保得到了一个匹配而非相同的散列值。 我们不会这么做,因为这需要回退文本指针。作为替代,这里将散列表的“规模” Q 设为任意大的一个值,因为我们并不会真构造一张散列表而只是希望用模式字符串验证是否会产生冲突。我们会取一个大于 102010^{20}1020 的 long 型值,使得一个随机键的散列值与模式字符串冲突的概率小于 10−2010^{-20}10−20。这是一个极小的值。如果它还不够小,你可以将这种方法运行两遍,这样失败的几率将会小于 10−4010^{-40}10−40。这是蒙特卡洛算法一种著名早期应用,它既能够保证运行时间,失败的概率又非常小。检查匹配的其他方法可能很慢(性能有很小的概率相当于暴力算法)但能够确保正确性。这种算法被称为拉斯维加斯算法。

实现

实现类

package com.design.string;/*** Rabin-Karp 指纹查找算法**  @author hh*  @date 2022-1-2 22:37*/
public class RabinKarp {/*** 进制*/private int R = 26;/*** 一个很大的素数*/private long Q = 200000111111111L;/*** 模式串长度*/private int M;/*** 模式串的哈希*/private long patHash;/*** R ^ M % Q*/private long RM;public RabinKarp(String pattern) {this.M = pattern.length();this.RM = 1;for(int i = 0; i < this.M; i++){this.RM = this.RM * this.R % this.Q;}this.patHash = this.stringHash(pattern,M);}private long stringHash(String str,int m){long hash = 0;for(int i = 0; i < m; i++){hash = (hash * R + str.charAt(i)) % Q;}return hash;}public int search(String text){//文本比模式串还短int n = text.length();if(n < M){return -1;}long tempHash = this.stringHash(text,M);//一开始就匹配if(tempHash == this.patHash){return 0;}for(int i = M; i < n; i++){tempHash = tempHash * R % Q - text.charAt(i - M ) * RM  % Q + text.charAt(i);tempHash = tempHash % Q;if(this.patHash == tempHash){return i - M  + 1;}}return -1;}
}

测试类

package com.design.string;public class RabinKarpTest {public static void main(String[] args){String pat = "sheet";RabinKarp rabinKarp = new RabinKarp(pat);System.out.println(rabinKarp.search("ssheet"));System.out.println(rabinKarp.search("sheeet"));}
}

测试结果

参考文档

  • 《算法(第4版)》5.3.5节 Rabin-Karp 指纹字符串查找算法

Rabin-Karp 指纹字符串查找算法相关推荐

  1. 暴力子字符串查找算法

    暴力子字符串查找算法的名字虽然很霸气,但是效率不是很高.是一种简单.粗暴的查找方式. 在最坏的情况下,暴力子字符串查找算法在长度为N的文本中查找长度为M的模式需要~NM次字符比较. 核心思想:就是对主 ...

  2. 字符串查找算法BF、KMP详解

    字符串查找: BF算法: (朴素查找算法) 当查找不成功时,主串返回刚刚起始字符的下一个,子串返回第一个字符位置 时间复杂度:O(n*m) int BF(const char* str, const ...

  3. KMP(Knuth-Morris-Pratt) 字符串查找算法

    1.背景   我接触到这个算法是在力扣的每日一题中(28. 实现 strStr()),这本来只是一个分类为简单的题目.但是却在官方题解中介绍了这个看似十分复杂的算法.   在官方题解中给出了详细的证明 ...

  4. Rabin-Karp字符串查找算法学习:poj1200

    本来准备学习Hash的,结果看PPT讲的第一个算法竟然是跟字符串处理相关的,本来Hash中也有一块专门讲字符串Hash的,就按照<算法导论>中的分类,把这个分到"字符串处理&qu ...

  5. KMP- Knuth-Morris-Pratt 字符串查找算法

    2019独角兽企业重金招聘Python工程师标准>>> TBD 转载于:https://my.oschina.net/u/1041012/blog/954965

  6. Go 语言实现字符串匹配算法 -- BF(Brute Force) 和 RK(Rabin Karp)

    今天介绍两种基础的字符串匹配算法,当然核心还是熟悉一下Go的语法,巩固一下基础知识 BF(Brute Force) RK(Rabin Karp) 源字符串:src, 目标字符串:dest: 确认des ...

  7. 【字符串】字符串查找 ( Rabin-Karp 算法 )

    文章目录 一.字符串查找 二.Rabin-Karp 算法 一.字符串查找 算法题目链接 : https://www.lintcode.com/problem/13/ 在 一个字符串 中查找 另外一个字 ...

  8. 【字符串】字符串查找 ( 蛮力算法 )

    文章目录 一.字符串查找 二.蛮力算法代码示例 一.字符串查找 算法题目链接 : https://www.lintcode.com/problem/13/ 在 一个字符串 中查找 另外一个字符串 第一 ...

  9. 字符串之子字符串查找

    子字符串查找   字符串的一种基本操作就是子字符串查找:给定一段长度为N的文本text和一个长度为M的模式字符串pattern,在文本中找到一个和该模式相符的子字符串.解决该问题的大部分算法都可以很容 ...

最新文章

  1. 爬虫之常用数据解析方法
  2. unity shader入门精要_shader入门数学基础矩阵篇
  3. Linux环境进程间通信 信号量
  4. android_studio上传svn的时候那些不提交
  5. mysql系统属性_mysql 显示表字段及mysql系统信息
  6. Java: Number转换为BigDecimal:最好方法
  7. RHEL Linux与CentOS Linux的关系
  8. 遇到暴风影音 activeX 漏洞
  9. 百战学堂python教学文档_尚学堂百战程序员:python对文件的操作
  10. 服务器无线桥接后怎么上网,tplink无线路由器桥接成功不能上网该怎么办?
  11. 一文读懂nginx gzip_static
  12. rna-seq分析流程 全套
  13. Mac上有哪些软件可以代替Office或Word的软件?
  14. 文件怎么设置密码?一文带你看到文件加密的方法
  15. 重新定义公司-谷歌是如何运营的 读书笔记+读后感
  16. linux 10 -Bash Shell编程
  17. python图书搜索与书籍封面下载
  18. 店盈通:拼多多商品怎么上架?
  19. android app内部打开word pdf .doc类型文件的两种方式
  20. ES6代码转为ES5代码babel在线转换

热门文章

  1. ubuntu 16.04 安装配置 python3.6
  2. git历史提交信息和提交时间修改
  3. 超嗜热酶综述翻译,《Hyperthermophilic Enzymes: Sources, Uses, and Molecular Mechanisms for Thermostability》
  4. mysql蛇形转驼峰_myssql数据库表名转驼峰
  5. 《陆小凤传奇之金鹏皇朝》攻略
  6. 搭建个人博客:域名解析 + 备案
  7. Ubuntu18系统下采集点云数据(速腾16线激光雷达)与ZED 2 相机进行外参标定(Matlab的LCC工具箱)
  8. 程序员看看笑话幽默有主减压,整理了一些不错的小幽默分享出来
  9. Mysql 连接方式
  10. Android开发之日期时间控件选择