<script type="text/javascript" src="https://cdnjs.cloudflare.com/ajax/libs/mathjax/2.7.1/MathJax.js?config=TeX-AMS-MML_HTMLorMML"></script>
# Rabin Karp - Rabin-Karp算法
--------
#### 问题
在文本$$ text $$中查找字符串$$ pattern $$出现的所有位置($$ text $$长度为$$ n $$,$$ pattern $$长度为$$ m $$,$$ n, m $$都是正整数且$$ n \gt m $$)。
#### 解法
从位置$$ i, j $$开始的匹配,每次成功的匹配都需要时间复杂度为$$ O(m) $$的遍历,才能确定$$ text[i \dots i+m-1] = pattern[0 \dots m-1] = pattern $$是否成立。如果用$$ hash(i, i+m-1) $$来表示字符串$$ text[i \dots i+m-1] $$的哈希值,$$ hash(pattern) $$表示字符串$$ pattern $$的哈希值,则比较$$ hash(i, i+m-1) = hash(pattern) $$是否成功的时间复杂度为$$ O(1) $$。显然当$$ hash(i, i+m-1) \ne hash(pattern) $$时必然有$$ text[i \dots i+m-1] \ne pattern $$。反之若哈希值相同,再用简单匹配来确定字符串$$ text[i \dots i+m-1] = pattern $$确实为真,这样即可找出所有成功匹配。
我们通过Rabin Fingerprint算法计算字符串的哈希值,ASCII码中每个字符对应的数字值范围在$$ [0 - 127] $$之间,设每读入新的字符时旧的哈希值的扩大倍数为$$ base = 128 $$(这个$$ base $$是字符表大小的范围)。则有:
$$
hash(0, i+1) = hash(0, i) \cdot base + text[i+1]
$$
实际我们想计算的是$$ hash(text[i \dots i+m-1]) $$,当$$ i $$右移一位时,不仅要考虑右边界新加入的字符,还需要考虑左边界离开的字符。一个字符从最右边界一直移动到最左边界,其值乘以$$ base $$共$$ m-1 $$次。因此哈希值要减去$$ base^{m-1} \cdot text[i] $$。特别注意$$ pattern $$长度为$$ 1 $$时$$ base^{m-1} = 1 $$:
$$
hash(i+1, i+m) = hash(i, i+m-1) \cdot base - base^{m-1} \cdot text[i] + text[i+1]
$$
由于数字太大时计算会溢出,用一个较大的素数来对结果取模$$ prime = 16777619 $$,最终得到哈希函数:
$$
hash(i+1, i+m]) = (hash(i, i+m-1) \cdot base - base^{m-1} \cdot text[i] + text[i+1]) % prime
$$
Rabin Fingerprint算法可以连续的处理字符串,在时间复杂度为$$ O(n) $$内求出所有字符串$$ text[i \dots i+m-1] $$的哈希值(其中$$ 0 \ge i \ge n-m+1 $$)。Rabin-Karp算法的时间复杂度为$$ O(n + z \cdot m) $$,其中$$ z $$是模式$$ pattern $$在文本中出现的次数。
--------
Rabin-Karp
* http://www.cs.cmu.edu/afs/cs/academic/class/15451-f14/www/lectures/lec6/karp-rabin-09-15-14.pdf
* https://www.geeksforgeeks.org/rabin-karp-algorithm-for-pattern-searching/
Rabin Fingerprint
* http://www.xmailserver.org/rabin.pdf
* https://pdos.csail.mit.edu/papers/lbfs:sosp01/lbfs.pdf
--------
#### 源码
[RabinKarp.h](https://github.com/linrongbin16/Way-to-Algorithm/blob/master/src/TextMatch/RabinKarp.h)
[RabinKarp.cpp](https://github.com/linrongbin16/Way-to-Algorithm/blob/master/src/TextMatch/RabinKarp.cpp)
#### 测试
[RabinKarpTest.cpp](https://github.com/linrongbin16/Way-to-Algorithm/blob/master/src/TextMatch/RabinKarpTest.cpp)
- Content 目录
- Preface 前言
- Chapter-1 Sort 第1章 排序
- InsertSort 插入排序
- BubbleSort 冒泡排序
- QuickSort 快速排序
- MergeSort 归并排序
- Chapter-2 Search 第2章 搜索
- BinarySearch 二分查找法(折半查找法)
- BruteForce 暴力枚举
- Recursion 递归
- BreadthFirstSearch 广度优先搜索
- BidirectionalBreadthSearch 双向广度搜索
- AStarSearch A*搜索
- DancingLink 舞蹈链
- Chapter-3 DataStructure 第3章 数据结构
- DisjointSet 并查集
- PrefixTree(TrieTree) 前缀树
- LeftistTree(LeftistHeap) 左偏树(左偏堆)
- SegmentTree 线段树
- FenwickTree(BinaryIndexedTree) 树状数组
- BinarySearchTree 二叉查找树
- AVLTree AVL平衡树
- RedBlackTree 红黑树
- Chapter-4 DynamicProgramming 第4章 动态规划
- Chapter-5 GraphTheory 第5章 图论
- Chapter-6 Calculation 第6章 计算
- LargeNumber 大数字
- Exponentiation 求幂运算
- Chapter-7 CombinatorialMathematics 第7章 组合数学
- FullPermutation 全排列
- UniqueFullPermutation 唯一的全排列
- Combination 组合
- DuplicableCombination (元素)可重复的组合
- Subset 子集
- UniqueSubset 唯一的子集
- Permutation 排列
- PermutationGroup 置换群
- Catalan 卡特兰数
- Chapter-8 NumberTheory 第8章 数论
- Sieve 筛选算法
- Euclid 欧几里得
- EuclidExtension 欧几里得扩展
- ModularLinearEquation 模线性方程
- ChineseRemainerTheorem 中国剩余定理
- ModularExponentiation 模幂运算
- Chapter-9 LinearAlgebra 第9章 线性代数
- Chapter-10 AnalyticGeometry 第10章 解析几何
- Chapter-11 TextMatch 第11章 文本匹配
- SimpleMatch 简单匹配
- AhoCorasickAutomata AC自动机
- KnuthMorrisPratt KMP匹配算法
- RabinKarp RabinKarp算法
- BoyerMoore BoyerMoore算法
- Chapter-12 GameTheory 第12章 博弈论
- BashGame 巴什博弈
- WythoffGame 威佐夫博弈
- NimGame 尼姆博弈