metaphysis
2023-07-10 21:08:29
字符串散列(string hash,又称字符串哈希)是指在字符串和数值之间建立对应关系,相当于为字符串创建“指纹”。存在非常多的散列算法,下面介绍通过模运算实现的一种简易散列算法。
给定一个字符串
由于
const int MAXN = 1000100;
const int BASE = 16777213, MOD = 2147483647;
long long h[MAXN], b[MAXN];
int getHash(string &s) {
h[0] = 0;
int n = (int)s.length();
for (int i = 1; i <= n; i++) h[i] = (h[i - 1] * BASE + s[i - 1]) % MOD;
return h[n];
}
当两个不同的字符串依据上述方法转换得到的散列值相同时,称之为冲突(collide),为了尽量减少冲突出现的概率,可以使用两组(甚至多组)基数和模数,得到两个不同的散列值,将之配对来表示字符串的映射值,这样冲突的概率非常小。
有时并不需要获取整个字符串的散列值,而只需获取字符串某一部分的散列值,那么可以通过类似于前缀和的技巧来获取。观察确定字符串散列值的过程:
如果需要计算子串
适当扩展可得,若要计算子串
来予以确定。
// 获取字符串中序号区间为[L,R]的子串的散列值,字符串的序号从0开始计数。
int prepared = 0;
int getHash(string &s, int L, int R) {
if (!prepared) {
h[0] = 0, b[0] = 1;
int n = (int)s.length();
for (int i = 1; i <= n; i++) {
h[i] = (h[i - 1] * BASE + s[i - 1]) % MOD;
b[i] = b[i - 1] * BASE % MOD;
}
prepared = 1;
}
return (h[R + 1] - h[L] * b[R - L + 1] % MOD + MOD) % MOD;
}