超越欧拉的质数筛法

xk2013

2024-07-08 09:31:21

Theory

本算法最初由 @[wangchenyi](/user/631814) 发明,时间复杂度为 $O(\dfrac{n}{\log_2n})$,常数巨大,大约 $100$ 倍常数。[原帖在这](/discuss/839771),我帮他做了格式上的优化。 ## 算法思路和时间复杂度证明 以下方便起见,令 $p$ 为质数序列($p_1=2, p_2=3,\dots$),$m(n)$ 为小于 $n$ 的质数个数,$w(n)$ 为小于 $n$ 的非完全合数。 本算法主要是通过递推跳过“完全合数”。完全合数和非完全合数定义如下: 对一个合数 $n$,令 $c = c(n)$ 为最大的整数使 $\prod\limits_{i=1}^cp_i<n$,若存在 $k(1\le k\le c)$,使 $p_k\mid n$,则称 $n$ 为完全合数,否则为不完全合数。 由代码中的递推找到所有质数和非完全合数只需 $O(m + w)$(请注意 $\displaystyle \sum\limits_{k=1}^\infty\prod\limits_{i=1}^k\dfrac{1}{p_i}<\sum\limits_{k=1}^\infty\dfrac{1}{k(k-1)}=2$)。而之后我们可以通过 $O(w)$ 的时间复杂度来找到所有非完全合数,再用 $O(\sqrt{n}+w)$ 的时间复杂度来排序,然后是 $O(m + w)$ 的输出。 现在此算法时间复杂度为 $O(m + w + \sqrt{n}) = O(\dfrac{n}{\log_2n} = O(m))$,故时间复杂度为 $O(m + w)$。 下证:$\lim\limits_{n\to\infty}m+w=\dfrac{n}{\log_2n}$。 (以下等于号 $=$ 按等价理解) 由定义,$\displaystyle m + w = n \times \prod\limits_{i=1}^m(1-\dfrac{1}{p_i})$。 令 $\displaystyle T = T(n) = \prod\limits_{i=1}^m(1-\dfrac{1}{p_i})$,我们证明 $T < \dfrac{e^2}{\log_2n}$: $\log_2T = \displaystyle \sum\limits_{i=1}^m\log_2(1-dfrac{1}{p_i})$,由 $\log_2(1-x)$ 的解析性,知它的泰勒级数收敛于它本身,故: $$\begin{aligned}\log_2T&=\sum\limits_{i=1}^m\sum\limits_{k=1}^\infty\dfrac{1}{kp_i^k}\\ &=\sum\limits_{k=1}^\infty\dfrac{1}{k}\sum\limits_{i=1}^m\dfrac{1}{p_i^k} \end{aligned}$$ 我们估计 $\displaystyle \sum\limits_{i=1}^m\dfrac{1}{p_i^k}$ 的量级,显然,对于任意的 $k\ge2$, $$\begin{aligned} \sum\limits_{i=1}^m&\le\sum\limits_{i=2}^{m+1}\dfrac{1}{i}\\ &<\int_1^{m+1}\dfrac{1}{x^k}\mathrm dx\\ &=\dfrac{1}{k-1}(1-\dfrac{1}{(m+1)^{k-1}})\\ &<\dfrac{1}{k-1} \end{aligned}$$ 故 $$\begin{aligned}\log_2T&=\sum\limits_{i=1}^m\sum\limits_{k=1}^\infty\dfrac{1}{kp_i^k}\\ &=\sum\limits_{k=1}^\infty\dfrac{1}{k}\sum\limits_{i=1}^m\dfrac{1}{p_i^k}\\ &<\sum\limits_{i=1}^m\dfrac{1}{p_i}+1 \end{aligned}$$ 即 $$\begin{aligned}\log_2T&=\sum\limits_{k=1}^\infty\dfrac{1}{k}\sum\limits_{i=1}^m\dfrac{1}{p_i^k}\\ &=\sum\limits_{i=1}^m\dfrac{1}{p_i^k}+\theta_n(0<\theta_n<1) \end{aligned}$$ 我们只需估计 $\displaystyle \sum\limits_{i=1}^m\dfrac{1}{p_i}$,由熟知结论,$\displaystyle \sum\limits_{i=1}^m\dfrac{1}{p_i}>\log_2\log_2n-1$,故 $\log_2T<\log_2\log_2n+2$,即 $T<\dfrac{e^2}{\log_2n}$,故 $O(m + w) = O(Tn) = O(\dfrac{n}{\log_2n})$,我们证明了此算法的时间复杂度绝不可能改进,后人只能优化常数(是的,常数非常大),证毕。