取模优化

就不讲怎么减少取模了。

比较广为流传的有两种，Barrett reduction，Montgomery Algorithm。

对于固定常数模数，计算机已经优化的很好了，一般不会有太大效果（确实有，用 Barrett reduction 有时可以卡常）。

对于输入的固定模数（即不会改变），可以用一下算法优化。

Barrett reduction：

一句话总结，比较有用，比较好写

考虑对于 \(a\bmod m\)，可以用 \(a-m\lfloor \frac{a}{m}\rfloor\)，但是直接计算 \(\lfloor \frac{a}{m}\rfloor\)，由于除法的常数，并不会快。

众所周知，不能精确计算的就粗略计算，考虑除以 \(2^k\) 是快的，因为可以用位运算，于是我们考虑将 \(\lfloor \frac{a}{m}\rfloor\) 用除以 \(2^k\) 估算。

具体的，设 \(base=\lfloor \frac{2^k}{m} \rfloor\)，于是 \(\lfloor \frac{a}{m}\rfloor\) 可以粗略计算为 \(\lfloor \frac{base*a}{2^k}\rfloor\)。

优点是简洁好写，缺点是有一定错误率，且需要用 __int128。

错误率：显然，\(\lfloor \frac{base*a}{2^k}\rfloor \le \lfloor \frac{2^k}{m} \rfloor\) 对于 \(k\) 取 \(64\) 时，\(m\) 在 \(10^9\) 左右的模数，极限值域在 \(10^{18}\) 时，用 __uint128_t 存储 \(base\)，在测试了 \(10^{10}\) 组纯随机数据中，\(\lfloor \frac{2^k}{m} \rfloor - \lfloor \frac{base*a}{2^k}\rfloor \le 1\)，可以加上判断来减掉误差（虽然会变慢）。

Montgomery Algorithm：

一句话总结，卵用没有。

考虑对于加减法，显然可以用判断来代替取模，对于乘法（\(ab \bmod m\)），我们考虑优化。

这里我们需要 \(m\perp 2\)。

设 \(R=2^k > m,a'=aR \bmod m,b'=bR \bmod m\)。

显然有 \(abR \equiv a'b'R^{-1} \pmod m,a'R^{-1}\equiv aR^2 \pmod m,b'R^{-1}\equiv bR^2 \pmod m\)，而 \(R^2 \bmod m\) 是可以预处理的，所以我们只要能够快速求出 \(xR^{-1}\bmod m\) 就可以快速求出 \(a',b'\)，进而求出 \(abR,ab\)。

如何求出 \(xR^{-1}\) ，考虑求最小的 \(k\) 满足 \(R | x+km\)，在将 \(R\) 除掉即可，\(k\pmod -xm^{-1} \pmod R\)，提前处理 \(m^{-1} \bmod R\)即可。

优点是不用 __int128，并且实现精细的话可能更快，缺点是必须精细实现，要封装 \(modint\) 来减少转换，细节较多（反正我调了一下午还不如本地动态模数暴力快，提交比固定模数略慢）。

唯一的作用没准就是做模板题 at_arc148_f。

速度测试以后会补，有简单的本地评价： Barrett reduction 未加判断。

固定模数： \(默认=Barrett reduction<Montgomery Algorithm\)

非固定数： \(Barrett reduction<默认<Montgomery Algorithm\)

学校 OJ 上固定模数 Montgomery Algorithm 略慢于默认，Barrett reduction 快于默认。

Barrett reduction，Montgomery Algorithm 都不会受模数是否固定影响。

标签：lfloor,2024.10,frac,鲜花,16,rfloor,模数,reduction,Barrett
From： https://www.cnblogs.com/xrlong/p/18470908

20241016 模板清理
区间DP-回文字串记\(f[i][j]\)表示把\(s[i\simj]\)变成回文，最少补几个，从\(f[i][j-1],f[i+1][j],f[i+1][j-1]\)三种情况转移过来即可。感性理解一下这样的状态定义是有最优子结构的。区间DP-合唱队肯定可以区间\(dp\)，再注意到状态的转移和上一步有关，所......
10.16学习日志
一.Python函数1.定义一个函数什么是函数函数是可以重复执行的语句块，可以重复调用作用用于封装语句块,提高代码的重用性。函数是面向过程编程的最小单位1.1def语句作用用来定义（创建）函数语法说明函数代码块以def关键词开头，后接函数标识符名称和圆括......
2024.10.16 模拟赛
2024.10.16模拟赛T1divide简要题意给定一棵树的\(n\)个结点以及每个结点的\(fa_i\)，每个点的点权\(v_i\)，删除树中的两条边，将树拆分为三个非空部分。每个部分的权值等于该部分包含的所有节点的权值之和。出一种合理的拆分方案。根节点的\(fa_i=0\)\(n≤10^6\)solution......
[20241016]Oracle C functions annotations补充.txt
[20241016]OracleCfunctionsannotations补充.txt--//网站orafun.info可以查询oraclecfunctions.CreatedbyFritsHooglandwithalittlehelpfromKamilStawiarski.--//可以通过它了解oracle内部C函数.实际上可以直接下载相关文件,在本地使用.https://gitlab.com/Frits......
2024/10/16 模拟赛总结
\(30+0+40+40=100\)，T4没看到输入不按顺序痛失\(35\)pts#A.最终测试很少见到不要dp的期望了直接枚举每一个人的四种情况，二分查找有多少种情况有多少人分比他高，最后除以\(16\)即可\(16\)是两个人的所有情况，即\(4\times4\)//BLuemoon_#include<bits/stdc++.h>......
10.16 补题记录
https://codeforces.com/gym/105386/problem/EE题：要求gcd最大值然后可以改变一次数组使选中的那一节增大k，然后我们一开始想dp[i][0/1][0/1]来维护前i个里这个数加k/不加k，以及之前加k/不加k,看起来非常的完美吧然后wa15了，是因为我们每次只记录了一个点的一种值但是一个点有可能......
10.16 模拟赛
炼石计划9月29日NOIP模拟赛#5【补题】-比赛-梦熊联盟(mna.wang)复盘T1有80的暴力。想了一会正解但不会做于是放弃了。T2。怎么这么像双栈排序？操作3是什么鬼？\(n\le5\)爆搜不会打？不管了先跳了。T3。一眼蒙德里安的梦想+矩阵加速。复杂度未知，说不定是正解，不......
Linux命令（10.16）
linux命令ifconfig查看IP地址serviceiptablesstop关闭防火墙serviceiptablesstart开启防火墙serviceiptablesrestart重启防火墙serviceiptablesstatus查看防火墙状态ssh+ip地址链接虚拟机su切换用户名su+root切换超级用户cat/etc......
20241016 模拟赛总结
期望得分：100+100+55(?)+0=255实际得分：100+100+0+0=200迷迷糊糊睡了好一会才起来打……感觉打的还行，除了T3时间太紧了，有的错误没检查出来挂分了。。T1简单线性DP。\(f_i\)表示前i个数的答案，\(g_i\)有点抽象，先假设当前在\(p\)，\(a_p=i\)，\(g_i\)表示的是如果\(p\)......
2024/10/16 日日志 --》关于Mysql的中DQL的初步学习笔记与整理
在前几天已经进行了Mysql的初步准备和学习，接下来我将继续向后推进。以下为课程学习整理，方便记忆和复习。点击查看代码-------DQL----基础查询--1.查询多个字段--SELECT字段列表form表名 ;--selcet*form表名;--查询所有数据--2.去除重复记录--selectdist......

2024.10.16 鲜花

取模优化

相关文章

赞助商

阅读排行