LSH
  • 2024-11-04数据结构做题记录(1)
    1:P11071「QMSOIR1」DistortedFate二进制的题,优先想到拆位求贡献。因为是或,对于某一位,找到区间中最左的这一位为\(1\)的位置,然后相应的乘上它到右端点的距离,就可以计算答案了。\(logV\)是\(30\),可以想到对二进制的每一位开一棵线段树,维护区间中这一位相关信息。然后就
  • 2024-09-29关于离散化+Trick
    离散化干嘛用的不多说。你不会去问度娘吗板板经常忘又懒得找。遂写一模板暂存。//a为原数组,b为a的副本voidversion1(){ sort(b+1,b+1+n); intsiz=unique(b+1,b+1+n)-b-1; for(inti=1,k;i<=n;i++) a[i]=lower_bound(b+1,b+1+siz,a[i])-b-1;}unordered_map<int,i
  • 2024-08-18Spark MLlib 特征工程系列—特征提取LSH(BucketedRandomProjectionLSH)
    SparkMLlib特征工程系列—特征提取LSH(BucketedRandomProjectionLSH)在这篇文章中,我们将深入探讨Spark中的BucketedRandomProjectionLSH,这是一种用于近似最近邻搜索的技术。文章将覆盖其工作原理、应用场景、Scala代码示例、参数调优以及使用效果分析,确保内容全面、
  • 2024-08-01C++入门基础
    文章目录一、C++的由来1、C++的起源2、C++的版本更新二、C++的第一个程序三、命名空间1、namespace的价值2、namespace的定义3、命名空间的使用四、C++输⼊&输出五、缺省参数六、函数重载七、引用1、引用的概念和定义一、C++的由来1、C++的起源C++的起源可
  • 2024-07-16Day 0
    我8:00与lsh前往济南,在大约11:40左右抵达济南高铁站。等高铁期间,我在庞大的济南高铁站中找到了我心心念念的而DY却没有的赛百味三明治,买了27的西式火腿三明治和34的香烤牛肉三明治,味道实在好极了,买完后偶遇lzc。坐上G181次列车,坐了5个小时,抵达金华,中途有时颓,有时看风景,还有时睡
  • 2024-03-30P9732 [CEOI2023] Trade
    洛谷传送门LOJ传送门考虑第一问,设一个区间的价值\(g(l,r)\)为\(f(l,r)-a_r+a_{l-1}\),其中\(a_i=\sum\limits_{j=1}^ic_j\),\(f(l,r)\)为\([l,r]\)中最大的\(k\)个\(b_i\)的和,设\(p_i\)为以\(i\)为右端点,区间价值最大的左端点,那么\(p_i\)满足决
  • 2024-02-07AtCoder-ABC-Ex乱写
    ABC233ExManhattanChristmasTree先将\((x,y)\)变成\((x+y,x-y)\),也就是曼哈顿转切比雪夫,之后曼哈顿距离\(\lek\)的在切比雪夫坐标系下就是一个正方形。用主席树做矩形和,外层套一个二分即可,时间复杂度\(\mathcal{O}(n\log^2n)\)。ABC233Ex#include<bits/stdc++.h
  • 2024-02-0224/02/02 按钮
    题目描述有一排按钮,编号为\(0\simn-1\)。现在有两种操作:\(p\)\(l\)\(r\):表示把编号在\([l,r]\)范围内的按钮都按下去。\(r\)\(l\)\(r\):表示把编号在\([l,r]\)范围内的按钮都提一格。保证这个操作与之前某个按下操作的区间一样,且一次按下只会释放一次。如下
  • 2024-01-18洛谷P3045
    记\(d_i=P_i-C_i\),表示用优惠劵能优惠的钱数。最后会有一些牛用优惠劵买,有一些牛用原价买,那么用优惠劵买的牛的\(d\)一定大于用原价买的牛的\(d\),否则把这张优惠劵用来买原价的这头牛肯定更优。所以把所有牛按\(d\)排序后,一定可以找到一个分界点\(i\),使得\(i\)之前的牛
  • 2024-01-10洛谷 P7409 SvT
    洛谷传送门考虑对反串建SAM,设\([i,n]\)的后缀对应SAM的点是\(a_i\)。那么\(\text{lcp}(s[i:n],s[j:n])=\text{len}(\text{lca}(a_i,a_j))\)。于是问题变成了,给定一些点,统计两两\(\text{lca}\)点权之和。考虑建虚树,枚举每个点\(u\)作为\(\text{lca}\)的
  • 2023-12-28MinHash-LSH:如何解决医学大模型的大规模数据去重?
    MinHash-LSH最小哈希+局部敏感哈希:如何解决医学大模型的大规模数据去重?大模型的数据问题MinHash-LSH最小哈希+局部敏感哈希:大规模数据集去重优化Jaccard相似度:用于比较样本集之间的相似性降维技术MinhashLSH–局部敏感哈希MinHash-LSH多个开源数据集去重 大模型的数据
  • 2023-12-10CodeForces 575F Bulbo
    洛谷传送门CF传送门提供一个傻逼\(O(n^2)\)做法。首先考虑暴力dp,设第\(i\)轮后在\(j\)坐标上的最小花费为\(f_{i,j}\),有:\[f_{i,j}=\minf_{i,k}+|j-k|+\begin{cases}l_i-j&j<l_i\\0&l_i\lej\ler_i\\j-r_i&j>r_i\end{cases}
  • 2023-08-13使用LSH 进行特征提取
    局部敏感哈希(LSH)通常用于近似最近邻算法(ANN)操作(向量搜索)。LSH的特性也可以在以矢量为输入的神经网络模型中得到利用(例如,各种的音频、视频和文本嵌入等内容信号)。通常情况下,特定领域模型中输入的流形是复杂的(非i.i.d)。这种复杂性使得使用计算密集型操作的多层感知机来
  • 2023-08-03大规模异常滥用检测:基于局部敏感哈希算法——来自Uber Engineering的实践
     uber全球用户每天会产生500万条行程,保证数据的准确性至关重要。如果所有的数据都得到有效利用,t通过元数据和聚合的数据可以快速检测平台上的滥用行为,如垃圾邮件、虚假账户和付款欺诈等。放大正确的数据信号能使检测更精确,也因此更可靠。为了解决我们和其他系统中的类似挑战,UberE
  • 2023-06-27局部敏感哈希LSH(SimHash与MinHash)
    SimHash1.算法思想假设我们有海量的文本数据,我们需要根据文本内容将它们进行去重。对于文本去重而言,目前有很多NLP相关的算法可以在很高精度上来解决,但是我们现在处理的是大数据维度上的文本去重,这就对算法的效率有着很高的要求。而局部敏感hash算法可以将原始的文本内容映射为
  • 2023-05-26lsh的三角函数变换题
    题面在蔡徐坤右肩带脱落时,形成两个角\(\alpha,\beta\),其中\(\alpha\in[\frac{\pi}{4},\pi]\),\(\beta\in[\pi,\frac{3\pi}{2}]\),且\(\sin2\alpha\)=\(\frac{\sqrt{5}}{5}\),\(\sin(\alpha-\beta)=\frac{\sqrt{10}}{10}\),问\(\alpha+\b
  • 2023-05-26前导零
    方法一:"保留前导零CALLFUNCTION'CONVERSION_EXIT_ALPHA_INPUT'EXPORTINGinput=lv_lshIMPORTINGoutput=lv_lsh."去掉前导零CALLFUNCTION'CONVERSION_EXIT_ALPHA_OUTPUT'EXPOR
  • 2023-03-07[qoj4820]Kitten's Computer
    为了方便,以下位运算中均省略\(\and\)将\(a_{2}\)的每一位拆开,对于第\(i\)位,将该位乘\(a_{1}\)的结果放到\(a_{A_{i}}\)上具体的,将该位单独取出放在最低位,并倍增使其余位
  • 2023-01-05区间合并
    双指针区间合并离散化双指针通俗理解前缀和听起来好高级啊,那么他究竟是什么啊?双指针是通过某些方式优化复杂度,从而实现。接下来看几道栗子吧双指针给定一个长
  • 2022-12-12局部敏感哈希-Locality Sensitive Hashing-LSH
    问题定义对于一个给定的query,从数据库中召回所有dist<thres的docs。问题求解Naive的方法需要O(n)的时间复杂度,LSH只需要O(1)即可实现。具体来说分为三步:1)抽取Embeddin
  • 2022-12-02【大数据】网页相似度-Shingling、MinHash与LSH
    给定一个文档"aroseisaroseisarose",要计算出一个特征用于做网页对比,从而和其他文档计算相似度。Shingling和k-gram一样,按照长度为4进行划分,得到{"aroseisa","
  • 2022-11-21uoj #770. 【UER #11】切割冰片
    https://uoj.ac/contest/79/problem/770赛时睡了一觉后就会转化了/hsh考虑这个竖线倘若存在第\(i\)条能发到\(+\infty\),那么\(i\)之后的也一定能发到!考虑每条
  • 2022-11-14P3643 [APIO2016] 划艇
    题意给你两个序列\(a,b\),求严格递增的序列\(c\)的个数,满足:\(\foralli,c_i\in[a_i,b_i]\)。特别的,如果\(c_i=0\)则无视当前这个\(c_i\)。Solution好困难的dp,耗我
  • 2022-10-29简单实现shell
    参考Tutorial-WriteaShellinC•StephenBrennan   下面是原作者在github上传的代码/****************************************************************
  • 2022-09-28关于 risrqnis
    这道题里最有用的(RangeInsertSubsetRangeQuery[n?]InSet破案了我那五个点是因为维护不知道有什么用的东西炸了删了就过了题面[JRKSJR4]risrqnis给你