• 2024-07-30TopK的实现
    在此前,已经介绍了向下调整算法,建堆以及堆排序的实现,这篇文章将实现TopK问题。前提:从1000个数据中找出10个最小的,这里的实现用到了文件操作,现实中若是基数很大,不能直接在内存中保存,则要借助文件将数据保存,然后再提取数据进行比较。大概步骤如下:1:生成1000个随机数,做为本次要排
  • 2024-07-15torch topk 使用
    torchtopk使用这个函数是用来求tensor中某个dim的前k大或者前k小的值以及对应的index。用法torch.topk(input,k,dim=None,largest=True,sorted=True,out=None)->(Tensor,LongTensor)input:一个tensor数据k:指明是得到前k个数据以及其indexdim:指定在哪个维度上排
  • 2024-06-24海量数据中的TOPK问题
    面试现场:海量数据中的TOPK问题  目录1、只用2GB内存在20亿个整数中找到出现次数最多的数思路2、40亿个非负整数中找到没出现的数思路进阶问题3、找到100亿个URL中重复的URL以及搜索词汇的topK问题思路补充题目4、40亿个非负整数中找到出现两次
  • 2024-06-21大语言模型 MOE 简明实现指南
    这篇文章中,我简要实现一下大语言模型的MOE模块。MOE模块位于每个GPT层中,位于注意力模块的后面,每个MOE模块包含若干个MLP模块作为专家。这些专家是稀疏的,也就是每次选择部分来调用,并不会调用全部,从而节省宝贵的算力。首先定义一些常量,通常应该在模型配置文件里面。bs=5#批
  • 2024-04-15Sparse稀疏检索介绍与实践
    Sparse稀疏检索介绍在处理大规模文本数据时,我们经常会遇到一些挑战,比如如何有效地表示和检索文档,当前主要有两个主要方法,传统的文本BM25检索,以及将文档映射到向量空间的向量检索。BM25效果是有上限的,但是文本检索在一些场景仍具备较好的鲁棒性和可解释性,因此不可或缺,那么在NN模
  • 2024-03-13数据结构之树(Topk问题, 链式二叉树)
    一.topk问题取N个数中最大(小)的前k个值,N远大于k这道题可以用堆的方法来解决,首先取这N个数的前k个值,用它们建堆时间复杂度O(k)之后将剩余的N-k个数据依次与堆顶数据进行比较,如果比堆顶数据大,则将堆顶数据覆盖后向下调整时间复杂度(N-k)*log(N)总共的时间复杂度为O(
  • 2023-12-27算法学习笔记六一topk问题
    目录什么是topk问题解决方法代码示例(堆排序)什么是topk问题Top-k问题是指在一个元素集合中找出前k个最大或最小的元素。这个问题在很多实际场景中都有应用,例如在大数据处理中获取最大的k个元素、搜索引擎中的搜索结果排序等。解决方法堆排序:使用最小堆或最大堆来解决To
  • 2023-08-12堆排序(topk 问题)(NB)
    博客地址:https://www.cnblogs.com/zylyehuo/#_*_coding:utf-8_*_#比较排序importrandomdefsift(li,low,high):#堆的向下调整(小根堆)i=lowj=2*i+1tmp=li[low]whilej<=high:ifj+1<=highandli[j+1]<li[j]:
  • 2023-06-18TopK
    这道题可以有很多延伸:(1)简单的TopK算法(2)大文件无法一次加载进内存如何找出TopK数字(3)大文件找出频率次数最高的K个数字(4)系统设计:Top-KHitter找出一定时段内点击量最高的视频、博文1)简单的TopK算法优先队列实现classSolution{publicint[]getLeastNumbers(int[]arr,
  • 2023-06-14pytorch -- topk()
    torch.topk(input,k,dim=None,largest=True,sorted=True,out=None)->(Tensor,LongTensor) pytorch中文官网文档:http://www.mamicode.com/info-detail-2217311.html沿给定dim维度返回输入张量input中 k 个最大值。如果不指定dim,则默认为input的最后一维。如果为largest
  • 2023-06-02splunk的统计分析功能——特定字段的统计功能包括取值分布(+topK,min/max/平均值)
    特定字段的统计功能——取值分布,topK,min/max/平均值例如:date_second60值,100%的事件时段平均值时段最大值时段最小值上限值时段上限值罕见值具有此字段的事件平均: 30.963998最小值: 0最大值: 59标准 偏差: 17.300073前10个值计数% 50643.032% 51502.368% 22492.321%
  • 2023-05-22实现堆,堆排序,解决堆的TOPK问题
    这篇博客我会尽我自己的所能讲解堆,同时详细的解释堆中重要的向下和向上调整算法,以及推排序的两种实现方法,和堆的TOPK问题。堆是什么我们之前已经介绍过了树,而堆就是一种完全二叉树。这里我放一张二叉树的图下面我来解释一下满二叉树,和完全二叉树的区别:满二叉树是指除了叶子节点外,每
  • 2023-04-21深度学习--统计与数据映射
    深度学习--统计与数据映射范数importtorch#范数norm第一范数:绝对值求和第二范数:平方和后求根号norm使用要求是浮点数a=torch.full([8],1.)#tensor([1.,1.,1.,1.,1.,1.,1.,1.])b=a.view(2,4)#tensor([[1.,1.,1.,1.],#[1.,1.,1.,
  • 2023-03-04萌新也能看懂的 Golang 题解(三)
    第三批1822.电话拦截(模拟、排序)难度:中等;主观评价:简单。sort.Slice() 应用题,重点在于通配符的判断和如何设计数据结构保证最后能按呼叫顺序返回通话记录。对于没有通
  • 2022-12-07算法练习:TopK_1
    问题描述求一维数组中最小的K个数。 方法一:排序先把数组从小到大排序,取前K个数。时间复杂度为O(nlogn)。如果数组过大,机器内存无法同时容纳整个数组,则需要使用外部排序。以
  • 2022-11-23堆排序+TOPK问题
    (文章目录)一.堆排序1.使用向上还是向下调整建堆好?(1)向上调整算法建堆的时间复杂度voidadjustup(HPDatatype*a,intchild)//向上调整算法{ intparent=(child-
  • 2022-10-26优先队列--著名的TopK问题(最小堆的使用)
    692. TopKFrequentWordsMedium77671FavoriteShareGivenanon-emptylistofwords,returnthe k mostfrequentelements.Youranswershouldbesortedbyfrequen
  • 2022-09-22海量数字topK
    importrandomimportheapqn=100k=10nums=[iforiinrange(n)]random.shuffle(nums)deftopk(nums,k):heap=[]foriinrange(k):he
  • 2022-08-22算法中的Top_K 问题总结
    写在前面在人工智能算法岗位的面试中,TopK是问得最多的几个问题之一:到底有几种方法?这些方案里蕴含的优化思路究竟是怎么样的?为啥TopK这么受欢迎呢?究其原因,还是因为它不