首页 > 编程语言 >2022年大数据应用算法期末考试

2022年大数据应用算法期末考试

时间:2023-11-19 11:57:17浏览次数:45  
标签:算法 MG 哈希 sketch 期末考试 2022 集合 mins

1.请简要回答为什么需要设计可合并的 Sketch 算法?可合并的 Sketch 算法主要是用于什么场景?
Only sketch structure moves between locations
Suffices to specify merging two sketches
Distributed data/parallelize computation
可合并的 Sketch 算法是为了解决大规模数据流处理和分布式系统中的近似查询问题而设计的。这些算法能够对数据流进行压缩和摘要,以便在有限的内存和有限的通信带宽条件下处理大量的数据。
可合并的 Sketch 算法主要用于以下场景:
数据流处理:在数据流处理系统中,数据以高速率持续到达,无法全部存储在内存中。可合并的 Sketch 算法通过在有限的内存中维护摘要信息,例如频率估计、矩估计等,能够对数据流进行实时查询和分析。
分布式系统:在分布式系统中,数据通常分布在多个节点上,而节点之间的通信成本较高。可合并的 Sketch 算法允许在分布式环境下对数据进行分布式计算和聚合,从而减少数据传输量和通信开销。
网络监测和流量分析:可合并的 Sketch 算法可以用于网络监测和流量分析,例如统计网络中不同类型的流量、识别网络中的异常行为或研究网络拓扑结构等。
2.给定数据流 D=(1,2,5,1,4,2,3,3,2,4,5,2),假设 k=3,请详细描述 Misra‐Gries 算法在该数据流上的运行步骤。
具体实例如下:
T=0: MG{}
T=1:输入1,MG{1:1}
T=2:输入2,MG{1:1,2:1}
T=3:输入5,MG{1:1,2:1,5:1}
T=4:输入1,MG{1:2,2:1,5:1}
T=5:输入4,MG{1:1}
T=6:输入2,MG{1:1,2:1}
T=7:输入3,MG{1:1,2:1,3:1}
T=8:输入3,MG{1:1,2:1,3:2}
T=9:输入2,MG{1:1,2:2,3:2}
T=10:输入4,MG{2:1,3:1}
T=11:输入5,MG{2:1,3:1,5:1}
T=12:输入2,MG{2:2,3:1,5:1}
3.请解释 Morris 计数算法的基本原理?它为什么能够做到只用 O(loglogn)的空间来对 n 个数据进行计数?
Morris计数器的原理简单来说是记录一个计数器s,每次以2-s的概率给s+1,最终返回的估计结果是2s-1。对于最终的估计量来说,我们所记录的s是估计量的log结果;而当我将s这个结果存储到内存中时,我还需要再进行一步log得出我最终所需的位数,所以最后的空间只需要loglogn
4.MinHash 算法有哪三种实现方式?它们各自有哪些优缺点?
Minhash算法的三种实现方式分别是:k-mins sketch、Bottom-k sketch、k-partition sketch。K-mins算法是使用k个hash函数,每个哈希函数都对序列求一遍哈希,取出每个哈希函数求出的最小值代表该序列的最小哈希,优点是结果可信度高,缺点是浪费空间;Bottom-k是只用一个哈希函数,对序列求哈希,取出前k个最小的代表该序列的最小哈希,优点是操作简单,节省空间;k-partition综合上述两种方法,先分成k个部分然后再用一个函数做哈希,取出每个部分中最小的哈希值,优点是结果可信度比较好,也比较节省空间,缺点是操作繁琐,大批量数据很麻烦

关于复杂度(当一个元素到来时的时间开销):
k-mins是O(k),无论sketch是否更新。
k-partition是O(1),test or update
bottom-k最低是O(logk),to test if an update is needed;对于to update的情况,取决于实现方式,如果是sorted list,则O(k),如果是优先队列,则O(logk)。
test的意思就是单纯地比个大小。update是如果比完大小需要更换。对于k-partition,更换只涉及一个元素;对于bottom-k,更换完还涉及k个bottom的重新排序。
此外,关于modified次数(所有数据到来的情况下的时间开销),三者虽然都近似为O(klnn),但具体而言,k-mins是klnn,k-partition是kln(n/k),而bottom-k的小于kH_n小于klnn。


6.给定一个包含 n 个不同元素的集合 A,请证明在采用 k‐mins MinHash 算法来 构造集合 A 的 k‐mins sketch 的过程中,sketch 发生更新的期望次数为 O(k lnn)。
证明:
首先考虑k=1的Minhash情况。第i个key成为此前所有(包括这一个)的key中哈希值最小者的概率与此前其它的所有key是相等的,均为1/i(因为这是k=1的情况)。也就是说,每来一个key i,有1/i的概率更新1次。从而总的更新次数的期望为:\(\sum_{i=1}^{n}{1*\frac{1}{i}}=\sum_{i=1}^{n}{\frac{1}{i}}\),记为调和数H_n。由调和数的数学性质知,H_n<lnn。
那么对于k-mins的Minhash情况,有k个minhash值,因而此上界乘以k倍,为k lnn。故期望更新次数的期望为O(k lnn)。
七、给定集合 A={a, b, c, d, e, h}, B={a, c, e, f, g, m, n}。假设采用 k‐mins MinHash 算 法来处理集合 A 与 B。令 k=4,得到集合 A 和集合 B 的 k‐mins sketch 分别为 S(A)=( 0.22, 0.11, 0.14, 0.22), S(B)=( 0.18, 0.24, 0.14, 0.35)。(20 分)

  1. 请计算 A 和 B 的 Jaccard 相似性。
  2. 请根据 S(A)和 S(B)来计算集合 A 与 B 合并后的 k‐mins sketch,即 S(A∪B)。
  3. 请基于 S(A∪B)估计集合 A 和集合 B 的 Jaccard 相似性。
  4. 在该问题中,基于 k‐mins MinHash 算法的估计方差为多少?

八、给定一个有向图 G=(V, E),以及一个节点 v。在图 G 中可以到达节点 v 的集合定义为 Reach‐1(v)={u∈V|u 在图 G 中可达 v}。对于集合 Reach‐1(v),我们可以采用 k‐mins MinHash 算法来生成该集合的一个 k‐mins sketch,记为 S(v)。(20 分)

  1. 请设计一个算法计算图中所有节点的 k‐mins sketch,即对于任意的 v 计算所有的 S(v)。
    第四章BFS的反向bottom-1来k次
  2. 请描述如何用 S(u)和 S(v)来计算| Reach‐1(v)∪Reach‐1(u)|?
    方法一:
    两个对应的位置取最小值,然后得出来一个sketch之后,为了估计它所以再取平均,然后再取倒数再减一。也就是如下

    方法二:
    \(n_u\)是u的反向可达集的大小
    先对S(u)进行转化
    \(s'(u)_i=-{ln(1-s(u)_i)}\sim Exp(n_u)\)
    S(v)也按相同步骤转化
    最后得到S'(u)、S'(v)
    接着S={min{\(s'(u)_i,s'(v)_i\)}\(\sim Exp(n)\)}
    得到
    \(\hat{n}=\frac{k-1}{ {\textstyle \sum_{k}^{i=1}s_i} }\)

标签:算法,MG,哈希,sketch,期末考试,2022,集合,mins
From: https://www.cnblogs.com/JinyuLi/p/17841779.html

相关文章

  • 算法竞赛进阶指南学习笔记(一)
    前言一共八章基本算法基本数据结构搜索数学知识数据结构进阶动态规划图论综合技巧与实践前置要求:简单熟悉C++这门语言。学习算法,算法的门槛不像AI门槛那么高,每个人皆可学习。正如谚语所说:熟读唐诗三百首,不会作诗也会吟。练习达到3000左右的题量,那你便可轻易Accepted......
  • 【教3妹学编程-算法题】三个无重叠子数组的最大和
    2哥 :3妹,咋啦?一副苦大仇深的样子?3妹:不开心呀不开心,羽生结弦宣布离婚。2哥 :羽生什么?3妹:羽生结弦!2哥 :什么结弦?3妹:羽生结弦!!!2哥:羽生结弦是谁?他离婚关你啥事啊?3妹:你不知道,他是日本著名花滑运动员,前几个月刚宣布结婚,没想到这么快就离了。真是短时间内震惊我两次!2哥 :哎,人家怎......
  • AdaBoost算法解密:从基础到应用的全面解析
    本文全面而深入地探讨了AdaBoost算法,从其基础概念和原理到Python实战应用。文章不仅详细解析了AdaBoost的优缺点,还通过实例展示了如何在Python中实现该算法。关注TechLead,分享AI全维度知识。作者拥有10+年互联网服务架构、AI产品研发经验、团队管理经验,同济本复旦硕,复旦机器人......
  • 【专题】2022年中国跨境电商行业研究报告PDF合集分享(附原数据表)
    报告链接:http://tecdat.cn/?p=32044近年来,我国的跨境电子商务发展迅速,在过去五年中,其贸易额增长率达到了16.2%,已经成为稳定对外贸易的一支重要力量。阅读原文,获取专题报告合集全文,解锁文末52份跨境电商行业相关报告。一方面,随着跨境电子商务的发展,跨境电子商务的监管政策得到了......
  • 囚徒4.0_11_基于python的风云云检测算法
    #囚徒4.0_11_基于python的风云算法#关于昨天数据不同的问题:是因为IDL和Python的逻辑不同而导致的,数据读取没问题,我表示错了。#换语言好麻烦,现在都不知道什么语法对应什么语言了,一团糟。#从上午十点写到现在,测试的时候发现python他的读取逻辑和IDL不一样,他的循环也不一样,我真......
  • 資料結構和演算法對一個工程師的意義?如何提升實力?
    我們常聽到人們會說,「演算法」和「資料結構」是一名優秀工程師的必備素養,但究竟這句話是什麼意思呢?工程師面試時常常用LeetCode解題來篩選面試者,而想要針對LeetCode刻意練習時,又需要先有「演算法」和「資料結構」的觀念基礎。這個面試準備過程即使是對本科系畢業的學生也需要......
  • 囚徒_风云云检测算法改进
    functionmask=code(ref_b2,ref_b3,ref_b4,ref_b5,tmp_7,tmp_9,tmp_13,tmp_15,SC,height,mask_lan)%算法实现%此处提供详细说明sz=size(ref_b2);temp=ref_b4*0;temp(temp~=-999.0)=1;raio=ref_b3./ref_b2;%可信矩阵准备mat_15=T_mat(tmp_15,224,228,"lt");mat_9=T_m......
  • 数组类算法题——删除有序数组中的重复项
    删除有序数组中的重复项题目:给你一个非严格递增排列的数组nums,请你原地删除重复出现的元素,使每个元素只出现一次,返回删除后数组的新长度。元素的相对顺序应该保持一致。然后返回nums中唯一元素的个数。考虑nums的唯一元素的数量为k,你需要做以下事情确保你的......
  • 代码随想录算法训练营第七天 | ● 454.四数相加II ● 383. 赎金信 ● 15. 三数之和
    今日学习的文章链接和视频链接https://programmercarl.com/链表理论基础.html●454.四数相加IIvarfourSumCount=function(nums1,nums2,nums3,nums4){letcount=0letmap=newMap();for(letnumber1ofnums1){for(letnumber2ofnums......
  • 代码随想录算法训练营第六天 |● 哈希表理论基础 ● 242.有效的字母异位词 ● 349.
    今日学习的文章链接和视频链接https://programmercarl.com/哈希表理论基础.html242.有效的字母异位词varisAnagram=function(s,t){if(s.length!==t.length)returnfalseletmap=newMap();for(letcharofs){if(!map.get(char)){......