首页 > 其他分享 >云计算考试大纲

云计算考试大纲

时间:2024-06-01 17:21:41浏览次数:37  
标签:__ map word 大纲 rdd docs RDD 计算 考试

1.云计算的定义和特点

云计算是一种按使用量付费的模式,这种模式提供可用的、便捷的、按需的网络访问,进入可配置的计算资源共享池,这些资源能够被快速提供,只需投入很少的管理工作,或与服务商进行很少的交互。

特点:资源池化、弹性伸缩、安全可靠

2.各种云

公有云

能够以低廉的价格提供有吸引力的服务给最终的客户,使拥护能够访问和共享基本的计算机基础设施;

优点:成本低、方便、易拓展;缺点:安全顾虑、性能超卖、管理复杂;

私有云

为一个客户单独使用而构建的;

优点:安全、自主可控;缺点:成本高、远程访问困难;

分为本地私有云和托管私有云;

社区云

云端资源只给两个或两个以上的特定单位组织内的员工使用;

混合云

两个或两个以上不同类型的云服务的结合;

优点:操作灵活、弹性、成本效益;

缺点:安全性不强、费用高、兼容性问题

3.RDD的特性

RDD的定义:弹性分布式数据集,不可变、可分区、里面的元素可并行计算的集合

特性一:RDD由一系列的分区组成

特性二:RDD的方法会作用在其他所有分区上

特性三:RDD之间有依赖关系

特性四:Key-Value型的RDD可以有分区器

特性五:RDD的分区规划,会尽可能靠近数据所在的服务器

4.map和flatMap的联系和区别

联系:两者都是用于对RDD中的每个元素进行处理和转换的操作,两者都是惰性求值的操作,两者都返回一个新的RDD

区别:map操作后新的RDD元素个数与原RDD相同,flatMap操作后个数可能不同;map返回的是单个值,flatMap 返回的是一个集合或迭代器

5.tfidf

某个单词在一片文章中出现多次(TF高)且在其他文章中很少出现(IDF高)

\[tf = \frac{某个词在该篇文章中出现的次数}{该篇文章总词数} \]

\[idf = \log{\frac{文章总数量}{包含该词的文章数量}} \]

tfidf没有考虑特征词的位置因素对文本的区分度,忽略了特征项在一个类别中和不同的类别间的分布情况,对于文档中出现次数较少的重要人名、地名信息提取效果不佳。

from pyspark import SparkConf, SparkContext

if __name__=='__main__':
	conf = SparkConf().setAppName("local").setMaster("local[*]")
    sc = SparkContext(conf=conf)
    
    documents = [ ]
    rdd_docs = sc.parallelize(documents)
    rdd_words = rdd_docs.flatMap(lambda doc:set(doc.lower().translate(str.makefrans(",", string.punctuation)).split()))
    rdd_words_counts = rdd_words.map(lambda word:(word, 1)).reduceByKey(lambda a, b:a+b)
    total_docs = rdd_docs.count()
    idfs = rdd_words_counts.map(lambda word_count:(word_count[0], round(math.log(total_docs/word_count[1]), 3)))
    print(dict(idfs.collect()))

6.PageRank

pagerank算法起初被应用于谷歌搜索引擎,以帮助确定网页的重要性并据此对搜索结果进行排序,核心思想是一个网页的重要性科研通过其他网页链接到它的数量和质量来判断。

现在还用于社交网络分析、学术文献分析、推荐系统、网络安全、交通网络分析等领域。

标签:__,map,word,大纲,rdd,docs,RDD,计算,考试
From: https://www.cnblogs.com/wanyy-home/p/18226168

相关文章

  • Java 集合中的组内平均值计算
    在Java开发中,集合(Collection)是一个重要的数据结构,广泛应用于各种场景。计算集合中的组内平均值是一个常见的操作,尤其是在数据分析、统计和处理时更为重要。本文将深入探讨如何使用Java来计算集合中的组内平均值,涵盖基本概念、具体实现、优化策略和实用示例。集合框架概述Java......
  • 【计算机毕业设计】345大学生心理健康测评管理系统小程序
    ......
  • 【计算机毕业设计】353微信小程序零食批发交易管理系统
    ......
  • 《计算机网络微课堂》第四章 网络层
    4-1网络层概述从本节课开始,我们进入第4章网络层的学习。本节课我们对网络层进行概述。网络层的主要任务是实现网络互连,进而实现数据包在各网络之间的传输,如图所示。这些异构型网络,如果只是需要各自内部通信,他们只要实现各自的物理层和数据链入层即可,但是如果需要将这......
  • 【计算机毕业设计】谷物识别系统Python+人工智能深度学习+TensorFlow+卷积算法网络模
    谷物识别系统,本系统使用Python作为主要编程语言,通过TensorFlow搭建ResNet50卷积神经算法网络模型,通过对11种谷物图片数据集('大米','小米','燕麦','玉米渣','红豆','绿豆','花生仁','荞麦','黄豆','黑米','黑豆')进行训练......
  • 1882java密室逃脱管理系统 Myeclipse开发mysql数据库web结构java编程计算机网页项目
    一、源码特点java密室逃脱管理系统是一套完善的web设计系统,对理解JSPjava编程开发语言有帮助采用了java设计,系统具有完整的源代码和数据库,系统采用web模式,系统主要采用B/S模式开发。开发环境为TOMCAT7.0,Myeclipse8.5开发,数据库为Mysql,使用java语言开发。二、功能介绍(1)......
  • 《计算机网络微课堂》实验1 访问WEB服务器
    现在我们使用PacketTracer软件来做一个仿真实验,仿真实验的内容与我们理论讲解部分所采用的例子一样,就是一台主机访问另外一台Web服务器我们先来构建网络拓扑,我们拖动一个普通的计算机到逻辑工作空间,再拖动一台普通的服务器到逻辑工作空间,然后我们选择自动连线将他们互联起来......
  • 《计算机网络微课堂》实验3 总线型以太网的特性(广播,竞争总线,冲突)
    本实验的内容主要是为了验证总线型以太网的特性,例如广播特性,例如各组机对总线的竞争使用以及可能产生的碰撞。首先拖动三台计算机到逻辑工作空间,我们使用集线器让它们互联起来,使用自动连线,将每台计算机连接到集线器上。网络拓扑从表面上看是个星型的结构,但它实际上是一个总线型的......
  • 《计算机网络微课堂》实验2 MAC地址,IP地址,ARP协议
    本仿真实验的内容是验证MAC地址与IP地址的关系,以及ARP协议的作用。我们首先拖动两台计算机到逻辑工作空间,然后选择自动连线,让他们互联起来,作为左边这台计算机配置IP地址192.168.0.1,给右边这台计算机配置IP地址192.168.0.2,我们可以在右边的工具栏点击查看,来查看计算机......
  • 《计算机网络微课堂》实验4 集线器和交换机的区别
    本实验的目的在于验证集线器和交换机的区别。我们事先构建了4个以太网,上面两个以太网使用的网络互联设备为集线器,下面两个以太网使用的网络互联设备为交换机,如果您构建了拓扑后,交换机的各个接口的指示灯不是绿色的,请在实时和这仿真模式下多切换几次,直到交换机的各接口的指示灯......