首页 > 其他分享 >Spark

Spark

时间:2024-11-08 22:23:07浏览次数:1  
标签:Scala Hadoop RDD 单选题 Spark 运行

1. (单选题, 2分)在实际应用中,大数据处理不包括哪些类型?

  • A. 基于实时数据流的数据处理
  • B. 基于离线数据的处理
  • C. 复杂的批量数据处理
  • D. 基于历史数据的交互式查询
正确答案: B:基于离线数据的处理;

2. (单选题, 2分)下列关于Spark的描述,错误的是哪一项?

  • A. Spark最初由美国加州伯克利大学(UCBerkeley)的AMP实验室于2009年开发
  • B. Spark在2014年打破了Hadoop保持的基准排序纪录.
  • C. Spark用十分之一的计算资源,获得了比Hadoop快3倍的速度
  • D. Spark运行模式单一
正确答案: D:Spark运行模式单一;

3. (单选题, 2分)下列说法哪项有误?

  • A. 相对于Spark来说,使用Hadoop进行迭代计算非常耗资源
  • B. Spark将数据载入内存后,之后的迭代计算都可以直接使用内存中的中间结果作运算,避免了从磁盘中频繁读取数据
  • C. Hadoop的设计遵循“一个软件栈满足不同应用场景”的理念
  • D. Spark可以部署在资源管理器YARN之上,提供一站式的大数据解决方案
正确答案: C:Hadoop的设计遵循“一个软件栈满足不同应用场景”的理念;

4. (单选题, 2分)下列说法错误的是?

  • A. RDD(Resillient Distributed Dataset)是运行在工作节点(WorkerNode)的一个进程,负责运行Task
  • B. Application是用户编写的Spark应用程序
  • C. 一个Job包含多个RDD及作用于相应RDD上的各种操作
  • D. Directed Acyclic Graph反映RDD之间的依赖关
正确答案: A:RDD(Resillient Distributed Dataset)是运行在工作节点(WorkerNode)的一个进程,负责运行Task;

5. (单选题, 2分)下列关于RDD说法,描述有误的是?

  • A. 一个RDD就是一个分布式对象集合,本质上是一个只读的分区记录集合
  • B. 每个RDD可分成多个分区,每个分区就是一个数据集片段
  • C. RDD是可以直接修改的
  • D. RDD提供了一种高度受限的共享内存模型
正确答案: C:RDD是可以直接修改的;

6. (多选题, 2分)Apache软件基金会最重要的三大分布式计算系统开源项目

  • A. Hadoop
  • B. Spark
  • C. Storm
  • D. Hive
正确答案: ABC:Hadoop; Spark; Storm;

7. (多选题, 2分)Spark具有的主要特点包括:

  • A. 运行模式多样
  • B. 运行速度快
  • C. 容易使用
  • D. 通用性
正确答案: ABCD:运行模式多样; 运行速度快; 容易使用; 通用性;

8. (多选题, 2分)Scala的特性包括:

  • A. Scala具备强大的并发性
  • B. Scala语法复杂
  • C. Scala兼容Java
  • D. 运行速度快
正确答案: ACD:Scala具备强大的并发性; Scala兼容Java; 运行速度快;

9. (多选题, 2分)Spark最主要的优点是()

  • A. 计算模式只能是MapReduce
  • B. Spark提供了内存计算
  • C. 提供了单一数据集操作类型
  • D. 基于DAG的任务调度执行机制
正确答案: BD:Spark提供了内存计算; 基于DAG的任务调度执行机制;

10. (多选题, 2分)Spark所采用Executor的优点包括:

  • A. 利用多线程来执行具体的任务
  • B. 多线程之间的数据共享
  • C. 存储模块全部都只能在内存中完成
  • D. Executor中有一个BlockManager存储模块,有效减少IO开销
正确答案: AD:利用多线程来执行具体的任务; Executor中有一个BlockManager存储模块,有效减少IO开销;

标签:Scala,Hadoop,RDD,单选题,Spark,运行
From: https://www.cnblogs.com/zh-ang-zhang/p/18536026

相关文章

  • Hadoop及Spark环境配置与运行实例
    一、参考资料重要说明本文章为大数据分析课程实验之Hadoop与Spark平台配置记录及示例演示,其中Hadoop配置部分绝大多数内容源自参考资料:华为云:Hadoop安装教程(单机/伪分布式配置)、CSDN:Hadoop安装教程(单机/伪分布式配置)(两文章内容相同且均为同一作者:@华东设计之美);Spark配置部分......
  • Apache Spark 学习路径
    文章目录一、基础知识1.1大数据概念1.2Spark介绍1.3Spark架构二、安装与配置三、编程模型四、核心API4.1、SparkSQL4.2SparkStreaming4.3MLlib4.4GraphX五、Spark机制5.1性能调优5.2Spark内部机制5.3Spark生态系统5.4实战与案例六、深入理解Spark架构七......
  • PySpark中的StructStreaming的使用
    使用pyspark编写StructStreaming的入门案例,如有雷同,纯属巧合,所有代码亲测可用。一、SparkStreaming的不足1.基于微批,延迟高不能做到真正的实时2.DStream基于RDD,不直接支持SQL3.流批处理的API应用层不统一,(流用的DStream-底层是RDD,批用的DF/DS/RDD)4.不支持EventTi......
  • 计算机毕业设计Python+图神经网络手机推荐系统 手机价格预测 手机可视化 手机数据分析
    温馨提示:文末有CSDN平台官方提供的学长联系方式的名片!温馨提示:文末有CSDN平台官方提供的学长联系方式的名片!温馨提示:文末有CSDN平台官方提供的学长联系方式的名片!作者简介:Java领域优质创作者、CSDN博客专家、CSDN内容合伙人、掘金特邀作者、阿里云博客专家、51CTO......
  • spark的学习-03
    RDD的创建的两种方式:方式一:并行化一个已存在的集合方法:parallelize并行的意思将一个集合转换为RDD方式二:读取外部共享存储系统方法:textFile、wholeTextFile、newAPIHadoopRDD等读取外部存储系统的数据转换为RDDRDD的五大特征:每个RDD都由一系列的分区构成RDD的转......
  • SparkSQL
    一、概述1.1、什么是sparksql  SparkSQL是Spark中用于处理结构化数据的模块,它提供了两个主要的编程抽象:DataFrame和DataSet,并且还可以作为分布式SQL查询引擎使用。SparkSQL的设计目的是简化结构化数据的处理和查询,同时提高执行效率。  传统的HiveSQL通过......
  • pyspark 解析kafka数组结构数据
    frompyspark.sql.functionsimportget_json_object,col,from_unixtime,instr,length,regexp_replace,explode,from_jsonfrompyspark.sql.typesimport*#定义数组结构schema=ArrayType(StructType([StructField("home",StringType()),S......
  • Linux 下搭建 Spark3 + Jupyter 环境
    最近想着来玩一玩大数据,前段时间集中过了一遍java,最近又看了一些基础的scala,我感觉吧,我都不想学.还是觉得用sql,javascript,python这种脚本语言操作起来顺手,但这并不影响对这个大数据生态的理解和学习.这里主要是来记录一下spark+jupyter环境的搭建,说实......
  • PySpark本地开发环境搭建
    一.前置事项请注意,需要先实现Windows的本地JDK和Hadoop的安装。二.windows安装Anaconda资源:Miniconda3-py38-4.11.0-Windows-x86-64,在window使用的Anaconda资源-CSDN文库右键以管理员身份运行,选择你的安装路径,但是请注意最好文件路径不要有空格或者中文,并且要自己找得到。......
  • Spark on YARN:Spark集群模式之Yarn模式的原理、搭建与实践
    Spark的介绍与搭建:从理论到实践-CSDN博客Spark的Standalone集群环境安装与测试-CSDN博客PySpark本地开发环境搭建与实践-CSDN博客Spark程序开发与提交:本地与集群模式全解析-CSDN博客目录一、SparkonYARN的优势(一)统一化资源管理(二)YARN调度机制的优势二、Spark......