来源周周的奇妙编程:https://developer.aliyun.com/profile/pmur6hy3nphhs
1.(多选)MaxCompute在每一个项目空间在创建时,会自动创建admin的角色, 并且为该角色授予了确定的权限。以下权限中不属于admin的有哪些(ABC)。
A:设定项目空间的安全配置
B:修改项目空间的鉴权模型
C:将admin权限指派给其他用户
D:以package方式授权
E:对其他用户或角色进行授权
解析:MaxCompute创建项目成功后,除了项目所有者(Project Owner)外还内置了两个默认的管理角色Super_Administrator和Admin,Admin角色不具有设定项目空间的安全配置的权限,Admin角色不能修改项目空间的鉴权模型,不能Admin权限指派给其他用户。
2.(多选)MaxCompute中支持多种表连接 (join) 的方式,包括哪些(CD)。
A:semi outer join
B:anti outer join
C:full outer join
D:mapjoin
解析:semi outer和anti outer支持left join。full outer join和map join是dataworks支持的join方式 。
3.(多选)Google在大数据发展的过程中做出了非常大的贡献,其中有三篇非常具有影响力的论文,论述了文件系统、非关系型数据库、并行计算框架,分别为(ABC)。
A:GFS
B:BigTable
C:MapReduce
D:HDFS
E:Hbase
F:Spark
解析:google 分别在 2003 年、2004 年以及 2006 年发布了大数据发展影响重大的三篇论文:1、The Google File System,简称 GFS;2、MapReduce;3、Bigtable。分别论述文件系统、非关系型数据库、并行计算框架 。
4.阿里云机器学习PAI支持多种常见的算法,以下属于分类算法的有(AB )。
A:KNN
B:RandomForest
C:K-Means
D:DBSCAN
解析:KNN是近邻分类算法,是通过测量不同特征值之间的距离进行分类的算法;RandomForest算法是随机森林算法,可以用作分类算法;K-Means算法是k均值聚类算法,用作聚类分析算法;DBSCAN算法是密度聚类算法,用作聚类分析。
5.采用分布式的方式存储数据时,要考虑数据复制时一致性的问题,关于一致性如何保证可以采取多种基本原则和设计理念,不包括哪项。(A)
A:LRU
B:CAP
C:ACID
D:BASE
解析:数据复制与一致性基本原则和设计理念包括:CAP、ACID、BASE等,不包括LRU。
6.大数据计算服务MaxCompute是阿里巴巴自主研发的海量数据处理平台,主要服务于批量结构化数据的存储和计算。以下不适合使用大数据计算服务实现的场景是?(A)
A:订单办理
B:数据仓库
C:社交网络分析
D:用户画像
解析:MaxCompute是阿里云大数据离线计算服务组件,适合批量数据开发调度,订单办理属于实时业务,不适合有maxcompute完成。同时maxcompute适用于日志分析,用户画像,数据化运营,数据仓库和BI分析、网站的日志分析、电子商务网站的交易分析、用户特征和兴趣挖掘
7.使用odpscmd连接到MaxCompute中的某个project后,执行什么命令可以查看表table_b占用空间的大小。(A)
A:desc table_b;
B:size table_b;
C:select size from table_b;
D:show table table_b;
解析:desc是查看表或者视图信息
8.MaxCompute项目空间A设置了项目空间保护: set ProjectProtection=true;并且将项目空间B设置为可信空间: add trustedproject B;无其他任何设置。以下说法中正确的是哪项?(A)
A:项目空间A中的数据可以流至项目空间B
B:项目空间B中的数据可以流至项目空间A
C:项目空间A和项目空间B中的数据可双向流动
D:项目空间B中的数据只可以流至项目空间A
解析:如果当前项目空间处于受保护状态,如果将数据流出的目标空间设置为当前空间的TrustedProject,那么目标项目空间的数据流向将不会被视为触犯ProjectProtection规则。如果多个项目空间之间两两互相设置为TrustedProject,那么这些项目空间就形成了一个TrustedProject Group,数据可以在这个Project Group内流动,但禁止流出到Project Group之外。
9.MaxCompute SQL采用的是类似于SQL的语法,适用于海量数据,实时性要求不高的场合。关于MaxCompute SQL,以下说法正确的包括哪些选项?(BCD)
A:MaxCompute可以等价成一个数据库,可以完成事务及回滚的功能
B:MaxCompute的每个作业准备以及提交都需要花费较长时间,因此不适用对于要求响应时间较短的准实时查询
C:MaxCompute SQL支持多种操作,如含join, where, order by, group by等
D:MaxCompute SQL包括的数据类型有BigInt, Float, Double, String, Date Time, Boolean
解析:MaxCompute并不具备数据库的常见特性,如事务、回滚等。
10.MaxCompute可通过ACL授权来协调多用户操作同一个项目,下列选项中,可以进行ACL授权的对象包括哪些?(ABC)
A:Project
B:Table
C:Resource
D:Procedure
解析:ACL授权对象包括:project table function resource instance
11.(多选题)MaxCompute可以通过ACL授权来协调多用户操作同一个项目,进行授权时需要包括以下 (ABC) 因素。
A:主体
B:客体
C:操作
D:原则
E:限制条件
解析:ACL授权一般涉及到三个要素,即主体(Subject,可以是用户也可以是角色)、客体(Object)和操作(Action)。
12.(多选题)MaxCompute是用于数据分析场景的企业级SaaS模式的云数据仓库,以下选项中哪些连接工具能连接MaxCompute? (ABD)
A:MaxCompute控制台的查询编辑器
B:使用客户端(Odpscmd)连接
C:Dbeaver
D:MaxCompute Studio
解析:https://help.aliyun.com/document_detail/252783.html 查询编辑器(MaxCompute控制台)、使用客户端(odpscmd)连接、DataWorks、MaxCompute Studio
13.Apache Spark核心组件包含:Spark Streaming、Spark SQL、Spark Core、GraphX、MLlib,下列哪个选项是对MLib组件的描述?(D)
A:提供流计算组件
B:是一个用来处理结构化数据的Spark组件
C:基于内存多语言执行的核心引擎
D:Spark机器学习库
解析:Spark的MLlib提供了较丰富的机器学习库,包括分类、回归、协同过滤、聚合,同时提供了模型选择、自动调参和交叉验证等工具来提高生产力。MLlib主要支持非深度学习的算法模块 https://help.aliyun.com/document_detail/441938.html
14.在MapReduce处理过程中,每次计算都要从磁盘读取数据完成计算后又写入磁盘。这体现了MapReduce的哪个缺点?(B)
A:不擅长实时计算
B:磁盘IO开销大
C:延迟高
D:中间结果多
解析:MapReduce的缺点: 1、无法在毫秒或秒级内返回结果; 2、输入数据集是动态的,不能动态变化; 3、每次作业后输出结果都会写入磁盘、会造成大量磁盘IO,导致性能低下。
15.分类算法是把每一条记录归到对应的类别之中,以下哪个不属于分类算法应用的场景?(D)
A:分析用户是否会购买电脑
B:分析用户是否会点击弹出的广告
C:分析收到的邮件是否为垃圾邮件
D:根据新输入父母的身高来分析其孩子的身高
解析:根据新输入父母的身高来分析其孩子的身高,不属于分类算法
16.下列数据库属于图数据库的是(B)。
A:Redis
B:GraphDB
C:MongoDB
D:Cassandra
解析:图数据库(Graph Database,简称GDB)是一种支持Property Graph图模型、用于处理高度连接数据查询与存储的实时、可靠的在线数据库服务。 https://help.aliyun.com/document_detail/102799.html?spm=a2c4g.194181.0.i4 云数据库MongoDB版、云数据库Redis版、云数据库Cassandra
17.存储数据的结构可以分为:结构化、非结构化、半结构化。下列选项中,属于非结构化数据的是?(D)。
A:JSON文档
B:XML文档
C:日志文件
D:图片
解析:非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片, HTML、各类报表、图像和音频/视频信息等等。
18.在《大数据时代》一书中,维克托·迈尔-舍恩伯格和肯尼斯可耶提出大数据的“4V特征。“4V特征包含(ACDE)。
A:Volume规模性
B:Vitality动态性
C:Velocity高速性
D:Variety多样性
E:Value价值性
解析:大数据的特征,由维克托迈尔-舍恩伯格和肯尼斯克耶编写的《大数据时代》中提出,大数据的4V特征:规模性(Volume)、高速性(Velocity)、多样性(Variety)、价值性(Value)。
19.随着大数据时代的发展,Hadoop生态圈组件越来越丰富。关于Hadoop组件HDFS是(C)。
A:工作流引擎
B:资源管理系统
C:分布式文件系统
D:列式数据库
解析:Hadoop分布式文件系统(Hadoop Distributed File System)
20.随着大数据时代的发展,Hadoop生态圈组件越来这丰富。关于Hadoop生态圈组件Ambari是(D)。
A:日志收集
B:数据挖掘库
C:分布式文件系统
D:安装、部署、配置、管理工具
解析:Ambari(安装、部署、配置和管理工具)
21.Hadoop的主要功能中,能完成对海量数据分布式运算的是哪个组件?(D)
A:HDFS
B:DFS
C:RDD
D:MapReduce
解析:MAPREDUCE(分布式运算编程框架)
22.以下选项中不属于MaxCompute特点的是(D)
A:支持多种多种经典的分布式计算模型
B:海量数据存储与计算
C:保障数据安全、降低企业成本
D:处理离线数据不能处理实时数据
解析:MaxCompute向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决用户海量数据计算问题,有效降低企业成本,并保障数据安全。 https://help.aliyun.com/document_detail/27800.html
23.智能分析套件Quick Bl是一个专为云上用户是身打造的新—代智能BI服务平台。以下选项属于Quick Bl数据可视化分析平台的优势的是?(ABC)
A:强大的Quick数据引擎
B:快速搭建数据门户
C:智能数据分析和交互
D:安全管控不能设置权限
解析:安全管控设置权限
24.系统日志数据一般是由业务系统在运行过程中产生的,用于记录对数据源的操作,这些操作的记录以(B)的形式进行存储?
A:数据库
B:文本
C:视频
D:弹幕信息
解析:日志数据一般以文本方式存储,以.log结尾的文本文件
25.关系型数据库中,表中的数据是以行和列的形式来存储的,以下选项中关于行与列的特点描述正确的是?(A)
A:同一列数据项具有相同数据类型
B:每一行的列是不固定的
C:行数据的顺序不能任意
D:可以有同名的字段名
解析:
任何一列遵循范式,数据项不可再分,同一列数据具有相同的数据类型。 每列字段的数据格式是固定的
26.随着大数据时代的发展,Hadoop生态圈组件越来越丰富。关于Hadoop生态圈组件Flume是(A)的框架。
A:日志收集
B:数据挖掘库
C:分布式文件系统
D:ETL工具
解析:日志收集工具
27.Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。它包含哪些核心模块? (BCE)
A:Hadoop common公共包
B:Hadoop分布式文件系统(HDFS)
C:Hadoop YARN
D:Hadoop的分布式消息统
E:Hadoop MapReduce
解析:Hadoop的核心组件为:HDFS、MapReduce和Yarn。
28.在Spark Streaming工作机制中,集群管理器是哪个组件?(D)
A:Receiver
B:Executor
C:SparkContext
D:Cluster Manager
解析:集群管理器(cluster manager) 包括Hadoop YARN,Apache Mesos,以及Spark自带的一个简易调度器,叫做独立调度器。
29.随着大数据时代的发展,Hadoop生态圈组件越来越丰富。关于Hadoop生态圈组件MapReduce,描述正确的是(C)
A:工作流引擎
B:数据仓库
C:分布式计算框架
D:列式数据库
解析:分布式计算框架:MapReduce
30.数据总线DataHub服务基于阿里云自研的飞天平台,具有高稳定,低成本,(B),高吞吐的特点。
A:高精度
B:高可扩展
C:高集成性
D:高契合
解析:数据总线DataHub服务基于阿里云自研的飞天平台,具有高可用,低延迟,高可扩展,高吞吐的特点。 https://help.aliyun.com/document_detail/47439.html
31.Hadoop底层会维护多个数据副本,当某个节点出现故障后,也不会造成损失。上述文字体现了Hadoop的哪个特点?(C)
A:高效率
B:低成本
C:高可靠
D:高扩展
解析:“当某个节点出现故障后,也不会造成损失”体现了高可靠的特点
32.HBase的服务体系与Hoodoop类似也遵从的是主从结构,以下选项中那个是HBase的主节点(B)
A:HRegionServer
B:HMaster
C:Hregion
D:MemStore
解析:主节点Hmaster
33.大数据的特征,由维克托迈尔-舍恩伯格和肯尼斯克耶编写的《大数据时代》中提出,下哪一个描述大数据的4V特征是错误的?"(C)
A:Volume规模性
B:Velocity数据变化快
C:Value单位数据价值密度高
D:Variety数据类型多
解析:大数据的4v特征主要包含规模性(Volume)、多样性(Variety)、高速性(Velocity)、价值性(Value) Value(价值密度低)
34.在NoSQL类型的数据库中,最适合用于批量处理和即时查询的是什么数据库?(D)
A:关系型数据库
B:文档型数据库
C:图形型数据库
D:列族数据库
解析:列存储:主要适合与批量数据处理和即时查询
35.数据清洗是指检测和纠正错误数据,它清洗的内容包含(ABC)
A:缺失值处理
B:异常值处理
C:数据类型转换
D:精确度检验
解析:数据清洗的内容包括:缺失值处理、数据类型转换、异常值处理以及数据排序
36.智能健康手环数据收集,体现了(D)的数据采集技术的应用。
A:USB数据传输
B:网络数据
C:API接口
D:传感器设备
解析:“智能健康手环”体现了传感器设备的应用
37.Hive的SQL执行流程中Physical Plan Generator的作用是什么?(C)
A:生成查询语句
B:编译SQL语句
C:将逻辑查询计划转化为物理计划
D:分析查询条件
解析:将逻辑查询计划转成物理计划(physical plan generator)
38.在MaxCompute架构中,关于计算引擎说法正确的是(A)
A:MaxCompute能处理离线数据与实时数据是一个流批一体的计算框架
B:MaxCompute计算引擎是依赖Hadoop平台
C:MaxCompute不支持Spark
D:MaxCompute SQL支持事务、索引
解析:链接:https://help.aliyun.com/document_detail/27800.html、https://help.aliyun.com/document_detail/102357.html 计算引擎 MaxCompute本身具备计算引擎能力。 MaxCompute支持社区原生Spark、完全兼容Spark的API,同时支持多个Spark版本同时运行。 MaxCompute SQL不支持事务、索引。
39.商业上要求个性化推荐算法达到实时推荐的效果,如:某网站刚刚发布的新闻或视频,用户可以在几分钟甚至更短的时间内搜索到。体现了大数据的(C)特征。
A:Volume规模性
B:Veracity准确性
C:Velocity高速性
D:Varlety多样性
E:Value价值性
解析:“用户可以在很短时间内搜索到”体现了高速性
40.传感器数据源有哪些应用场景? (AC)
A:手机支付宝运动监测运动步数
B:优酷网播放的视频
C:智能穿戴记录睡眠情况
D:ERP系统的存储数据
解析:传感器数据源以OpenTelemetry为核心,支持各类数据形态、设备/端、数据格式的采集,覆盖面足够“广”。
41.Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。体现了Hadoop的(C)特点
A:高可用
B:高扩展
C:高效率
D:高容错
E:低成本
解析:高效性,Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。
42.NOSQL指的是非关系型的数据库,以下选项中属于NOSQL数据库分类的有(D)
A:关系对象型
B:层次数据库
C:网状数据库
D:列族数据库
解析:一般将NoSQL数据库分为四大类:键值(Key-Value)存储数据库、列存储数据库、文档型数据库和图形(Graph)数据库。
43.某超市分析销售数据时,发现一个奇怪的规律,尿布与啤酒两件毫无联系的商品却经常出现在同一个购物篮,后来经过调查,发现年轻的父亲在购买尿布的时候,顺便为自己买一瓶啤酒。这体现了哪种数据挖掘算法?(C)
A:回归分析
B:聚类
C:关联规则
D:分类
解析:关联规则挖掘: 一种发现大量数据中事物(特征)之间有趣的关联的技术。 典型应用是购物篮分析:找出顾客购买行为模式、发现交易数据库中不同商品(项)之间的联系
44.使用阿里云DataWorks产品进行数据开发,以下说法正确的是(ABC)。
A:提供SQL格式化
B:智能补齐
C:关键字高亮
D:不提供错误提示
解析:DataWorks的数据开发提供SQL格式化、智能补齐、关键字高亮、错误提示、SQL内部结构等人性化功能。
45.案例:政务数据中台汇聚了自然人、法人组织、城市资产、城市感知、行为事件、地理空间、宏观经济、自然资源、公共服务、电子证照十大主题政务数据,开展模型治理和数据清洗加工,事前以标准事项库为最佳实践优化地方事项库,事中提供统一的标准数据服务,事后对办件库分析得出优化点反过来丰富标准事项库,形成事前事中事后的闭环。政务数据中台基于政务行业数据模型及智能算法,助力各地政府快速构建数据智能应用,提升各地区各部门网上政务服务水平。该案例体现了大数据在(D)领域的应用。
A:电商
B:人工智能
C:金融风险管控
D:政府决策
解析:“提升各地区各部门网上政务服务水平”体现了大数据在政府决策领域的应用
46.传统的文件系统存储文件的方式已无法满足大数据时代海量数据的存储需求,分布式文件系统的出现可以让海量数据的存储更为高效、安全,以下选项中关于分布式文件系统描述正确的是?(A)
A:把文件分布存储到多个计算机节点上,成干上万的计算机节点构成计算机存储集群
B:把文件存储在一台电脑的不同硬盘里面,实现多副本备份
C:一种高吞吐的分布式发布订阅系统
D:分布式文件系统可以把文件存储到一台计算机上
解析:Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统 Kafka是一种高吞吐量的分布式发布订阅消息系统 分布式文件系统把文件分布存储到多个计算机节点上,成千上万的计算机节点构成集群
47.伴随互联网技术的发展,数据呈现出爆炸性增长。数据的存储单位从过去的GB到TB,甚至达到PB.EB。体现出大数据的(A)特征。
A:Volume规模性
B:Veracity准确性
C:Velocity高速性
D:Variety多样性
E:Value价值性
解析:数据的存储单位变化,体现了规模性的特征
48.物联网可以利用射频识别、二维码、智能传感器等感知设备感知获取物体的各类信息。体现了物联网的(A)特点
A:整体感知
B:智能处理
C:可靠传输
D:挖掘分析
解析:整体感知—可以利用射频识别、二维码、智能传感器等感知设备感知获取物体的各类信息。
49.HDFS是开源分布式文件系统,用于(A)。是整个Hadoop生态中的重要组件之一。
A:文件的存储与管理
B:完成计算功能
C:资源调度
D:实时数据处理
解析:HDFS是Hadoop分布式文件系统,它是Hadoop生态系统中的核心项目之一,是分布式计算中数据存储管理基础
50.Quick BI可以提供海量数据实时在线分析服务,支持(A)和丰富的可视化效果,帮助用户轻松自如地完成数据分析、业务数据探查、报表制作等工作。
A:拖拽式操作
B:点击式操作
C:后台调用操作
D:语音式操作
解析:Quick BI可以提供海量数据实时在线分析服务,支持拖拽式操作和丰富的可视化效果,帮助您轻松自如地完成数据分析、业务数据探查、报表制作等工作。 https://www.alibabacloud.com/help/zh/quick-bi/latest/what-is-quick-bi
51.数据采集的目的需要明确,带着问题去搜集信息,使得信息采集更(A)、更有针对性。
A:高效
B:简单
C:复杂
D:一致
解析:明确采集目的,带着问题搜集信息,使信息采集更高效、更有针对性