搜集了一些简单的题目来测试Hadoop和Hive的基础知识掌握程度。用于复习或者自测都很合适。
-
1EB等于多少TB?
A. 2 10 2^{10} 210 B. 2 20 2^{20} 220 C. 2 30 2^{30} 230
答案:B -
HTML文档属于哪种类型的数据?
A. 结构化数据
B. 非结构化数据
C. 半结构化数据
答案:C -
大数据的“4V”特征中的Velocity指的是?
A. 数据量巨大
B. 数据价值密度低
C. 数据来源及结构多样
D. 数据呈指数倍增长,且时效性要求高
答案:D -
大数据的起始单位是?
A. TB B. PB C. EB D. ZB
答案:B -
2011年,()发布《大数据:创新、竞争和生产力的下一个新领域》报告,大数据开始备受关注。
A. 麦肯锡公司
B. 百度公司
C. 微软公司
D. 阿里巴巴公司
答案:A -
随着城市化进程的加深,大数据给我们带来了巨大挑战,可以通过(),实现城市的可持续发展?
A. 智能社会
B. 智慧城市
C. 加强法治
D. 优化管理
答案:B -
大数据强调()的观念,而非小数据的随机抽样。
A. 个别信息
B. 关键信息
C. 大量数据
D. 全体数据
答案:D -
磁盘驱动器属于哪种存储()?
A. 直连式存储
B. 网络附加式存储
C. 存储区域网络
D. 虚拟存储
答案:A -
存储区域网络的简写是?
A. DAS B. NAS C. LAN D. SAN
答案:D -
跨平台性能较好的是?
A. SAN B. NAS
答案:A -
虚拟内存是指?
A. 一种对内存的覆盖技术
B. 进程访问的地址空间
C. 将内存的容量扩大
D. 内存的动态存储区
答案:B -
下列选项中哪一门技术属于大数据平台技术?
A. Tomcat
B. Hadoop
C. ASP.NET
D. Apache
答案:B -
大数据平台的三个重要的技术部分是?
A. 数据交易技术
B. 数据交互技术
C. 数据处理技术
D. 数据存取技术
答案:ABC -
以下哪些工具属于Hadoop生态系统的开源工具?
A. Hive B. HBase C. Oracle D.Zookerper
答案:ABD -
Hadoop存储系统HDFS的体系结构的设计目标包含?
A. 自动检测处理硬件错误
B. 流式访问数据
C. 转移计算,不移动数据位置
D. 简单数据一致性模型
答案:ABCD -
关于HDFS的适用性和局限性,以下说法正确的是?
A. 适合数据批量读写、吞吐量高
B. 不适合交互式应用,低延迟很难满足
C. 适合一次写入多次读取,顺序读写
D. 不支持用户并发写相同文件
答案:ABCD -
HDFS系统采用NameNode定期向DataNode发送心跳消息,用于检测系统是否正常运行
A. 正确 B. 错误
答案:B -
在Hadoop中,每个应用程序被表示成一个作业,将作业的名称设置为test,用JAVA代码编写,该如何写?
答案:Job.SetJobName(‘test’) -
查看HDFS系统版本的Shell命令,以下正确的是?
A. hadoop -ver
B. dfsadmin version
C. hdfs -ver
D. hdfs version
答案:D -
Map的主要工作是将多个任务的计算结果进行汇总
A. 正确 B. 错误
答案:B -
在Hadoop中每个应用程序被表示成一个()
答案:作业 -
对Hadoop中的JobTracker工作角色,下列说明正确的是?
A. 作业调度
B. 分配任务
C. 监控CPU运行效率
D. 监控任务执行进度
答案:ABD -
在Hadoop中,JobTracker与TaskTracker直接通过()协议进行通信。
答案:RPC -
关于MapReduce容错机制,下面说法正确的是?
A. JobTracker 可以有多个,因此不存在单点故障
B. TaskTracker通过周期性心跳向JobTracker表明自己还活着
C. Map Task失败后,能够被重新调度到其他节点上执行
D. Reduce Task失败后,额能够被调度到其他节点上执行
答案:BCD -
对MapReduce的体系结构,以下说法正确的是?
A. 分布式编程架构
B. 以数据为中心,更看重吞吐率
C. 分而治之的思想
D. 将一个任务分解为多个子任务
答案:ABCD -
关于MapReduce优点,下面说法不正确的是?
A. 高容错
B. 适合PB量级以上海量数据处理
C. 良好的拓展性
D. 适合实时计算
答案:ABC -
MapReduce设计的一个理念是数据向计算靠拢。
A. 正确 B. 错误
答案:B -
MapRedce的Shuffle过程中,哪个操作是后做的?
A. 分区 B. 排序 C. 合并 D. 溢写
答案:C -
MapReduce计算过程中,相同的key默认情况下会被发送到同一个Reduce task进行处理。
A. 正确 B. 错误
答案:A -
MapReduce过程中,默认情况下,一个分片就是一个数据块,也就是一个map task。
A. 正确 B. 错误
答案:A -
关于MapReduce Shuffle过程合并Combine操作,两个键值<‘a’, 1>和<‘a’, 1>经过合并操作,结果为?
A. <‘a’, 2>
B. <‘a’, <1, 1>>
C. <‘a, a’, 2>
D. <‘a, a’, <1, 1>>
答案:A -
大数据技术方案为了简化并行分布式计算,采用()软件模块进行处理?
A. JAVA
B. Map
C. Reduce
D. SQL
答案:BC -
Hadoop生态系统的优势包含?
A. 高扩展
B. 低成本
C. 开源工具成熟
D. 大型关系数据库系统
答案:ABCD -
Hadoop存储系统HDFS的文件是分块存储,每个文件快默认大小为?
A. 32MB B. 64MB C. 128MB D. 256MB
答案:C -
HDFS中的NameNode节点用于存放元数据,数据内容包含?
A. 文件与数据块的映射表
B. 每个数据块的内容
C. 数据块与数据节点的映射表
D. 客户端硬件配置数据
答案:AC -
HDFS系统为了容错保证数据块完整性,每一块数据都默认采用了几个副本?
A. 2 B. 3 C. 4 D. 6
答案:B -
对HDFS内的文件进行操作,以下说法正确的是?
A. HDFS提供了Shell的操作接口
B. 不允许对文件进行列表查看
C. 文件操作命令与Linux相似
D. 采用Windows系统对文件进行操作
答案:AC -
查看HDFS系统运行状态的Shell命令是?
A. hdfs -report
B. dfsadmin -report
C. hadoop -report
D. hdfs dfsadmin -report
答案:D -
MapReduce为了保证任务的正常执行,采用()多种容错机制。
A. 重复执行
B. 重新开始整个任务
C. 推测执行
D. 直接丢弃执行效率低的作业
答案:AC -
下面哪一个编程模型将大规模的数据处理工作拆分成互相独立的任务,然后并行处理?
A. HDFS B.Hive C.MapReduce D.Hbase
答案:C -
下列关于MapReduce说法不正确的是?
A. MapReduce是一种计算框架
B. MapReduce程序只能用java语言编写
C. MapReduce来源于Google的学术论文
D. MapReduce隐藏了并行计算的细节,方便用户使用。
答案:B -
Hive是建立在()之上的一个数据仓库。
A. MySQL B. MapReduce C. Hadoop D. HBase
答案:C -
对于最小粒度的任务,Hive查询的反应时间约为?
A. 微秒级 B. 毫秒级 C. 小时级 D. 秒级或者分钟级
答案:B -
关于Hive的描述正确的是?
A. Hive依赖Hadoop
B. Hive可以用来建立数据仓库
C. Hive低延迟进行查询
D. Hive可以使用类SQL语句进行查询
答案:ABD -
Hive提供了哪些访问接口来进行查询?
A. java api
B. 命令行
C. web界面
D. JDBC/ODBC
答案:ABCD -
关于Hive嵌入模式说法正确的有?
A. 元数据存储在Derby中
B. 只允许创建一个连接
C. 一般用于测试使用
D. 一般用于生产环境
答案:ABC -
外部表和内部表的差别,是创建表格时添加External关键字就可以了.
A. 正确 B. 错误
答案:B -
在Hive中,执行分桶操作,具体哪个值分到哪个桶中,可以对数据进行HASH运算取得.
A. 正确 B. 错误
答案:A -
Hive可处理大连各数据,它最重视的性能是可测量性,延展性,对于输入格式的宽松匹配性和?
A. 较低恢复性
B. 容错性
C. 快速查询
D. 低延迟
答案:B -
Hive自定义的一些配置一般存储在(install-dir)/conf/_?
A. hive-core.xml
B. hive-default.xml
C. hive-site.xml
D. hive-lib.xml
答案:C -
数据仓库的基本特点有哪些?
A. 数据仓库是面向主题
B. 数据仓库是集成的
C. 数据仓库是不可更新的
D. 数据仓库是随时间变化的
答案:ABCD -
对数据仓库的操作,一般包括哪些方面?
A. 数据抽取
B. 数据爬取
C. 数据转换
D. 数据装载
答案:ACD -
Hive的元数据能够存储在哪些位置?
A. MySQL
B. Derby
C. Oracle
D. 文本文件
答案:ABC -
Hive中HQL语句执行,会经历哪些过程?
A. 解释器
B. 编译器
C. 优化器
D. 执行器
答案:ABCD -
关于Hive本地模式正确的是?
A. 元数据存储在MySql中
B. 数据库和Hive在同一台物理机上
C. 多用于开发或测试
D. 可多人访问Hive
答案:ABCD -
如何启动Hive命令行模式?
A. $Hive_HOME/bin/hive
B. 配置Hive环境变量,直接使用Hive启动
C. hive --service cli
D. hive service cli
答案:ABC -
Hive查询语句和MySQL查询语句,在操作和功能上,类似的有哪些?
A. Group By
B. Join
C. Partition
D. Union
答案:D -
按粒度大小的顺序,Hive数据被组成为:数据库,表格,,和桶?
A. 元组
B. 栏
C. 分区
D. 行
答案:C -
开发Hive远程服务程序,需要添加哪些依赖包?
A. Hadoop lib
B. Hive lib
C. JDBC连接包mysql-connector-jva-5.1.26.jar
D. webservice相关lib包
答案:ABC -
Hive数据类型中date类型是与时区无关的类型。
A. 正确 B. 错误
答案:B -
Hive数据类型中Timestamp类型是与时区无关的类型。
A. 正确 B. 错误
答案:A -
删除外部表,只会删除外部表的元数据信息,并不会将外部表的数据删除。
A. 正确 B. 错误
答案:A