首页 > 其他分享 >数据分析与处理技术-题目测试

数据分析与处理技术-题目测试

时间:2024-06-18 20:57:08浏览次数:23  
标签:数据分析 题目 测试 MapReduce Hive Hadoop 答案 数据 正确

搜集了一些简单的题目来测试Hadoop和Hive的基础知识掌握程度。用于复习或者自测都很合适。

  1. 1EB等于多少TB?
    A. 2 10 2^{10} 210   B. 2 20 2^{20} 220   C. 2 30 2^{30} 230
    答案:B

  2. HTML文档属于哪种类型的数据?
    A. 结构化数据
    B. 非结构化数据
    C. 半结构化数据
    答案:C

  3. 大数据的“4V”特征中的Velocity指的是?
    A. 数据量巨大
    B. 数据价值密度低
    C. 数据来源及结构多样
    D. 数据呈指数倍增长,且时效性要求高
    答案:D

  4. 大数据的起始单位是?
    A. TB   B. PB   C. EB   D. ZB
    答案:B

  5. 2011年,()发布《大数据:创新、竞争和生产力的下一个新领域》报告,大数据开始备受关注。
    A. 麦肯锡公司
    B. 百度公司
    C. 微软公司
    D. 阿里巴巴公司
    答案:A

  6. 随着城市化进程的加深,大数据给我们带来了巨大挑战,可以通过(),实现城市的可持续发展?
    A. 智能社会
    B. 智慧城市
    C. 加强法治
    D. 优化管理
    答案:B

  7. 大数据强调()的观念,而非小数据的随机抽样。
    A. 个别信息
    B. 关键信息
    C. 大量数据
    D. 全体数据
    答案:D

  8. 磁盘驱动器属于哪种存储()?
    A. 直连式存储
    B. 网络附加式存储
    C. 存储区域网络
    D. 虚拟存储
    答案:A

  9. 存储区域网络的简写是?
    A. DAS   B. NAS   C. LAN   D. SAN
    答案:D

  10. 跨平台性能较好的是?
    A. SAN   B. NAS
    答案:A

  11. 虚拟内存是指?
    A. 一种对内存的覆盖技术
    B. 进程访问的地址空间
    C. 将内存的容量扩大
    D. 内存的动态存储区
    答案:B

  12. 下列选项中哪一门技术属于大数据平台技术?
    A. Tomcat
    B. Hadoop
    C. ASP.NET
    D. Apache
    答案:B

  13. 大数据平台的三个重要的技术部分是?
    A. 数据交易技术
    B. 数据交互技术
    C. 数据处理技术
    D. 数据存取技术
    答案:ABC

  14. 以下哪些工具属于Hadoop生态系统的开源工具?
    A. Hive   B. HBase   C. Oracle   D.Zookerper
    答案:ABD

  15. Hadoop存储系统HDFS的体系结构的设计目标包含?
    A. 自动检测处理硬件错误
    B. 流式访问数据
    C. 转移计算,不移动数据位置
    D. 简单数据一致性模型
    答案:ABCD

  16. 关于HDFS的适用性和局限性,以下说法正确的是?
    A. 适合数据批量读写、吞吐量高
    B. 不适合交互式应用,低延迟很难满足
    C. 适合一次写入多次读取,顺序读写
    D. 不支持用户并发写相同文件
    答案:ABCD

  17. HDFS系统采用NameNode定期向DataNode发送心跳消息,用于检测系统是否正常运行
    A. 正确   B. 错误
    答案:B

  18. 在Hadoop中,每个应用程序被表示成一个作业,将作业的名称设置为test,用JAVA代码编写,该如何写?
    答案:Job.SetJobName(‘test’)

  19. 查看HDFS系统版本的Shell命令,以下正确的是?
    A. hadoop -ver
    B. dfsadmin version
    C. hdfs -ver
    D. hdfs version
    答案:D

  20. Map的主要工作是将多个任务的计算结果进行汇总
    A. 正确   B. 错误
    答案:B

  21. 在Hadoop中每个应用程序被表示成一个()
    答案:作业

  22. 对Hadoop中的JobTracker工作角色,下列说明正确的是?
    A. 作业调度
    B. 分配任务
    C. 监控CPU运行效率
    D. 监控任务执行进度
    答案:ABD

  23. 在Hadoop中,JobTracker与TaskTracker直接通过()协议进行通信。
    答案:RPC

  24. 关于MapReduce容错机制,下面说法正确的是?
    A. JobTracker 可以有多个,因此不存在单点故障
    B. TaskTracker通过周期性心跳向JobTracker表明自己还活着
    C. Map Task失败后,能够被重新调度到其他节点上执行
    D. Reduce Task失败后,额能够被调度到其他节点上执行
    答案:BCD

  25. 对MapReduce的体系结构,以下说法正确的是?
    A. 分布式编程架构
    B. 以数据为中心,更看重吞吐率
    C. 分而治之的思想
    D. 将一个任务分解为多个子任务
    答案:ABCD

  26. 关于MapReduce优点,下面说法不正确的是?
    A. 高容错
    B. 适合PB量级以上海量数据处理
    C. 良好的拓展性
    D. 适合实时计算
    答案:ABC

  27. MapReduce设计的一个理念是数据向计算靠拢。
    A. 正确   B. 错误
    答案:B

  28. MapRedce的Shuffle过程中,哪个操作是后做的?
    A. 分区   B. 排序   C. 合并   D. 溢写
    答案:C

  29. MapReduce计算过程中,相同的key默认情况下会被发送到同一个Reduce task进行处理。
    A. 正确   B. 错误
    答案:A

  30. MapReduce过程中,默认情况下,一个分片就是一个数据块,也就是一个map task。
    A. 正确   B. 错误
    答案:A

  31. 关于MapReduce Shuffle过程合并Combine操作,两个键值<‘a’, 1>和<‘a’, 1>经过合并操作,结果为?
    A. <‘a’, 2>
    B. <‘a’, <1, 1>>
    C. <‘a, a’, 2>
    D. <‘a, a’, <1, 1>>
    答案:A

  32. 大数据技术方案为了简化并行分布式计算,采用()软件模块进行处理?
    A. JAVA
    B. Map
    C. Reduce
    D. SQL
    答案:BC

  33. Hadoop生态系统的优势包含?
    A. 高扩展
    B. 低成本
    C. 开源工具成熟
    D. 大型关系数据库系统
    答案:ABCD

  34. Hadoop存储系统HDFS的文件是分块存储,每个文件快默认大小为?
    A. 32MB   B. 64MB   C. 128MB   D. 256MB
    答案:C

  35. HDFS中的NameNode节点用于存放元数据,数据内容包含?
    A. 文件与数据块的映射表
    B. 每个数据块的内容
    C. 数据块与数据节点的映射表
    D. 客户端硬件配置数据
    答案:AC

  36. HDFS系统为了容错保证数据块完整性,每一块数据都默认采用了几个副本?
    A. 2   B. 3   C. 4   D. 6
    答案:B

  37. 对HDFS内的文件进行操作,以下说法正确的是?
    A. HDFS提供了Shell的操作接口
    B. 不允许对文件进行列表查看
    C. 文件操作命令与Linux相似
    D. 采用Windows系统对文件进行操作
    答案:AC

  38. 查看HDFS系统运行状态的Shell命令是?
    A. hdfs -report
    B. dfsadmin -report
    C. hadoop -report
    D. hdfs dfsadmin -report
    答案:D

  39. MapReduce为了保证任务的正常执行,采用()多种容错机制。
    A. 重复执行
    B. 重新开始整个任务
    C. 推测执行
    D. 直接丢弃执行效率低的作业
    答案:AC

  40. 下面哪一个编程模型将大规模的数据处理工作拆分成互相独立的任务,然后并行处理?
    A. HDFS   B.Hive   C.MapReduce   D.Hbase
    答案:C

  41. 下列关于MapReduce说法不正确的是?
    A. MapReduce是一种计算框架
    B. MapReduce程序只能用java语言编写
    C. MapReduce来源于Google的学术论文
    D. MapReduce隐藏了并行计算的细节,方便用户使用。
    答案:B

  42. Hive是建立在()之上的一个数据仓库。
    A. MySQL   B. MapReduce   C. Hadoop   D. HBase
    答案:C

  43. 对于最小粒度的任务,Hive查询的反应时间约为?
    A. 微秒级   B. 毫秒级   C. 小时级   D. 秒级或者分钟级
    答案:B

  44. 关于Hive的描述正确的是?
    A. Hive依赖Hadoop
    B. Hive可以用来建立数据仓库
    C. Hive低延迟进行查询
    D. Hive可以使用类SQL语句进行查询
    答案:ABD

  45. Hive提供了哪些访问接口来进行查询?
    A. java api
    B. 命令行
    C. web界面
    D. JDBC/ODBC
    答案:ABCD

  46. 关于Hive嵌入模式说法正确的有?
    A. 元数据存储在Derby中
    B. 只允许创建一个连接
    C. 一般用于测试使用
    D. 一般用于生产环境
    答案:ABC

  47. 外部表和内部表的差别,是创建表格时添加External关键字就可以了.
    A. 正确   B. 错误
    答案:B

  48. 在Hive中,执行分桶操作,具体哪个值分到哪个桶中,可以对数据进行HASH运算取得.
    A. 正确   B. 错误
    答案:A

  49. Hive可处理大连各数据,它最重视的性能是可测量性,延展性,对于输入格式的宽松匹配性和?
    A. 较低恢复性
    B. 容错性
    C. 快速查询
    D. 低延迟
    答案:B

  50. Hive自定义的一些配置一般存储在(install-dir)/conf/_?
    A. hive-core.xml
    B. hive-default.xml
    C. hive-site.xml
    D. hive-lib.xml
    答案:C

  51. 数据仓库的基本特点有哪些?
    A. 数据仓库是面向主题
    B. 数据仓库是集成的
    C. 数据仓库是不可更新的
    D. 数据仓库是随时间变化的
    答案:ABCD

  52. 对数据仓库的操作,一般包括哪些方面?
    A. 数据抽取
    B. 数据爬取
    C. 数据转换
    D. 数据装载
    答案:ACD

  53. Hive的元数据能够存储在哪些位置?
    A. MySQL
    B. Derby
    C. Oracle
    D. 文本文件
    答案:ABC

  54. Hive中HQL语句执行,会经历哪些过程?
    A. 解释器
    B. 编译器
    C. 优化器
    D. 执行器
    答案:ABCD

  55. 关于Hive本地模式正确的是?
    A. 元数据存储在MySql中
    B. 数据库和Hive在同一台物理机上
    C. 多用于开发或测试
    D. 可多人访问Hive
    答案:ABCD

  56. 如何启动Hive命令行模式?
    A. $Hive_HOME/bin/hive
    B. 配置Hive环境变量,直接使用Hive启动
    C. hive --service cli
    D. hive service cli
    答案:ABC

  57. Hive查询语句和MySQL查询语句,在操作和功能上,类似的有哪些?
    A. Group By
    B. Join
    C. Partition
    D. Union
    答案:D

  58. 按粒度大小的顺序,Hive数据被组成为:数据库,表格,,和桶?
    A. 元组
    B. 栏
    C. 分区
    D. 行
    答案:C

  59. 开发Hive远程服务程序,需要添加哪些依赖包?
    A. Hadoop lib
    B. Hive lib
    C. JDBC连接包mysql-connector-jva-5.1.26.jar
    D. webservice相关lib包
    答案:ABC

  60. Hive数据类型中date类型是与时区无关的类型。
    A. 正确   B. 错误
    答案:B

  61. Hive数据类型中Timestamp类型是与时区无关的类型。
    A. 正确   B. 错误
    答案:A

  62. 删除外部表,只会删除外部表的元数据信息,并不会将外部表的数据删除。
    A. 正确   B. 错误
    答案:A

标签:数据分析,题目,测试,MapReduce,Hive,Hadoop,答案,数据,正确
From: https://blog.csdn.net/Coder_OreoZ/article/details/139783222

相关文章

  • 【Python数据分析】Pandas_描述性统计
    描述统计学(descriptivestatistics)是一门统计学领域的学科,主要研究如何取得反映客观现象的数据,并以图表形式对所搜集的数据进行处理和显示,最终对数据的规律、特征做出综合性的描述分析。Pandas库正是对描述统计学知识完美应用的体现,可以说如果没有“描述统计学”作为理论基......
  • Rust中 测试用例编写
    //注定会断言失败的代码:断言1和2会不会相等#[cfg(test)]modtests{usesuper::*;#[test]fnone_result(){assert_eq!(1,2);}}注意点 1.编程环境:vscode+rust-analyzer(插件式)2.方法上添加标签(Attribute):#[cfg(test)]3.断言语句:asser......
  • Sora不香了,Runway Gen-3震撼发布!AI电影时代真的要来了!(附与快手可灵对比测试)
    文章首发于公众号:X小鹿AI副业大家好,我是程序员X小鹿,前互联网大厂程序员,自由职业2年+,也一名AIGC爱好者,持续分享更多前沿的「AI工具」和「AI副业玩法」,欢迎一起交流~AI视频太卷了!刚上线的快手可灵(Kling)、LumaAI的DreamMachine的热乎劲还没过,Runway又发布重磅消......
  • 【接口自动化测试】第一节.接口自动化测试基础和框架介绍
    文章目录前言一、接口自动化基础   1.1接口自动化基础介绍   1.2接口自动化测试流程   1.3选取自动化测试用例   1.4搭建自动化测试环境二、接口自动化测试框架   2.1接口自动化框架设计思路   2.2定义项目目录结构总结前......
  • springboot 项目jacoco 覆盖率测试
    1.POM<dependency><groupId>org.jacoco</groupId><artifactId>jacoco-maven-plugin</artifactId><version>0.8.2</version></dependency> <plugin>......
  • 2024.06.18【读书笔记】丨生物信息学与功能基因组学(第十五章 真菌基因组 第一部分)【AI
    读书笔记:《生物信息学与功能基因组学》第十五章-第一部分摘要第十五章聚焦于真核生物中的真菌基因组,探讨了真菌的多样性、与人类和其他生物的密切关系以及它们在生态系统中的重要性。本章首先介绍了真菌的基本概念和分类,随后深入分析了真菌基因组的结构、功能和进化,特别......
  • 如何测试自己适合什么专业?高考志愿填报
    学生和家长们,进行高考估分之后,就应该考虑报考哪些学校哪些专业,以免在成绩出炉之后手慌脚乱。但不是每个人都清楚自己合适哪些专业,需要考虑到的内容实在太多了,此时要怎么做呢,有一些人会考虑选择心理测试来测试自己合适什么专业,如何测试自己合适什么专业?第1步:找到专业靠谱的测......
  • Postman 接口测试工具使用方法
            Postman是一个强大的API测试工具,广泛用于开发和测试API。以下是对Postman的详细介绍,包括其主要功能、使用方法和一些高级功能。一、Postman简介        Postman是一个用于API开发的协作平台,提供了丰富的功能来进行API请求、测试和文档编......
  • 数据分析:微生物组差异丰度方法汇总
    欢迎大家关注全网生信学习者系列:WX公zhong号:生信学习者Xiaohong书:生信学习者知hu:生信学习者CDSN:生信学习者2介绍微生物数据具有一下的特点,这使得在做差异分析的时候需要考虑到更多的问题,SparsityCompositionalOverdispersion现在**Nearing,Douglasetal.Nat......
  • 2024软件测试面试题-自动化
    1.Selenium常用的元素定位方式是什么?Selenium八大定位方式:idnaneclassnametag_namelink_textpartial_link_textxpathcss我们经常用的有idnameclassnamexpath等;我们选择定位方式的原则就是哪种简单你能够准确定位就选择哪一种,xpath这种定位方式比较准确,用的也......