(1)本周做了什么,花在学习上多长时间,花在代码上多长时间,花在解决问题用了多长时间
本周看完了黑马程序员关于Hadoop的剩下的所有视频,并跟着做了对于陌陌聊天消息的数据分析。
科二考试没约上,15个报科二的就我没约上。。。。。
每天会使用三个小时的时间来学习,大部分时间都花在了敲代码上。
Hive是一种基于Hadoop的数据仓库和分析工具,它提供了一个类似于SQL的查询语言,允许用户使用结构化查询语言(SQL)来查询和分析存储在Hadoop分布式文件系统(HDFS)中的大规模数据。Hive的目标是让非技术用户也能够轻松地进行数据分析,无需编写复杂的MapReduce代码。
以下是Hive的一些关键特点和组成部分:
-
SQL-Like 查询语言: Hive使用类似于SQL的查询语言(称为HiveQL或HQL),使用户能够使用熟悉的SQL语法来查询和处理数据。
-
数据存储和管理: Hive能够将结构化的数据映射到Hadoop的分布式文件系统(HDFS)中,以便在集群上进行高可扩展的存储和管理。
-
元数据存储: Hive维护了一个元数据存储,用于描述存储在HDFS中的数据的结构和模式。这些元数据信息帮助Hive优化查询性能,并支持表的分区、分桶等概念。
-
MapReduce执行引擎: 在Hive的早期版本中,查询通常会被转换为基于MapReduce的任务来执行。这意味着Hive将用户提交的查询转换为一系列Map和Reduce任务来处理数据。然而,随着时间的推移,Hive也引入了更多的执行引擎选项,如Tez和Spark,以加速查询执行。
-
数据转换和ETL: Hive支持数据的转换、清洗和提取,使用户能够执行ETL(抽取、转换、加载)操作,将原始数据转换为有用的信息。
-
用户自定义函数(UDF): Hive允许用户编写自定义函数,以便在查询过程中进行自定义数据处理和计算。
-
表分区和桶ing: Hive允许用户将表数据分割成多个分区,以便更有效地进行查询和管理。此外,数据还可以根据特定列的值进行分桶,以提高查询性能。
-
扩展性和容错性: Hive建立在Hadoop生态系统之上,可以在大规模集群上运行,并具有良好的容错性和可扩展性。
需要注意的是,尽管Hive的查询语言类似于传统的SQL,但由于Hive查询会转换为底层的MapReduce、Tez或Spark任务,因此它的实时查询性能可能不如传统关系型数据库。Hive更适用于批处理和大规模数据分析,适合处理大量的非结构化或半结构化数据。随着Hadoop生态系统的发展,Hive也在不断演进,支持更多的执行引擎和优化策略,以提高查询性能和用户体验。
(2)下周准备做什么
下周我计划学习一下springboot
(3)本周遇到的问题
没啥大问题,都是小case
标签:用户,报告,假期,Hadoop,Hive,查询,进度,SQL,数据 From: https://www.cnblogs.com/wzs-study/p/17625591.html