Hive简介

Hive 是一种大数据处理工具，使用类SQL 的HiveQL 语言实现数据查询，它底层封装了Hadoop ，所有Hive 的数据都存储在Hadoop 兼容的HDFS中。
更官方的描述：
Hive是基于Hadoop的一个数据仓库工具，用来进行数据提取、转化、加载，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Hive提供SQL查询功能，能将SQL语句转变成MapReduce任务来执行。Hive的优点是学习成本低，可以通过类似SQL语句实现快速MapReduce统计，使MapReduce变得更加简单，而不必开发专门的MapReduce应用程序。
简单点说：
Hive就是一个大数据处理工具，它可以把开发者编写的SQL转换为MapReduce或Spark任务（对HDFS或HBase上的数据进行处理），这样开发者可以用更简单的方法（编写SQL语句）开发大数据程序。

Hive的优点

Hive缺点

Hive数据存储模型

数据库：创建表时如果不指定数据库，则默认为default数据库。
表：物理概念，实际对应HDFS上的一个目录。
分区：对应所在表所在目录下的一个子目录。
桶：对应表或分区所在路径的一个文件

Hive支持的函数

数学函数，如round(),floor(),abs(),rand()等。
日期函数，如to_date(),month(),day()等。
字符串函数，如trim(),length(),substr()等

Hive基本操作

创建表

CREATE TABLE IF NOT EXISTS example.employee(
Id INT COMMENT 'employeeid',
Company STRING COMMENT 'your company',
Money FLOAT COMMENT 'work money',)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' STORED AS TEXTFILE;

查询

SELECT id, name FROM employee WHERE salary >= 10000;
SELECT department, avg(salary) FROM employee GROUP BY department;
SELECT id, salary, date FROM employee_a UNION ALL
SELECT id, salary, date FROM employee_b;

资料：
https://baijiahao.baidu.com/s?id=1661040592082632323&wfr=spider&for=pc
https://zhuanlan.zhihu.com/p/95923527
https://www.cnblogs.com/wenBlog/p/12163444.html

标签：Hadoop,Hive,MapReduce,SQL,employee,SELECT
From： https://www.cnblogs.com/xiaohaigegede/p/17725025.html

Hive学习3（数据库操作DML、join、hive函数）
1.对数据库操作数据定义语言(DataDefinitionLanguage,DDL)，是SQL语言集中对数据库内部的对象结构进行创建，删除，修改等的操作语言，这些数据库对象包括database、table等。DDL核心语法由CREATE、ALTER与DROP三个所组成。DDL并不涉及表内部数据的操作。1.1创建数据库created......
HIVE数据分析-处理结果入库
1、navicat远程连接Hive数据库1、打开navicat里的mysql连接2、使用SSH隧道出现上面这个显示连接就是成功3、设置常规连接显示成功后点击确定，navicat远程连接Hive数据库成功问题4、处理结果入库：将上述统计分析的结果数据保存到mySQL数据库中。1、通过Navicat创建表......
Hive学习2（hive部署启动，DataGrip连接hiveserver2）
1.Hive部署：hive部署：09-Apachehive安装部署--与Hadoop整合、MySQL安装_哔哩哔哩_bilibili 10-Apachehive安装部署--配置文件修改编辑_哔哩哔哩_bilibili2.Hive启动hadoop启动后。node1上：nohup/export/server/apache-hive-3.1.2-bin/bin/hive--servicemetastore&noh......
HIVE数据分析-数据清洗
题目：2、数据清洗：要求将day_id一列中的数值清洗为真实的日期格式，可用字符串表示。数据1对应日期2023-09-01，依次类推，15对应日期2023-09-15二、数据清洗（2）创建表格存放清洗后的数据：createtablesales_y(day_idstring,sale_nbrstring,buy_nbrstring,cntstring,roundstring)......
navicat链接虚拟机上hive环境下的MySQL
一：启动虚拟机二，finallshell上进入hive，（具体进入参照上一个博客）三，进入成功后，打开Navicat 点击左上角链接选择MySQL按照上面的步骤：1.起一个名字，能分辨就行2.这里非常重要，必须要填IP地址，IP地址不知道的同学打开虚拟机中hive的服务端（就是你finallshell上运行hive的那个主机），在......
Hive学习1（数据仓库及Hive基础学习）
1.数据仓库1.1什么是数据仓库数据仓库（英语：DataWarehouse，简称数仓、DW）,是一个用于存储、分析、报告的数据系统。数据仓库本身并不“生产”任何数据，其数据来源于不同外部系统；同时数据仓库自身也不“消费”任何的数据，其结果开放给各个外部应用使用；数据仓库是为了分析数据的。......
datagrip链接hive
首先在官网下载datagrip直接点击安装选择30天免费试用直接进项下一步，进去之后，新建project 起个名字完成即可：右上角或左边有一个database点击】点击加号选择Apachehive ......
HIVe的启动以及datagrip配置
之前已经被治好所需要的HIVe环境,治理需要启动他，才可以进行下面的链接datagrip操作首先进到finallshell里面然后启动zookeeper然后再启动hadoop：start-all.sh启动完成之后看上一个博客先关闭防火墙；根据黑马教程中提到的有两种方式启动HIVe:一，先启动metastore，然后在启动hive二......
HIVE数据分析-导入数据库
首先，启动hadoop以及hive出现以上进程，显示成功将改名后的文件上传到虚拟机在hive里面的defaul数据库创建表格usedefault;showtables;loaddatalocalinpath'/export/server/apache-hive-3.1.2-bin'intotablesales;将表格数据导入到表格中createtablesales(d......
将hive数据库中的数据导入到mysql数据库中时需要注意到的问题
在hive中使用jdbc将hive与mysql连接起来时一定要注意到每个数据库不同的字段个数，在打算直接复制时，不能只是修改表的名称和字段名称，还要记得修改几个？那里，个数要与字段名称保持一致！！！不然就会报错（比如我）；......

Hive