离线数仓之Hive的基础操作

时间：2024-08-08 21:25:49浏览次数：12

标签：数仓启动数据库离线 Hadoop hive Metastore Hive

Hive 简介

hive是基于Hadoop的一个数据仓库工具，用来进行数据提取、转化、加载，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，能将SQL语句转变成MapReduce任务来执行。Hive的优点是学习成本低，可以通过类似SQL语句实现快速MapReduce统计，使MapReduce变得更加简单，而不必开发专门的MapReduce应用程序。hive十分适合对数据仓库进行统计分析。

用户在hive上编写sql可以实现将数据进行分布式存储，hive通过底层的mapreuduce程序进行转换Java代码执行。

从hive 的logo我们也可以大致的才猜想得，hive是Hadoop的一个种工具，没有独立的思想。Hive的主要功能包括数据提取、‌转化和加载（‌ETL）‌，‌它能够将结构化的数据文件映射为数据库表，‌并提供SQL查询功能。‌

hive框架映射流程

用户从CLI,JDBC等接口进入进行操作。

Metastore为元数据管理器，元数据包含了：用Hive创建的database、table、表等元素信息。

元数据存储：存在关系型数据库中，如hive内置的Derby数据库或者第三方MySQL数据库等,一般使

用Mysql数据库。

Metastore的三种模式

Metastore有三种模式：内嵌模式、远程模式、本地模式

内嵌模式:

优点: 配置简单 hive命令直接可以使用

缺点: 不适用于生产环境,derby和Metastore服务都嵌入在主Hive Server进程中,一个服务只能被

一个客户端连接(如果用两个客户端以上就非常浪费资源),且元数据不能共享。

本地模式:

优点:可以单独使用外部的数据库(mysql),元数据共享

缺点:相对浪费资源,metastore嵌入到了hive进程中,每启动一次hive服务，都内置启动了一个

Metastore。

远程模式:

优点:可以单独使用外部库(mysql),可以共享元数据,本地可以连接Metastore服务也可以连接

hiveserver2服务,增加了扩展性。

缺点:需要先启动metastore服务再启动hiveserver2服务。

Hive操作

想要进行hive操作需要先进行Hadoop相关程序的启动，

在客户端连接虚拟机，启动Hadoop

执行命令：start-all.sh

在使用jps查看启动的进程。

启动完成相关的进程后，启动metastore元数据库和hive的server，二代客户机，

在命令对话框中输入命令

nohup hive --service metastore &

以及命令：nohup hive --service hiveserver2 &

结果如下：

启动完成相关进程后，查看启动情况 jps -m，查看详细信息

进程启动完成

在命令框写入代码lsof -i：10000 ，查看hive启动情况

也可以在Windows系统的浏览器查HDFS启动情况，

在浏览器统一资源管理器（网址）中输入：虚拟机主节点IP:9870 回车执行

可实时查看hdfs内的数据情况。

关闭hive

在命令中输入

kill -9 runjar前的端口号

杀死程序即可

关闭Hadoop可以使用一键关闭命令：stop-all.sh

最后，我希望这次分享能够激发大家对Hive及大数据技术的兴趣和热情。大数据的世界广阔无垠，充满挑战与机遇。愿我们都能在这个领域里不断探索、成长，用数据驱动未来，创造更多价值。感谢大家的聆听和参与，期待我们在未来的学习道路上再次相遇！

标签：数仓,启动,数据库,离线,Hadoop,hive,Metastore,Hive
From： https://blog.csdn.net/m0_74319575/article/details/141035738

Flink 实时数仓（十）【DWS 层搭建（四）交易域汇总表创建】
前言今天完成DWS层交易域剩下的两个指标，估计一早上就完了，这两个需求用到的知识点和昨天的需求差不多；1、交易域省份粒度下单各窗口汇总表1.1、思路分析这个需求是比较简单的，province_id字段是订单表中的字段，在DWD层的下单事务事实表中我们......
hive06_SQL优化
HiveSQL原理joinjoin分为MapJoin、ReduceJoin两种，其中MapJoin思想是将小表存内存，然后大表分片，与小表完成连接操作。MapJoinMap阶段分为两个操作：将小表数据读入内存，生成分片文件后存储到分布式存储系统中；每个Mapper从分布式存储系统中读取文件分片到内存，然后顺......
hive05_窗口函数
窗口函数窗口函数可以更加灵活地对一定范围内的数据进行操作和分析，它能够为每行数据划分一个窗口，然后对窗口范围内的数据进行计算，最后将计算结果返回给该行数据；举个例子，区别于GroupBy，GroupBy对分组范围内的数据进行聚合统计，得到当前分组的一条结果；窗口函数对每一条数据处理，......
hive04_DQL操作
注意点全局排序OrderBySELECT<select_expression>,<select_expression>,...FROM<table_name>ORDERBY<col_name>[ASC|DESC][,col_name[ASC|DESC],...]Hive中使用全局排序时，会将所有数据交给一个Reduce任务进行计算，实现查询结果的全局排序。所以数据量......
离线win/mac下vscode客户端通过ssh连接linux服务器
1、下载vscode，这个网上教程一大堆就不一一介绍了，自行百度建议安装蓝色的版本，最后图标是蓝色的。下载网址：VisualStudioCode-CodeEditing.Redefined2、win系统或mac系统安装openssh，这个也一大堆教程，可以自行百度3、安装vscode插件下载网址：ExtensionsforVisual......
P10814 【模板】离线二维数点
原题链接题解对于一段区间$[l,r]$我们可以在$r$的位置查询一次，然后利用差分的思想跑到l-1再查一次虽然这样不行，但是可以先在$l-1$的位置查询一次，然后再在$r$的位置查询一次，然后顺序遍历，每次遍历就把对应位置上的数激活，可以用树状数组code#include<bits/stdc+......
苹果离线打包机配置和打包
1、虚拟机安装macOS虚拟机安装全过程（VMware）-腾讯云开发者社区-腾讯云给windows虚拟机装个mac·雪之梦1、安装苹果镜像去网上下载，打包机的镜像要和自己mac电脑上的保持一致。同时打包机的用户名也需要和自己的mac保持一致。2、安装xcode https://www.cnblogs.com......
keepalive离线安装-解决openssl-devel安装问题
keepalive源码安装1.下载源码包(这里我是用最新的2.3.1版本)：官网2.解压安装包执行：#prefix后边的路径为keepalived安装的路径$./configure--prefix=/usr/local/keepalived$make$makeinstall3.安装openssl-devel如果遇到错误：（没有错误则不用管这一步）configure......
Linux杀毒软件clamav1.3.1离线安装及杀毒
Linux杀毒软件clamav1.3.1离线安装及杀毒wgethttps://www.clamav.net/downloads/production/clamav-1.3.1.linux.x86_64.rpmrpm-ivh--prefix=/usr/local/clamavclamav-1.3.1.linux.x86_64.rpmgroupaddclamavuseradd-gclamavclamavmkdir-p/usr/local/clamav/logsmkdir-......
nuget离线安装
nuget离线安装本地已经下载好的nuget包路径在：C:\Users\niunan.nuget\packagesVs中工具-->选项-->nuget包管理器-->程序包源，新建一个源，目录指向上面的就行了，这样就可以离线搜索索了，可以直接把上面的packages目录打包到其他电脑上应该也可行。。。或者离线状态下看本地的......