在沸沸扬扬的大数据江湖里,有这么一个框架,它刚开始很低调,然而,就在那么一个不起眼的一天,突然展示出其绝妙的武功,让大数据各大框架的掌门人暗挑大拇指,好了,不卖关子了,这个“横空出世”的框架就是——Hive。
一:Hive产生的背景
万事有因果,Hive的出现也不是无缘无故的,总体来说,Hive出现的原因主要有两个:
1. MapReduce编程太麻烦
有过MapReduce编程经验的小伙伴们应该都能体会到编写MapReduce代码有多麻烦,Hive正是体谅到了小伙伴们的烦 恼, 于是才扬长避短,更快、更方便地解决了大家的烦恼。
2. SQL不能直接在HDFS上进行查询
虽然HDFS是一种强大的分布式存储系统,可是存储在HDFS上的内容就是普通的数据而已,这可难倒了一众数据库管理人员,于是,Hive说:“没关系,只要你们会SQL,就很容易掌握我,我能帮助你们方便地操作HDFS上的数据”。哇,Hive的出现又解决了数据库管理员的苦恼,太伟大了!
二:Hive到底是什么
正式介绍一下Hive:
Facebook 为了解决海量结构化日志数据的分析而开发了 Hive,后来开源给了 Apache 软件基金会。
Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL 查询功能, Hive 底层是将类SQL 语句转换为 MapReduce任务运行。
注意:
- 从Hive2.x开始,底层的默认执行引擎已经改成了Spark
- Hive底层执行引擎支持:MR/Tez/Spark
三:Hive的数据管理
-
Hive数据是存放在HDFS
-
元数据信息(记录数据的数据)是存放在MySQL中
四:Hive的部署
1.先安装好MySQL
2. 下载Hive安装包,并解压到指定目录
3. 添加HIVE_HOME到系统环境变量
4. 修改配置
hive-env.sh
hive-site.xml (MySQL的连接配置)
5. 拷贝MySQL驱动包到$HIVE_HOME/lib
标签:HDFS,SQL,MapReduce,Hive,横空出世,MySQL,数据,原因 From: https://www.cnblogs.com/tianpan666/p/17926429.html