第一周,基于Ambari搭建了大数据分析平台,根据教程创建了三台Linux虚拟机。根据教程一点一点做,发现了很多问题,通过网上搜索资料解决了以后,顺利地搭建起了该平台,发现这块东西真的很难,主要是很抽象,不像之前学的搭建一个网站,写一款安卓软件,现在大数据这个东西看不见摸不着,而且我也没有Linux基础,这些都要从头开始学,边学边用,难免会跳坑,到目前为止还是一头雾水,不知道这个东西怎么用,这是在干嘛。
一、部署工具简介
1. Hadoop生态系统
Hadoop big data ecosystem in Apache stack
2. Hadoop的发行版本
Hadoop的发行版除了Apache的开源版本之外,国外比较流行的还有:Cloudera发行版(CDH)、Hortonworks发行版(HDP)、MapR等,所有这些发行版均是基于Apache Hadoop衍生出来的,因为Apache Hadoop的开源协议允许任何人对其进行修改并作为开源或者商业产品发布。
国内主流的商业版Hadoop平台:
华为——FusionInsight HD(简称FI)
腾讯——Tbds
阿里——飞天(相对其他版本,修改比较大)
明略——Nest
星环——Tdc
浪潮——云海Insight
CDH是Cloudera基于Apache Hadoop衍生出的发行版,其代码部分开源,提供了管理布置工具ClouderaManager
HDP是Hortonworks公司(2018年并入cloudera公司)基于Apache Hadoop衍生出的发行版,其代码全部开源,采用Ambari进行管理和部署
3. 部署工具介绍
大数据集群管理方式分为手工方式(Apache hadoop)和工具方式(Ambari + hdp 和Cloudera Manger + CDH)。手工方式太过复杂,是一个艰辛的过程,在企业应用中,一般采用工具部署方式。Ambari和Cloudera Manager这两个系统,目的就是简化Hadoop生态集群的安装、配置,同时提高Hadoop运维效率,以及对Hadoop集群进行监控。
(1)Ambari是Apache软件基金顶级项目,它是一个基于web的工具,用于安装、配置、管理和监视Apache Hadoop集群,支持Hadoop HDFS,、Hadoop MapReduce、Hive、HCatalog,、HBase、ZooKeeper、Oozie、Pig和Sqoop。Ambari同样还提供了集群状况仪表盘,比如heatmaps和查看MapReduce、Pig、Hive应用程序的能力,以友好的用户界面对它们的性能特性进行诊断。
Apache Ambari 项目旨在通过开发用于配置,管理和监控 Apache Hadoop 集群的软件来简化 Hadoop 管理。Ambari 提供了一个直观,易用的 Hadoop 管理 Web UI。
Ambari提供了如下功能:
提供了跨任意数量的主机安装 Hadoop 服务的分步向导。
处理群集的 Hadoop 服务配置。
提供集中管理,用于在整个集群中启动,停止和重新配置 Hadoop 服务。
提供了一个仪表板,用于监控 Hadoop 集群的运行状况和状态。
利用 Ambari 指标系统进行指标收集。
利用 Ambari Alert Framework 进行系统警报,并在需要您注意时通知您(例如,节点出
现故障,剩余磁盘空间不足等)。
(2)Cloudera Manager是cloudera公司的一个产品,着重于帮助大家管理自己的CDH集群,通过Cloudera Manager统一的UI界面来快速地自动配置和部署CDH和其相关组件,同时Cloudera Manager还提供了各种丰富的可自定义化的监视诊断和报告功能,集群上统一的日志管理功能,统一的集群配置管理和实时配置变更功能,多租户功能,高可用容灾部署功能和自动恢复功能等, 方便企业统一管理和维护自己的数据中心。Cloudera Manager产品也是我们主要的安装内容和介绍对象。它细分为免费的Express版本和功能完全并提供众多增值服务的收费版本Enterprise
(3)Ambari VS ClouderaManager
主要的不同点 apache Ambari ClouderaManager Express(免费版)
配置版本控制和历史记录 支持 不支持
二次开发 支持 不支持
集成 支持 no (不支持redis、kylin、es)
维护 依靠社区力量 cloudera做了一些定制开发,自行维护或打patch会离社区越来越远
权限控制 ranger(相对简单) sentry(复杂)
视图定制 支持创建自己的视图,添加自定义服务 不支持