首页 > 其他分享 >hadoop入门-概述

hadoop入门-概述

时间:2022-10-27 12:45:08浏览次数:64  
标签:HDFS Cloudera 入门 Hortonworks hadoop Hadoop 开源 MapReduce 概述

 

第1章 Hadoop概述

1.1 Hadoop是什么

1.2 Hadoop发展历史(了解)

 

1.3 Hadoop三大发行版本(了解)

Hadoop三大发行版本:Apache、Cloudera、Hortonworks。

Apache版本最原始(最基础)的版本,对于入门学习最好。2006

Cloudera内部集成了很多大数据框架,对应产品CDH。2008

Hortonworks文档较好,对应产品HDP。2011

Hortonworks现在已经被Cloudera公司收购,推出新的品牌CDP。

1Apache Hadoop

官网地址:http://hadoop.apache.org

下载地址:https://hadoop.apache.org/releases.html

2Cloudera Hadoop

官网地址:https://www.cloudera.com/downloads/cdh

下载地址:https://docs.cloudera.com/documentation/enterprise/6/release-notes/topics/rg_cdh_6_download.html

(1)2008年成立的Cloudera是最早将Hadoop商用的公司,为合作伙伴提供Hadoop的商用解决方案,主要是包括支持、咨询服务、培训。

22009Hadoop的创始人Doug Cutting也加盟Cloudera公司。Cloudera产品主要为CDH,Cloudera Manager,Cloudera Support

(3)CDH是Cloudera的Hadoop发行版,完全开源,比Apache Hadoop在兼容性,安全性,稳定性上有所增强。Cloudera的标价为每年每个节点10000美元

(4)Cloudera Manager是集群的软件分发及管理监控平台,可以在几个小时内部署好一个Hadoop集群,并对集群的节点及服务进行实时监控。

3Hortonworks Hadoop

官网地址:https://hortonworks.com/products/data-center/hdp/

下载地址:https://hortonworks.com/downloads/#data-platform

(1)2011年成立的Hortonworks是雅虎与硅谷风投公司Benchmark Capital合资组建。

2)公司成立之初就吸纳了大约25名至30名专门研究Hadoop的雅虎工程师,上述工程师均在2005年开始协助雅虎开发Hadoop,贡献了Hadoop80%的代码。

(3)Hortonworks的主打产品是Hortonworks Data Platform(HDP),也同样是100%开源的产品,HDP除常见的项目外还包括了Ambari,一款开源的安装和管理系统。

(4)2018年Hortonworks目前已经被Cloudera公司收购

1.4 Hadoop优势(4高)

1.5 Hadoop组成(面试重点)

1.5.1 HDFS架构概述

Hadoop Distributed File System,简称HDFS,是一个分布式文件系统。

1.5.2 YARN架构概述

Yet Another Resource Negotiator简称YARN ,另一种资源协调者,是Hadoop的资源管理器。

1.5.3 MapReduce架构概述

MapReduce将计算过程分为两个阶段:Map和Reduce

1)Map阶段并行处理输入数据

2)Reduce阶段对Map结果进行汇总

1.5.4 HDFS、YARN、MapReduce三者关系

1.6 大数据技术生态体系

图中涉及的技术名词解释如下:

1)Sqoop:Sqoop是一款开源的工具,主要用于在Hadoop、Hive与传统的数据库(MySQL)间进行数据的传递,可以将一个关系型数据库(例如 :MySQL,Oracle 等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。

2)Flume:Flume是一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;

3)Kafka:Kafka是一种高吞吐量的分布式发布订阅消息系统;

4)Spark:Spark是当前最流行的开源大数据内存计算框架。可以基于Hadoop上存储的大数据进行计算。

5)Flink:Flink是当前最流行的开源大数据内存计算框架。用于实时计算的场景较多。

6)Oozie:Oozie是一个管理Hadoop作业(job)的工作流程调度管理系统。

7)Hbase:HBase是一个分布式的、面向列的开源数据库。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。

8)Hive:Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。

9)ZooKeeper:它是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、分布式同步、组服务等。

1.7 推荐系统框架图

标签:HDFS,Cloudera,入门,Hortonworks,hadoop,Hadoop,开源,MapReduce,概述
From: https://www.cnblogs.com/niunai/p/16831801.html

相关文章

  • XSD 指示器概述
    通过指示器,我们可以控制在文档中使用元素的方式。指示器有七种指示器:Order指示器:AllChoiceSequenceOccurrence指示器:maxOccursminOccursGroup指示器:GroupnameattributeG......
  • XAF新手入门 - 模块(Module)
    模块概述谈到模块大家应该都不会感到陌生,不管是前端还是后端都有模块的概念,XAF中的模块概念与大多数框架中的模块概念是相通的。XAF模块首先是一个.NET类库,同时它还包含一......
  • Java零基础入门---JDK的安装及环境变量配置教程
    ?在官方网站?(http://www.oracle.com)下载JDK安装包,针对不同的操作系统,下载不同的版本。?1、双击JDK安装包,进行安装?2、点击“下一步”?3、更改安......
  • JDBC概念和JDBC快速入门
     JDBC概念概念:javaDataBaseConnectivityjava数据连接java语法操作数据库 JDBC本质其实是官方(sun公司)定义的一套操作所有关系系数据库的规则即接口各个数据库......
  • 【一】ERNIE:飞桨开源开发套件,入门学习,看看行业顶尖持续学习语义理解框架,如何取得世界
    ​参考文章:深度剖析知识增强语义表示模型——ERNIE_财神Childe的博客-CSDN博客_ernie模型ERNIE_ERNIE开源开发套件_飞桨https://github.com/PaddlePaddle/ERNIE/blob/d......
  • java多线程编程详细入门教程
    ##1、概念?线程是jvm调度的最小单元,也叫做轻量级进程,进程是由线程组成,线程拥有私有的程序技术器以及栈,并且能够访问堆中的共享资源。这里提出一个问题,为什么要用多......
  • 1、Java程序概述
    1、什么是Java?Java是一个完整的平台,有一个庞大的库,其中包含了很多可重用的代码,以及一个提供诸如安全性、跨操作系统的可移植性以及自动垃圾收集等服务的执行环境。2、Ja......
  • BOM概述和BOM的Window弹出方法
    BOM概述BOM:1.概念:BrowserObjectModel浏览器对象模型将浏览器的各个组成部分封装成对象。2.组成:Window:窗口对象Navigator:浏览......
  • .MD语法入门,教你写好readme文档
    .md即markdown文件的基本常用编写语法,是一种快速标记、快速排版语言,现在很多前段项目中的说明文件readme等都是用.md文件编写的,而且很多企业也在在鼓励使用这种编辑方式,特......
  • C# RulesEngine 规则引擎:从入门到看懵
    说明RulesEngine是C#写的一个规则引擎类库,读者可以从这些地方了解它:仓库地址:https://github.com/microsoft/RulesEngine使用方法:https://microsoft.github.io/Rule......