Hadoop与Hadoop集群介绍

时间：2023-04-09 16:57:12浏览次数：33

标签：HDFS Hadoop 介绍 MapReduce 集群任务调度分布式

1、什么是Hadoop

狭义上Hadoop指的是Apache软件基金会的一款开源软件。用java语言实现，开源。允许用户使用简单的编程模型实现跨机器集群对海量数据进行分布式计算处理广义上Hadoop指的是围绕Hadoop打造的大数据生态圈。

2、Hadoop核心组件

　　Hadoop HDFS（分布式文件存储系统）：解决海量数据存储　　Hadoop YARN（集群资源管理和任务调度框架）：解决资源任务调度　　Hadoop MapReduce（分布式计算框架）：解决海量数据计算

3、Hadoop现状

　　HDFS作为分布式文件存储系统，处在生态圈的底层与核心地位；　　YARN作为分布式通用的集群资源管理系统和任务调度平台，支撑各种计算引擎运行，保证了Hadoop地位；　　MapReduce作为大数据生态圈第一代分布式计算引擎，由于自身设计的模型所产生的弊端，导致企业一线几乎不再直接使用MapReduce进行编程处理，但是很多软件的底层依然在使用MapReduce引擎来处理数据。

4、Hadoop特性优点

5、Hadoop架构变迁

Hadoop 1.0 　　HDFS（分布式文件存储）　　MapReduce（资源管理和分布式数据处理） Hadoop 2.0 　　HDFS（分布式文件存储）　　MapReduce（分布式数据处理）　　YARN（集群资源管理、任务调度） Hadoop 3.0 　　架构组件和Hadoop 2.0类似,3.0着重于性能优化

6、Hadoop集群整体概述

Hadoop集群包括两个集群：HDFS集群、YARN集群。而MapReduce是计算框架、代码层面的组件没有集群之说两个集群逻辑上分离、通常物理上在一起。逻辑上分离是指两个集群互相之间没有依赖、互不影响；物理上在一起是指某些角色进程往往部署在同一台物理服务器上两个集群都是标准的主从架构集群

标签：HDFS,Hadoop,介绍,MapReduce,集群,任务调度,分布式
From： https://www.cnblogs.com/jpxjx/p/17300542.html

生产环境CDH集群主机加内存导致系统无法启动,重装系统后CDH数据修复的过程
原因:因为主机扩容内存重启以后发现有七台服务器无法进入系统,重启之前Centos7的启动项被修改过导致无法重启,只能重新安装操作系统,但是HDFS的数据是保存到data盘中.系统OS:CentOSLinuxrelease7.6.1810(Core)CDH版本:6.2.1重新安装操作系统的服务器10.170.12.43db-pro-da......
OpenStack介绍
1云平台的由来IT基础架构的发展：物理架构----->虚拟化架构---->云计算架构2常见的云管理平台:vCloudDirector、CloudStack、OpenStack2.1vCloudDirectorVMwarevCloud™Director使客户能够按需交付基础架构，以便终端用户能以最大的敏捷性使用虚拟资源。扩展模块、API和开放式......
大数据面试题集锦-Hadoop面试题(一)
目录1、集群的最主要瓶颈2、Hadoop运行模式3、Hadoop生态圈的组件并做简要描述4、解释“hadoop”和“hadoop生态系统”两个概念5、请列出正常工作的Hadoop集群中Hadoop都分别需要启动哪些进程，它们的作用分别是什么?6、基于Hadoop生态系统对比传统数据仓库有何优势？7、如何选择不......
Lasso回归_ElasticNet回归_PolynomialFeatures算法介绍---人工智能工作笔记0032
然后我们再来看这个ridge回归,可以看到这里的这个岭回归,可以看到他的损失函数,其实就是添加了一个使用L2的正则化的,惩罚项对吧,目的是为了增强,损失函数的泛化能力,这里的alpha,实际上作用是为了,调整,这个损失函数的,正确率多一点还是泛化能力强一点. 可以看到他的使用函数的方......
Python中的抽象基类介绍
从上一篇文章(Python中鸭子类型与多态介绍)中，我们了解到了python的鸭子类型和多态。继承提供了多态的基础，而多态则使继承更加灵活和强大。那么今天，让我们再来一起了解一下python里面的抽象基类。Python中的抽象基类（AbstractBaseClasses，简称abc）是一种特殊的类，它用于定义一......
CentOS7/RHEL7 pacemaker+corosync高可用集群搭建
CentOS7/RHEL7pacemaker+corosync高可用集群搭建一、集群信息二、集群搭建1、制作软件源2、主机基础配置3、集群基础环境准备4、集群资源准备5、资源配置6、constraint配置7、stonith配置8、集群功能验证三、集群常用命令及作用1、验证群集安装2、查看群集资源3、使......
基于TiDB Binlog架构的主备集群部署及数据同步操作手册
作者：Liuhaoao最近手头有个系统，有需要搭建灾备库的需求（rto要求4小时内，根据实际情况计算）。考虑到生产系统是5版本，TiCDC存在一些兼容性问题，且TiDBBinlog已经有实践案例及经验可供参考，故选择使用TiDBBinlog来实现主集群-->灾备集群的增量数据同步。数据全量初始化采用Dumpling+Ti......
Chaosd 模拟两地三中心集群的网络环境
作者：pepezzzz环境准备集群名称和版本tidb集群:tidb-h版本：v6.6.0集群拓扑：单中心模拟部署两中心部署拓扑，延时要求如下：模拟场景源目标延时同城172.16.x.71,72172.16.x.73,741.5ms异地172.16.x.66~68,71~74,77172.16.x.67200ms软件版本：chaosdx86平台：curl-fsSL-ochaosd-v1.2......
Django笔记十九之manager用法介绍
本文首发于微信公众号：Hunter后端原文链接：Django笔记十九之manager用法介绍首先介绍一下manager的使用场景，比如我们有一些表级别的，需要重复使用的功能，都可以使用manager来实现。比如我们在前面的笔记中介绍的model的create()、update()等方法，Blog.objects.create()中......
C4.5分类树算法介绍
为什么C4.5会出现？因为ID3算法节点的分支越多，信息增益也就越大，这会出现过拟合的现象，因此提出C4.5算法。图1C4.5的属性选择方法——获利比例获利比例=信息增益/分支度IV分支度IV与各分支下的类别数目之比成负相关：假如14个样本一共分4支:划分方法1为：分支1数目：分支2数目：分支......