首页 > 其他分享 >haoop的相关介绍及概念

haoop的相关介绍及概念

时间:2023-04-06 18:43:20浏览次数:25  
标签:存储 haoop Hadoop 介绍 hadoop 概念 服务器 数据 节点


文章目录

  • 前言
  • hadoop介绍
  • Hadoop的集群优点:
  • 关于hadoop的相关概念:
  • 分布式存储:
  • 命名空间
  • 主从节点:
  • Block
  • 容灾

前言

cluster:集群

LB:负载均衡
LVS SLB HAPROXY,nginx

HA:高可用
MHA,keepalived,hearebeat

HPC:
Hadoop:
大批量的计算辅助存储和运算
什么是分布式: 分散的

hadoop介绍

Hadoop 是 Lucene 创始人 Doug Cutting,根据 Google 的相关内容山寨出来的分布式文件系统和对海量数据进行分析计算的基础框架系统,其中包含 MapReduce 程序,hdfs 系统等![它受到最先由 Google Lab 开发的 Map/Reduce 和 Google File System(GFS) 的启发。]

Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。

Hadoop的框架最核心的设计: HDFS 和mapreduce
HDFS: 为海量数据提供存储
MapReduce: 为海量数据提供了计算

Hadoop的集群优点:

Hadoop是一个能够对大量数据进行分布式处理的软件框架。 Hadoop 以一种可靠、高效、可伸缩的方式进行数据处理。
Hadoop 是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。
Hadoop 是高效的,因为它以并行的方式工作,通过并行处理加快处理速度
Hadoop 还是可伸缩的,能够处理 PB 级数据。

PB级别的数据换算成G?
IPB=1024TB
1TB=1024G

Hadoop 依赖于社区服务,因此它的成本比较低,任何人都可以使用。

Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有以下几个优点:

  1. 高可靠性: hadoop 按位存储和处理数据的能力值得人们信赖
  2. 高扩展性: 节点比较多,方便计算和分配数据。

什么是节点?
节点是一个术语,代指一类设备.他们可以是主机(pc),服务器,也可以是构成传输网络的交换机,路由器,防火墙等等.

  1. 高效性: Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。
  2. 容错性:Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。

raid 容错性是什么意思,raid几没有容错性? raid 几有容错性。

  1. 低成本:与一体机、商用数据仓库以及QlikView、Yonghong Z-Suite等数据集市相比,hadoop是开源的,项目的软件成本因此会大大降低
    注意: hadoop框架开发语言: java,在linux上运行效果比较理想。

官网: http://hadoop.apache.org/

关于hadoop的相关概念:

分布式存储:

linux存储有哪些?
NFS, NAS, HDFS,MFS

haoop的相关介绍及概念_Hadoop


单一服务器存储几个TB: 装不下

举例: 电信公司:阳光保险:存储(通话记录),存了20台服务器,一台一台的读取或者写入数据很麻烦。

引入分布式文件系统:

分布式文件系统管理的是一个服务器集群。在这个集群中,数据存储在集群的节点(即集群中的服务器)中,但是该文件系统把服务器的差异屏蔽了。那么,我们就可以像使用普通的文件系统一样使用,但是数据却分散在不同的服务器中。

命名空间

namespace:在分布式存储系统中,分散在不同节点中的数据可能属于同一个文件,为了组织众多的文件,把文件可以放到不同的文件夹中,文件夹可以一级一级的包含。我们把这种组织形式称为命名空间(namespace)。命名空间管理着整个服务器集群中的所有文件。命名空间的职责与存储真实数据的职责是不一样的。 负责命名空间职责的节点称为主节点(master node),负责存储真实数据职责的节点称为从节点(slave node)

主从节点:

主节点负责管理文件系统的文件结构,从节点负责存储真实的数据,合称为主从式结构(master-slaves)

用户操作的时候,也应该是先和主节点打交道, 查询数据在那些从节点上, 然后再从从节点读取数据。 有的时候为了加快用户的访问速度,会把整个命名空间信息都放在内存当中、当存储文件越多时,我们主节点就需要越多的内存空间。

打开一个文件是先加载到哪里? 内存
我们为什么用笔记本打不开一个2T大小的文件? --内存太小

Block

在从节点存储数据时,有的原始数据文件可能很大,有的可能很小,大小不一的文件不容易管理,那么可以抽象出一个独立的存储文件单位,称为块(block)。

问题: 如果我的硬盘有500G,现在还剩200G ,但是我创建文件的时候提示我硬盘空间不足?

答: 一般情况是因为inode号不足

容灾

数据存放在集群中,可能因为网络原因或者服务器硬件原因造成访问失败,最好采用副本(replication)机制,把数据同时备份到多台服务器中,这样数据就安全了,数据丢失或者访问失败的概率就小了

异地容灾?答:
不同的地域,构建一套或者多套相同的应用或者数据库,起到灾难后立刻接管的作用


标签:存储,haoop,Hadoop,介绍,hadoop,概念,服务器,数据,节点
From: https://blog.51cto.com/zmedu/6174002

相关文章

  • 【linux】RAID磁盘阵列介绍
    文章目录RAID概念RAID分类raid0特点:RAID5RAID10RAID磁盘失效如何处理热备硬raid的介绍RAID概念RAID(RedundantArrayofIndependentDisks,独立磁盘冗余阵列)可以提供较普通磁盘更高的速度、安全性,所以服务器在安装时都会选择创建RAID。RAID的创建有两种方式:软RAID(通过操作系统软件......
  • 【Linux】apache服务相关概念及安装
    文章目录web服务概述什么是apachehttpd工作模型apache的安装及应用1.apache的安装2.启动:3.设置开机启动:4.查看httpd的进程及端口号httpd的程序环境查看运行情况方法1:浏览器输入IP,可以查看到已经运行方法2:elinks命令测试总结web服务概述WEB服务器也称为WWW(WORLDWIDEWEB,万......
  • Linux系统介绍
    什么是Linux?可以运行在PC机上类似于Unix风格的操作系统,由众多程序员通过Internet协作开发Linux是开源的开源好处:自由软件——使用自由、研究自由、散布自由、改良自由Linux系统结构:Linux操作系统由内核及应用程序组成。不同的厂商根据各自的需要将各种应用软件和Linux内核一起打包......
  • Vue3.0学习(一)------Vue简单介绍
    什么是Vue?官方原文:Vue是一款用于构建用户界面的JavaScript框架。它基于标准的HTML、CSS和JavaScript构建,并提供了一套声明式的、组件化的编程模型,帮助你高效地开发用户界面。简单来说,Vue就是一个构建用户界面的前端框架Vue的两个核心功能声明式渲染Vue基于标准HTML扩展了一......
  • 走进Java接口测试之流行框架SpringBoot(概念篇)
    引言说起SpringBoot不得不先了解一下Spring这个企业,不仅因为SpringBoot来源于Spring大家族,而是SpringBoot的诞生和Sping框架的发展息息相关。Spring历史2002年正是JavaEE和EJB大行其道的时候,很多知名公司都是采用此技术方案进行项目开发。一个美国的小伙子Ro......
  • k8s入门篇-Kubernetes的基本概念和术语
    1.k8s基本概念概述Kubernetes中的大部分概念如Node、Pod、ReplicationController、Service等都可以被看作一种资源对象,几乎所有资源对象都可以通过Kubernetes提供的kubectl工具(或者API编程调用)执行增、删、改、查等操作并将其保存在etcd中持久化存储。从这个角度来看,Kubernetes......
  • 有名管道介绍及使用
    有名管道简介:匿名管道,由于没有名字只能用于亲缘关系的进程间通信。为了克服这个缺点,提出了有名管道(FIFO),也叫命名管道、FIFO文件。有名管道(FIFO)不同于匿名管道之处在于它提供了一个路径名与之关联,以FIFO的文件形式存在于文件系统中,并且其打开方式和打开一个普通文件是一样的。这......
  • HMI人机界面相关介绍及人机界面设计
    在工业自动化领域,HMI是人机界面的缩写。在工业中使用HMI来控制和监控机器。如果没有HMI,就很难在工业中拥有良好的自动化流程。人机界面的定义人机界面(HMI)是一种用户界面,允许人类操作员与机器或过程进行交互。HMI通常用于工业环境,允许操作员监视和控制过程,例如工厂或发电厂中......
  • C++/CLI 托管C++的数组介绍【4】
    Git源码地址 C++/CLI托管C++的托管与非托管字符串的相互转换【1】C++/CLI托管C++的数据类型介绍【2】C++/CLI托管C++的基本数据类型及函数【3】C++/CLI托管C++的数组介绍【4】C++/CLI托管C++之字符串封装【5】C++/CLI托管C++之enum枚举封装【6】C++/CLI托管C++之类、属性......
  • LinkedBlockingDeque介绍
    //有一个内部类finalclassNode<E>,//用于包装每个节点的数据。另外有成员属性//Node<E>first,Node<E>last,//当前拥有元素数量intcount,容量intcapacity;//Eitem当前节点数据//Node<E>prev指向当前节点前驱节点......