首页 > 其他分享 >hadoop学习(2)

hadoop学习(2)

时间:2022-11-01 19:44:08浏览次数:56  
标签:Flume hadoop YARN Hadoop 学习 MapReduce MR 数据流

Hadoop YARN

直接源于MRv1在几个方面的缺陷,扩展性受限、单点故障、难以支持MR之外的计算。多计算框架各自为战,数据共享困难。

MR:离线计算框架,Storm:实时计算框架,Spark内存计算框架。

Hadoop 2.0有HDFS、MapReduce和YARN三个分支组成.

HDFS:NN Federation 、HA; MaoReduce:运行在YARN上的MR;YARN:资源管理系统

  YARN的组成:

  ResourceManager

    处理客户端请求,启动和监控ApplicationMaster,监控NodeManager,资源分配与调度。

  NodeManager

    但各节点上的资源管理,处理来自ResourceManager的命令,处理来自ApplicationMaster的命令

  ApplicationMaster

  数据切分,为应用程序申请资源、并分配给内部任务。任务监控与容错。

 

 

Hadoop的其他组件,Zookeeper(分布式协作服务),解决分布式环境下的数据管理问题:统一命名,状态同步,集群管理,配置同步等。Sqoop(数据同步工具),SQL-to-Hadoop的缩写,主要用于传统数据库与Hadoop之间传输数据。数据的导入导出本质上MapReduce程序,充分利用了MR的并行化和容错性。Pig(基于Hadoop的数据流系统)提供一种基于MapReduce的ad-hoc(计算在query时发生)数据分析工具,定义一种数据流语言Pig Latin,将脚本转换为MapReduce任务在Hadoop上执行。通常用于进行离线分析。Mahout(数据挖掘算法库)创建一些可扩展领域的机器学习领域经典算法的实现,Mahout现在已经包含了聚类分类推荐引擎频繁集挖掘等广泛使用的数据挖掘方法。Flume(日志收集工具)他将数据从产生、传输、处理并最终写入目标路径的过程抽象为数据流,在具体的数据流中,数据源支持在Flume中定制数据的发送方,从而支持收集各种不同协议数据。同时,Flume数据流提供对日志数据进行简单处理的能力,如过滤、格式转换等。此外,Flume还具有能够将日志数据写往数据目标(可定制)的能力。总的来说,Flume是一个可扩展、适合复杂环境的海量日志收集系统。

 

标签:Flume,hadoop,YARN,Hadoop,学习,MapReduce,MR,数据流
From: https://www.cnblogs.com/20203923rensaihang/p/16848484.html

相关文章

  • 20201306吴龙灿第十二章学习笔记
    知识点归纳1.块设备I/O缓冲区什么是块设备:块设备是i/o设备中的一类,是将信息存储在固定大小的块中,每个块都有自己的地址,还可以在设备的任意位置读取一定长度的数据,例如硬......
  • Hadoop HDFS负载均衡
    Hadoop分布式文件系统(HadoopDistributedFileSystem),简称HDFS,被设计成适合运行在通用硬件上的分布式文件系统。它和现有的分布式文件系统有很多的共同点。HDFS是一个高......
  • Java学习笔记day2--循环结构
    **循环结构包括四个部分:初始化部分循环条件部分循环体部分迭代部分1>for循环for(初始化部分;循环条件部分;迭代条件......
  • 2022-10-31学习内容
    1.数据库版本升级1.1UserDBHelper.javaprivatestaticfinalintDB_VERSION=2;@OverridepublicvoidonUpgrade(SQLiteDatabasedb,intoldVersion,intnew......
  • biogeme巢式logit选择学习
    #导入库```pythonimportpandasaspdimportcsvfrombiogemeimportmodelsimportbiogeme.biogemeasbioimportbiogeme.databaseasdbfrombiogeme.expressionsimpo......
  • Java学习笔记day2——循环结构综合例题(1个)
    //循环语句综合例题/*例题1:从键盘读入个数不确定的整数,并判断读入的正数和负数的个数,输入为零时,结束程序。*/......
  • Java学习笔记day2--分支结构之switch
    /*switch(表达式){case常量1:语句1;//break;case常量2:语句2;//break;……default:语句;//break;说明:1.按......
  • 深度学习——目标检测基础知识
    一,anchors所谓​​anchors​​​,实际上就是一组由generate_anchors.py生成的矩形框。其中每行的4个值​​(x1,y1,x2,y2)​​​表矩形左上和右下角点坐标。9个矩形共有......
  • 深度学习目标检测——AP以及MAP
    AP计算概述知道了​​AP​​​的定义,下一步就是理解​​AP​​​计算的实现,理论上可以通过积分来计算​​AP​​​,公式如下:但通常情况下都是使用近似或者插值的方法来计算......
  • 深度学习——卷积神经网络压缩方法总结(等待补充)
    卷积网络压缩方法总结卷积网络的压缩方法​​一,低秩近似​​​​二,剪枝与稀疏约束​​​​三,参数量化​​​​四,二值化网络​​​​五,知识蒸馏​​​​六,浅层网络​​我们知......