首页 > 其他分享 >每周总结1

每周总结1

时间:2024-07-13 20:09:55浏览次数:8  
标签:总结 HDFS 存储 每周 Hadoop MapReduce 数据 节点

 

 

  • Hadoop HDFS(核心):Hadoop 分布式存储系统;
  • Yarn(核心):Hadoop 2.x版本开始才有的资源管理系统;
  • MapReduce(核心):并行处理框架;
  • HBase:基于HDFS的列式存储数据库,它是一种 NoSQL 数据库,非常适用于存储海量的稀疏的数据集;
  • Hive:Apache Hive是一个数据仓库基础工具,它适用于处理结构化数据。它提供了简单的 sql 查询功能,可以将sql语句转换为 MapReduce任务进行运行;
  • Pig:它是一种高级脚本语言。利用它不需要开发Java代码就可以写出复杂的数据处理程序;
  • Flume:它可以从不同数据源高效实时的收集海量日志数据;
  • Sqoop:适用于在 Hadoop 和关系数据库之间抽取数据;
  • Oozie:这是一种 Java Web 系统,用于Hadoop任务的调度,例如设置任务的执行时间和执行频率等;
  • Zookeeper:用于管理配置信息,命名空间。提供分布式同步和组服务;
  • Mahout:可扩展的机器学习算法库。

 

HDFS 框架概述

① NameNode(nn): 存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间、副本数、文件权限),以及每个文件的块所在的 DataNode 等。
② DataNode(dn): 在本地文件系统存储文件块数据,以及块数据校验和。
③ Secondary DataNode(2nn): 用来监控 HDFS 状态的辅助后台程序,每隔一段时间获取 HDFS 元数据的快照。
———————————————

Hadoop MapReduce 是一种编程模型,它是 Hadoop 最重要的组件之一。它用于计算海量数据,并把计算任务分割成许多在集群并行计算的独立运行的 task。

 

MapReduce 是 Hadoop的核心,它会把计算任务移动到离数据最近的地方进行执行,因为移动大量数据是非常耗费资源的。

  1. 存储:Hadoop使用Hadoop Distributed File System(HDFS)来存储数据。数据被分割成多个块,并复制到集群中不同的节点上,以确保容错性和高可用性。

  2. 分析:Hadoop使用MapReduce编程模型来处理数据。在MapReduce中,计算任务被分成两个阶段:Map(映射)和 Reduce(归约)。Map阶段将数据分割成若干小块进行处理,Reduce阶段将Map阶段的结果合并起来以生成最终的输出。

  3. 资源调度:Hadoop使用YARN(Yet Another Resource Negotiator)作为资源管理器,负责集群资源的分配和调度。YARN可以根据应用程序的需求动态分配资源,并监控任务的执行情况。

  4. 链接:Hadoop生态系统中有许多工具和组件,如Hive、Pig、Spark等,可以与Hadoop集成,使用户能够进行更复杂的数据处理和分析工作。

总的来说,Hadoop的工作方式通过数据存储、并行计算和资源管理,实现了对大规模数据集的高效处理和分析。

hadoop主从工作方式

主节点(Master)负责整个集群的管理和协调工作,它通常负责资源的分配、任务调度、监控和故障处理。主节点还负责维护集群的元数据信息和整体的状态信息。

从节点(Slave)负责执行主节点分配给它们的任务,从节点通常负责存储数据和执行计算任务。从节点会向主节点汇报自己的状态信息,接受主节点的指令并按照指令执行任务。

  虚拟机以及Hadoop 的安装耗费了我三天!!!!!!!

太难了

 

标签:总结,HDFS,存储,每周,Hadoop,MapReduce,数据,节点
From: https://www.cnblogs.com/wcy1111/p/18300609

相关文章

  • 第二周进度总结
    (1)本周做了什么,花在学习上多长时间,花在代码时间上多长时间,花在解决问题用了多长时间。本周完成了yarn集群和hive数据库的部署使用的命令如下su-aaacd/export/server/hadoop/etc/hadoop/llvimmapred-env.shexportJAVA_HOME=/export/server/jdkexportHADOOP_JOB_HISTORYSERV......
  • 第二周总结
    一、周任务完成情况:1.每天通过书籍与b站网课自主学习Java一小时,完成Java循环,条件及数组部分的语法学习。2.阅读《大道至简》第二章“是懒人创造了方法”与第三章“团队缺乏的不只是管理”。3.每日完成pta基础题目集2~3题。二、下周计划:1.使用Java语言完成部分练习题。2.继续......
  • python基础篇总结:数据类型
    在python中数据类型主要是以下9种分别是1.Int(整型);2.Float(浮点型);3.Bool(布尔型);4.Str(字符串);5.None(空值);6.List(列表);7.Tuple(元组);8.Dict(字典);9.Set(集合)等。一.Int(整数)整数是Python中最基本的数值类型,用于表示整数值。1.定义整数变量:2.使用内置函数处理整数:3.进行算......
  • 可视化课设总结(星巴克网页爬取信息,百度地图网页版爬取信息,百度地图api,pyecharts库,pyth
    一、引言       本博客是本人是基于本人可视化课设所做的总结,其中有些过程的实现可能并不是最优的实现方法,有些实现效果也因为本人的实力有限,并不能达到预期的效果,所以也欢迎大家指点和改良。(刚考完期末回家,终于有时间把这个课设写个博客了,虽然这课设是明天截至的,我今......
  • 2023-2024第二学期的助教工作总结(计算机网络)
    一、助教工作的具体职责和任务 (包括:你和老师是如何配合的、你和课程其他助教是如何配合的(如果有的话))1.及时跟进学生学习进度每周询问老师教学进度,自己复习知识点,随时准备回复学生问题,并对后续进行安排2.编写题目,拓宽题库每周编写5-8题题目,写出答案,并发给老师审核3.和老师......
  • 第二周总结
    学习进度:(1)阅读完《大道至简》第二章内容,懒人造就了方法,人的精力有限,提出新的方法,解决的将是影响做事成效的根本问题,这章里,举了一个学员学了一年,仍然不会写程序,作者告诉这个学员,要把学过的知识分类,就像是常用的放在手边,不常用的放在书柜里,这样这个学员在九个月的时候就可以写代码......
  • JS基础知识总结(1)
    1、编写一个程序,用于判空和判断对象是否被定义。functionisUndefined(arg){if(typeofarg=='undefined'||JSON.stringify(arg)=="{}"){returntrue;//第二个选项是把空对象筛选出去}else{//这里需要解释一......
  • 20240712总结、视图函数映射报错
    网络ip、端口,服务器人脸识别:1.接口,刚开始以为是调用消费机的接口,后来知道是消费机调用我的接口。2.对Django和Flask框架不熟悉,只会基本结构,Flask多套几层蓝图就懵了。3.对服务器、ip这些不明白,搞不懂消费机是怎么和服务器连上的。好像还用了docker4.对端口不熟悉,我对端口的理......
  • 总结篇:Python数据类型总结
    在Python中,数据类型是编程的基础。理解和熟练运用各种数据类型及其操作方法,是编写高效、优雅代码的关键。本文将结合自己的理解,详细介绍Python中的几种基本数据类型及其常用操作。一.整数(Int)整数是最基本的数据类型之一,主要用于表示没有小数部分的数值。常用操作:1.声明整......
  • 2024上半年总结
    总结马上就要大四了啊,时间真的好快(完了,原本想了很多想说的,一下子不知道说什么了)先说说我对于计算机的心路历程吧,在上大学前,我憧憬的是能够专注于技术,然后能学到怎么进行攻击,怎么进行防护。但是上了大学了,我发现,幻想破灭了。前两年,我还是只保持着书呆子的状态,没碰过电脑,代码都不......