• 2024-09-29Hive数仓操作(一)
    Hive介绍Hive是一个基于Hadoop的数据仓库工具,旨在简化大规模数据集的管理和分析。它将结构化数据文件映射为表,并提供类似SQL的查询功能。Hive的数据存储在Hadoop分布式文件系统(HDFS)中,使用Hive查询语言(HQL)进行数据处理。1.Hive的本质:HQL转化为MapReduce数据
  • 2024-09-29九月十一日
    3. 使用MapReduce实现词频统计概述MapReduce是Hadoop用于处理大规模数据的核心编程模型。本文将通过MapReduce代码实现简单的词频统计任务。内容MapReduce工作原理:Mapper和ReducerHadoop项目结构MapReduce程序代码代码示例public class WordCount{ publ
  • 2024-09-26Hadoop简介
    一、什么是HadoopHadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。 Hadoop实现了一个分布式文件系统(HadoopDistributedFileSystem),简称HDFS。HDFS有高容错性的特点,并且设
  • 2024-09-24【大数据】MapReduce的“内存增强版”——Spark
    【大数据】MapReduce的“内存增强版”——Spark文章脉络Spark架构Spark-coreSparkConf和SparkContextRDDSpark集群Spark-sql在大数据时代,数据处理和分析成为企业竞争的重要手段。Hadoop作为大数据处理的基石,其核心组件MapReduce在众多场景中发挥了巨大作用。但是
  • 2024-09-23Spark学习(一):概述
    Spark学习(一):概述上周六面试腾讯时被问到是否了解Spark,彼时对Spark毫无接触故答不了解,面试结束后了解到Spark与MapReduce渊源颇深,去年夏天学习MIT6.824分布式系统设计时曾深入学习过MapReduce(分布式学习:MapReduce-pinoky-博客园(cnblogs.com))故对Spark产生兴趣,由此开始学习
  • 2024-09-21Mapreduce中的Mapper&reducer
      分布式文件系统中的mapreduce是Hadoop的基础数据存储方式。数据的存取在计算机中以以静态的状态存在。静态区和常量区以及本地方法栈和程序计数器都是高效的计算机内存。堆heap的设计实现是面向对象编程的数据体现模型。现代的分布式文件系统设计服务于J2EE的企业级版本是Ha
  • 2024-09-21【智能大数据分析 | 实验一】MapReduce实验:单词计数
    【作者主页】FrancekChen【专栏介绍】⌈⌈⌈智能大数据分析⌋
  • 2024-09-19Hadoop(十九)MapReduce OutputFormat 数据压缩
    OutputFormatOutputFormat是MapReduce输出的基类,所有实现MapReduce输出都实现了OutputFormat接口几种常见的OutputFormat实现类:NullOutputFormat、MapFileOutputFormat、TextOutputFormat等自定义OutputFormat应用场景:输出数据到MySQL/HBase/Elasticsearch等存储框架中步
  • 2024-09-19Hadoop(十八)MapReduce Shuffle机制
    MapReduce工作流程上面的流程是整个MapReduce最全工作流程,但是Shuffle过程只是从第7步开始到第16步结束,具体Shuffle过程详解,如下:MapTask收集map()方法输出的kv对,放到内存缓冲区中从内存缓冲区不断溢出本地磁盘文件,可能会溢出多个文件多个溢出文件会被合并成大的溢出文件在
  • 2024-09-19Hadoop(十七)MapReduce 切片机制 InputFormat
    切片与MapTask并行度决定机制MapTask的并行度决定Map阶段的任务处理并发度,进而影响到整个Job的处理速度数据块:Block是HDFS物理上把数据分成一块一块,数据块是HDFS存储数据单位数据切片:数据切片只是在逻辑上对输入进行分片,并不会在磁盘上将其切分成片进行存储,数据切片是MapReduc
  • 2024-09-18Hadoop(十四)MapReduce概述
    一、定义MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上二、优缺点优点描述易于编程它简单的
  • 2024-09-13Hadoop(七)集群搭建过程中遇到的问题及解决方法
    遇到的问题及解决方法1、Hadoop启动正常,但是进不了web端hadoop102:9870解决方法:查看自己的hosts文件(C:\Windows\System32\drivers\etc),发现没有配置相关网点,添加如下内容(不需要在前面加'#'):192.168.10.100hadoop100192.168.10.101hadoop101192.168.10.102hadoop102192.168.1
  • 2024-09-13问答
    *Hadoop有哪些组件,分别介绍一下HadoopCommon:为其他Hadoop模块提供基础设施,包括文件系统、远程过程调用(RPC)和序列化机制。HadoopDistributedFileSystem(HDFS):分布式文件系统,可以存储大量数据,并且提供高吞吐量的数据访问。HadoopYARN(YetAnotherResourceNegotiator
  • 2024-09-12Hadoop
    ApacheHadoop是一个开源的分布式计算框架,主要用于处理海量数据集。它具有高度的可扩展性、容错性和高效的分布式存储与计算能力。Hadoop核心由四个主要模块组成,分别是HDFS(分布式文件系统)、MapReduce(分布式计算框架)、YARN(资源管理)和HadoopCommon(公共工具和库)。1.HDFS
  • 2024-09-12hadoop之MapReduce
    MapReduce的概念Hadoop的三大组件:HDFS、Yarn、MapReduce。HDFS:解决的是分布式存储的问题。MapReduce:解决的是计算问题。Yarn:计算的时候,使用的资源如何协调(Windows操作系统)mapReduce的优缺点:优点1、易于编程   代码写起来有固定的格式,编写难度非常的小,号称是
  • 2024-09-10MIT6.824 课程-MapReduce
    MapReduce:在大型集群上简化数据处理概要MapReduce是一种编程模型,它是一种用于处理和生成大型数据集的实现。用户通过指定一个用来处理键值对(Key/Value)的map函数来生成一个中间键值对集合。然后,再指定一个reduce函数,它用来合并所有的具有相同中间key的中间value。现实生活中
  • 2024-09-09第七周总结
    这周,我开始了对Hadoop的学习之旅。Hadoop是一个开源软件框架,用于分布式存储和处理大型数据集,它以一种可靠、可扩展且高效的方式工作。起初,我对它的了解仅仅停留在这是一个能够处理大数据的工具上,但随着深入学习,我发现它远不止如此。周一的时候,我首先从理解Hadoop的基本概念开始,包
  • 2024-09-09Hadoop(二)Hadoop概述
    概述Hadoop是什么Hadoop是一个由Apache基金会所开发的分布式系统基础架构分布式系统:多台服务器共同完成一个任务(例如多台计算机共同存储一份大数据)主要解决:海量数据的存储和海量数据的分析计算问题广义上来说,Hadoop通常是指一个更广泛的概念——Hadoop生态圈Hadoop的优势
  • 2024-09-06spark为什么比mapreduce快?
    spark为什么比mapreduce快?首先澄清几个误区:1:两者都是基于内存计算的,任何计算框架都肯定是基于内存的,所以网上说的spark是基于内存计算所以快,显然是错误的2;DAG计算模型减少的是磁盘I/O次数(相比于mapreduce计算模型而言),而不是shuffle次数,因为shuffle是根据数据重组的次数而定,所以shu
  • 2024-09-03Hadoop 第七周总结
    Hadoop第七周总结在第七周的学习中,我深入探讨了Hadoop生态系统中的几个关键组成部分,重点包括HadoopMapReduce、HDFS(HadoopDistributedFileSystem)、YARN(YetAnotherResourceNegotiator),以及Hadoop的调优策略。以下是本周学习的主要内容和总结:1.HadoopMapReduceMapReduce
  • 2024-08-31大数据处理从零开始————1.Hadoop介绍
    1.大数据时代背景1.1大数据时代到来    在微信上,随手点的一个赞;在百度上,随手输入的搜素关键词;在健康记录应用上,每天所产生的微信步数这些都是数据。我们每人每天都在产生大量数据。人类近些年所产生的数据比过去几千年所产生数据多得多,所以如何让这些储存数据,如何
  • 2024-08-28暑假第一周
    学习Hadoop数据库完成Hadoop基本概念学习本周我主要学习了Hadoop的基本概念和架构,涵盖了Hadoop的核心组件,如HDFS(HadoopDistributedFileSystem)和MapReduce。通过阅读官方文档、在线教程和相关书籍,我掌握了Hadoop的工作原理和主要功能。我还观看了几个教学视频,深入理解了HDFS
  • 2024-08-251.MapReduce论文翻译
    MapReduce:SimplifiedDataProcessingonLargeClusters(MapReduce:简化大型集群下的数据处理)作者:JeffreyDeanandSanjayGhemawatAbstract(摘要)MapReduce是一个关于实施大型数据集处理和生成的编程模型。用户指定一个用于处理k/v对,生成中间态k/v集合的映射(map)函数,以及
  • 2024-08-252.MapReduce论文总结
    一.介绍很多业务逻辑很简单,主要难点是数据量太大,可使用分布式处理提高速度。传统分布式程序,计算逻辑和分布式任务分发、故障恢复混在一起,原本简单的计算逻辑变得模糊不清,难以处理。MapReduce将两者分离,任务分发,容错,恢复等逻辑由模型完成,程序员只需要专注计算逻辑。大大了简化
  • 2024-08-25Lab 1: MapReduce
    Lab1:MapReduce目标:实现一个MapReduce系统。其中包含:worker进程:调用Map和Reduce程序并处理文件的读写coordinator进程:负责将任务分发给worker并处理失败的worker。(注:本Lab使用coordinator而不是论文的master进行管理。)Gettingstartedsrc/main/mrsequential.go中提供