• 2024-11-16关于HDFS路径文件夹名称的问题
    问题发现​ 最开始的需求:修改/origin_data/gmall/db目录下所有以inc结尾的文件夹里的文件夹(名称为2024-11-15)修改为2020-6-14问gpt写了个脚本:#!/bin/bash#遍历/origin_data/gmall/db下所有以"inc"结尾的文件夹fordirin$(hdfsdfs-ls/origin_data/gmall/db|grep
  • 2024-11-13【大数据技术基础 | 实验十】Hive实验:部署Hive
    文章目录一、实验目的二、实验要求三、实验原理四、实验环境五、实验内容和步骤(一)安装部署(二)配置HDFS(三)启动Hive六、实验结果(一)启动结果(二)Hive基本命令七、实验心得一、实验目的理解Hive存在的原因;理解Hive的工作原理;理解Hive的体系架构;并学会如何进行内嵌模式
  • 2024-11-06HDFS 与 Swift:分布式存储系统的特点与适用场景
    在当今大数据时代,分布式存储系统扮演着至关重要的角色。其中,HDFS(HadoopDistributedFileSystem)和Swift是两种广泛应用的分布式存储系统。它们各自具有独特的特点和适用场景,下面我们就来详细了解一下。一、HDFS的特点和适用场景1.特点高可靠性:HDFS通过数据冗余存储来保证
  • 2024-11-06hive基础知识分享(一)
    写在前面今天来学习hive部分的知识。Hive相关概念Hive是什么?ApacheHive是一个基于Hadoop的数据仓库工具,旨在通过SQL类似的查询语言(称为HiveQL)来实现对存储在HDFS(HadoopDistributedFileSystem)中的大规模数据的查询、分析和管理。它为数据分析提供了一种高层次的抽
  • 2024-11-04HDFS-HA搭建
    一、进行准备工作1、防火墙servicefirewalldstop2、时间同步yuminstallntpntpdate-us2c.time.edu.cn或者date-s201805033、免密钥(远程执行命令)在两个主节点生成密钥文件ssh-keygen-trsassh-copy-idipmaster-->master,node1,node2node1-->master,
  • 2024-11-04大数据导论及分布式存储HadoopHDFS入门
    思维导图数据导论数据是什么?进入21世纪,我们的生活就迈入了"数据时代"作为21世纪的新青年,"数据"一词经常出现。数据无时无刻的在影响着我们的现实生活什么是数据?数据又如何影响现实生活?数据:一种可以被鉴别的对客观事件进行记录的符号。简单来说就是:对人类的行为
  • 2024-11-04头歌Flume 第2关 采集目录下所有新文件到Hdfs
    #配置source,channel,sink名称a1.sources=source1a1.sinks=sink1a1.channels=channel1#配置sourcea1.sources.source1.type=spooldira1.sources.source1.spoolDir=/opt/flume/data##定义文件上传完后的后缀,默认是.COMPLETEDa1.sources.source1.
  • 2024-11-03HDFS的读写流程
    HDFS的读写流程写数据1、宏观1、客户端发起请求到NameNode,调用Hadoop中的一个类叫做DistributedFileSystem创建对象,再利用这个对象通过RPC通信协议调用NameNode去创建一个没有blocks关联的新文件。在创建之前NameNode会做各种校验:比如该文件是否存在,客户端有无权限去创建...
  • 2024-11-03Hadoop分布式文件系统架构和设计
    Hadoop分布式文件系统架构和设计引言Hadoop分布式文件系统(HDFS)是一个设计用于在普通硬件上运行的分布式文件系统。它与现有的分布式文件系统有许多相似之处。然而,HDFS与其他分布式文件系统的差异是显著的。HDFS具有高度的容错能力,并且设计用于在低成本硬件上部署。HD
  • 2024-11-02Flink历史服务器History Server部署:创建hdfs存储目录、启动和停止
    运行Flinkjob的集群一旦停止,只能去yarn或本地磁盘上查看日志,不再可以查看作业挂掉之前的运行的WebUI,很难清楚知道作业在挂的那一刻到底发生了什么。如果我们还没有Metrics监控的话,那么完全就只能通过日志去分析和定位问题了,所以如果能还原之前的WebUI,我们可以通
  • 2024-11-01Hadoop基础知识整理
    一、HDFS1.HDFS概述Hadoop分布式系统框架中,首要的基础功能就是文件系统,在Hadoop中使用FileSystem这个抽象类来表示我们的文件系统,这个抽象类下面有很多子实现类,究竟使用哪一种,需要看我们具体的实现类,在我们实际工作中,用到的最多的就是HDFS(分布式文件系统)以及LocalFileSy
  • 2024-11-01Hadoop-MapReduce任务三种运行开发模式
    1、local模式数据在本地,代码也在本地,使用本机的电脑的资源运行我们的MR输入和输出路径指的都是本地路径,运行时耗费的资源也是本地资源。2、local模式2数据在hdfs上,代码在本地,使用本机的电脑的资源运行我们的MRSystem.setProperty("HADOOP_USER_NAME","root");
  • 2024-10-31014_Flume
    1Flume定义什么是Flume。流式架构Flume的主要作用​ 实时读取服务器本地硬盘的数据,将数据写入到HDFS中。Flume的优点​ 灵活​ 缓冲区的作用,减轻hdfs的压力。重平衡Flume组成架构2安装Flume1:拷贝使用版本apache-flume-1.7.0-bin.tar.gz2:改名将apache-flume-1.7.0-b
  • 2024-10-299.12
    周四今天没课做一下作业一.单选题(共10题,20分)1. (单选题,2分)‍第三次信息化浪潮的标志是:A. 个人电脑的普及B. 虚拟现实技术的普及C. 云计算、大数据、物联网技术的普及D. 互联网的普及我的答案: C:云计算、大数据、物联网技术的普及;正确答案: C:云计算、大
  • 2024-10-26架构设计(17)大数据框架Hadoop与基础架构CDH
    HadoopHadoop是一个开源的大数据处理框架,由Apache软件基金会开发。它主要用于存储和处理大规模数据集,能够在分布式计算环境中有效工作。以下是Hadoop的详细介绍,包括其核心组件、架构、特性和应用场景。1.Hadoop的架构Hadoop的架构分为两个主要部分:Hadoop分布式文件系
  • 2024-10-23Hive表 Hadoop HBase 初了解
    生态圈HiveHive是基于Hadoop的一个数据分析工具,没有数据存储能力,只有数据使用能力,是将结构化的数据文件映射为一张数据库表,通过MapReduce实现,本质是将查询语句转换为MapReduce的任务进行数据访问,提供类SQL查询功能。搭建Hive数仓时,将相关常用指令如select,from,where和函数
  • 2024-10-22HDFS 重要机制之 checkpoint
    核心概念hdfscheckpoint机制对于namenode元数据的保护至关重要,是否正常完成检查点是评估hdfs集群健康度和风险的重要指标editslog:对hdfs操作的事务记录,类似于wal,editlog文件以edits_开头,后面跟一个txid范围段,并且多个editlog之间首尾相连,正在使用的editl
  • 2024-10-223. 从0到1搭建DeltaLake大数据平台 - 安装配置Hadoop
    要在你的Spark集群上安装和配置HDFS(Hadoop分布式文件系统),可以按照以下步骤进行:1.安装Hadoop1.1下载Hadoop选择一个合适的Hadoop版本(例如Hadoop3.x),下载并解压缩:wgethttps://downloads.apache.org/hadoop/common/hadoop-x.y.z/hadoop-x.y.z.tar.gztar-xzfhadoo
  • 2024-10-21hadoop_hdfs详解
    HDFS秒懂HDFS定义HDFS优缺点优点缺点HDFS组成架构NameNodeDataNodeSecondaryNameNodeClientNameNode工作机制元数据的存储启动流程工作流程SecondaryNameNode工作机制checkpoint工作流程DataNode工作机制工作流程数据完整性文件块大小块太小的缺点块太大的缺点文
  • 2024-10-21编写HiveQL语句实现WordCount算法
    确保启动hadooop和hive  创建测试文件echo"helloworld">file1.txtecho"hellohadoop">file2.txt#创建HDFS上的/input目录hdfsdfs-mkdir-p/input#将本地文件上传到HDFShdfsdfs-putfile1.txt/input/hdfsdfs-putfile2.txt/input/打开Hiveshell
  • 2024-10-19hdfs的分布式存储原理
    1.想要把一个大文件存储到hdfs,首先进行划分,将文件划分为一个一个的block,这个block默认为512MB,可修改.2.备份(也就是副本)将文件划分后,一个block丢失则原来的大文件没有用了.为了确保文件的安全性,hdfs提供了副本,也就是备份,将文件划分之后hdfs默认将每一个block备份到