• 2024-08-17每周总结
    学习HDFS(HadoopDistributedFileSystem)时,需要从架构原理、数据存储机制、操作实践以及性能优化等多个方面进行系统掌握。以下是学习HDFS时的重点内容:1.HDFS架构NameNode:负责管理文件系统的元数据(如文件名、目录结构、文件与数据块的映射、数据块的位置等)。了解NameNode的作用
  • 2024-08-12Hadoop 中的大数据技术:HDFS(2)
    Hadoop中的大数据技术:HDFS(2)续上一篇Hadoop中的大数据技术:HDFS(1)大家好!在为您带来精彩的技术干货之前,先给您推荐一个我精心运营的公众号[大数据深度洞察]。在这里,您将获取更多独家的技术分享、实用案例以及行业前沿资讯。亲爱的读者们,当您准备开启这篇充满价值的技术文章
  • 2024-07-30HDFS集群
    一、上传hadoop安装包到hdp-01集群任一节点(master) tar-zxvf软件包-C指定安装文件夹二、修改配置文件1.指定Hadoop的默认文件系统为hdfs2.指定hdfs的namenode节点为哪台机器3.指定namenode软件存储元数据的本地目录4.指定datanode软件存放文件块的本地目录三、进入
  • 2024-07-28生产环境CDH集群主机加内存导致系统无法启动,重装系统后CDH数据修复的过程
    原因:因为主机扩容内存重启以后发现有七台服务器无法进入系统,重启之前Centos7的启动项被修改过导致无法重启,只能重新安装操作系统,但是HDFS的数据是保存到data盘中.系统OS:CentOSLinuxrelease7.6.1810(Core)CDH版本:6.2.1重新安装操作系统的服务器10.170.12.43db-p
  • 2024-07-20HDFS概述
    Hadoop的分布式文件系统hadoop的三大核心子项目(HDFS,YARN,MapReduce)之一,用来解决海量数据存储问题优点:海量数据存储,典型文件大小GB~TB,百万以上文件数量,PB以上数据规模(文件切分分散存储,128M)高容错(多副本策略),高可用(HA,安全模式),高可扩展(10K节点规模)构建成本低(构建在廉价商用机器
  • 2024-07-13hadoop学习
    作为一个开源框架,Hadoop让大数据处理变得更加简便而高效。学习Hadoop对于处理大规模数据集是一个非常有价值的技能。Hadoop不仅仅是一个技术框架,更是一种处理大数据的思维方式。它通过将数据划分为多个小块,并在集群中的多个节点上并行处理,从而实现了对海量数据的快速处理。Hadoop
  • 2024-07-13学习hadoop第一周
    刚开始接触Hadoop,我深感这一大数据处理框架的复杂与强大。Hadoop以其分布式存储和处理海量数据的能力,在业界享有盛誉,成为大数据领域的核心技术之一。在学习过程中,我首先遇到了Hadoop的架构理解难题。Hadoop采用主从架构,包括HDFS、YARN等核心组件,每个组件都有其独特的功能和相互之
  • 2024-07-10一文了解HDFS
    1.简介1.1.概述HDFS是基于流数据访问模式的分布式文件系统,其设计建立在“一次写入、多次读取”的基础上,提供高吞吐量、高容错性的数据访问,能很好地解决海量数据的存储问题。流数据:是指数千个数据源持续生成的数据,可以理解为随时间延续而无限增长的动态数据集合
  • 2024-05-29Hadoop HDFS DataNode动态扩容机制
    胡弦,视频号2023年度优秀创作者,互联网大厂P8技术专家,SpringCloudAlibaba微服务架构实战派(上下册)和RocketMQ消息中间件实战派(上下册)的作者,资深架构师,技术负责人,极客时间训练营讲师,四维口袋KVP最具价值技术专家,技术领域专家团成员,2021电子工业出版社年度优秀作者,获得2023电
  • 2024-05-29Hadoop HDFS DataNode存储高性能,高可用和高并发设计
    胡弦,视频号2023年度优秀创作者,互联网大厂P8技术专家,SpringCloudAlibaba微服务架构实战派(上下册)和RocketMQ消息中间件实战派(上下册)的作者,资深架构师,技术负责人,极客时间训练营讲师,四维口袋KVP最具价值技术专家,技术领域专家团成员,2021电子工业出版社年度优秀作者,获得2023电
  • 2024-05-28数据是如何写入到Hadoop HDFS中的?
    胡弦,视频号2023年度优秀创作者,互联网大厂P8技术专家,SpringCloudAlibaba微服务架构实战派(上下册)和RocketMQ消息中间件实战派(上下册)的作者,资深架构师,技术负责人,极客时间训练营讲师,四维口袋KVP最具价值技术专家,技术领域专家团成员,2021电子工业出版社年度优秀作者,获得2023电
  • 2024-05-224.17思凡特面试
    hive语法重视hdfs调优怎么编写清洗怎么写支持压缩的map中间结果一些误区  datanode接受数据是一个块一个块往上传,后面两个节点是依次调用的元数据得在namenode内存中加载,而非仅存在磁盘上Fsimage保存目录和iNode,eidts记录更新操作两个并不是一致的,第一
  • 2024-05-15HDFS写数据宏观流程
    HDFS写数据宏观流程客户端使用rpc通信框架向NameNode发送请求,NameNode接收并处理用户请求,同时检测用户是否拥有上传文件操作的权限。磁盘空间是否可用,路径是否存在,NameNode会针对这个文件创建一个空的Entry对象,并返回成功的状态给DFS,如果DFS接收到成功的状态,会创建FSDataOutPut
  • 2024-04-10hadoop篇——nameNode DataNode SecondaryNameNode的作用,以及如何查看操作日志
    集群下的hadoop(112主节点113,114从节点)如果112挂了,数据以及操作日志会丢失无法恢复,又称单点故障。再启动start-all.shhadoop后,主节点会产生name以及secondary两个文件 所在地址在  /root/training/hadoop-2.7.3/tmp/dfs其中name对应的是NameNode节点:接受客户端的请
  • 2024-04-09解决hadoop的namenode和datanode结点启动不起来的问题
    首先介绍一下本人的情况:我的虚拟机最开始是可以启动的,后来删除了主节点,重新创建了一个主节点,并保持相同的主机名,并把从结点上的hadoop打包发到了主节点(前提已经弄好ssh和相关映射)tar-zcf~/hadoop.master.tar.gz./hadoop//将hadoop目录下的内容打包复制到~/hadoop.master.ta
  • 2024-04-04windos上安装hadoop并将文件上传至HDFS的操作
    参考1参考21.下载并安装hadoop下载解压hadoop:https://archive.apache.org/dist/hadoop/common/hadoop-2.7.1/百度网盘:安装包和配置文件链接:(https://pan.baidu.com/s/1SyORDDF5hxmm5-dZPuHNhA?pwd=1234)注意:我使用的是2.7.1版本,官网的Hadoop不支持Windows系统,需要修改
  • 2024-03-26HDFS原理介绍
    1.分布式分布式存储解决了单机存储容量有限的问题,且带来了比较高的性能提升.例如:3台服务器,就是3倍的传输效率,读写效率...横向扩展=加机器, 纵向扩展=加配置(硬件)2.架构  namenode:主节点.    1.管理整个HDFS集群.    2.维护和管
  • 2024-03-18HDFS分布式文件系统
    HDFS分布式文件系统一、HDFS概念HDFS介绍HDFS是HadoopDistributeFileSystem的简称,意为:Hadoop分布式文件系统。是Hadoop核心组件之一,作为最底层的分布式存储服务而存在。分布式文件系统解决的问题就是大数据存储。它们是横跨在多台计算机上的存储系统。分布式文件系统在大
  • 2024-03-12HDFS读数据流程、NN和2NN工作机制、DataNode工作机制、数据完整性
    HDFS读数据流程    事件描述:客户端要下载一个200m的数据文件,hdfs是如何读取的。   两个对象:一个客户端、一个集群   流程:       1.客户端创建一个分布式文件系统(DistributedFileSystem),向集群NameNode请求下载文件。       
  • 2024-01-16Hadoop组件架构
    一、HDFS1.HDFS架构HDFS是一个主/从(Master/Slave)体系结构,由三部分组成:NameNode和DataNode以及SecondaryNamenode:NameNode负责管理整个文件系统的元数据,比如文件名、文件目录结构、文件属性(生成时间、block副本数、权限)、block大小以及组成文件的block信息。DataNode负责文件
  • 2024-01-14深入理解 Hadoop (一)网络通信架构与源码浅析
    HadoopRPC网络通信框架原理剖析YARNRPC服务端的工作大致可以分为四个阶段:第一个阶段:Server初始化和启动在Server初始化的时候,会初始化Listener组件(内部启动了一个AcceptSelector绑定了相应的端口,用来处理客户端的OP_ACCEPT事件),内部还初始化了一组Reader线程,其
  • 2023-12-25hdfs报错:There are 0 datanode(s) running and 0 node(s) are excluded in this operation
    namenode的日志还是打印Thereare0datanode(s)runningand0node(s)areexcludedinthisoperation.吗 报错信息如下所示。其中,【X】是当前正在运行的DataNode数量,【Y】是被排除在此操作之外的DataNode数量。问题原因该问题表示在当前的集群状态下,因为无法满足文件的
  • 2023-12-24IoTDB服务安装教程-集群版
    文章目录官方说明文档下载地址服务安装节点服务分配修改配置文件修改堆内存启动集群启动第一个节点启动其他两个节点的ConfigNode和DataNode检验集群状态修改集群密码【附录】清理环境集群扩容修改配置扩容验证扩容结果集群缩容缩容一个ConfigNode缩容一个DataNode验证缩容结
  • 2023-12-07框架运行出错
    定位错误的进程(我们的例子是Datanode)查看错误进程的日志(去DN挂掉的节点,找到其日志,例子里面我们查看hadoop102的DN日志)定位运行日志位置日志的位置就在Hadoop家目录下logs文件夹里面查看日志tail-n100/opt/module/hadoop-3.1.3/logs/hadoop-atguigu-datanode-hadoo
  • 2023-11-30mycat实际应用
    基础概念  服务器上发布mycat服务,主要涉及的文件,rule.xml,schema.xml,server.xml Server.xml保存了mycat需要的所有的系统配置信息,代码映射为SystemConfig类 system标签 存放系统配置,直接下载原有的就可以了user标签属性name,数据库登录名<propertyname="password">