首页 > 其他分享 >【博学谷学习记录】超强总结,用心分享 | HDFS

【博学谷学习记录】超强总结,用心分享 | HDFS

时间:2023-06-01 10:26:01浏览次数:36  
标签:hdfs 存储 HDFS 博学 路径 文件 超强 数据

【博学谷IT技术支持】

HDFS

HDFS又称分布式系统,采用了主从(Master/Slave)结构模型,一个HDFS集群是由一个NameNode和若干个DataNode组成的。其中NameNode作为主服务器,管理文件系统的命名空间和客户端对文件的访问操作;集群中的DataNode管理存储的数据。

特点

  • 海量数据存储: 可横向扩展,其存储的文件可以支持PB级别或更高级别的数据存储。
  • 高容错性: 副本机制保存多个副本,丢失后自动恢复。当几圈新增节点之后,namenode可以感知,进行负载均衡,将数据分发和备份数据均衡到新的节点上。
  • 商用硬件:它是设计运行在商用硬件(廉价商业硬件)的集群上的。
  • 大文件存储: HDFS采用数据块的方式存储数据,将数据物理切分成多个小的数据块。所以再大的数据,切分后,大数据变成了很多小数据。用户读取时,重新将多个小数据块拼接起来。

特性

  • 主从架构:HDFS采用Master/slave架构,一个HDFS集群有一个NameNode和多个DataNode组成,NameNode是HDFS的主节点,DataNode是HDFS的从节点
  • 分块机制: HDFS文件在物理上是分块存储的,默认128M。可通过hdfs-site.xml设置dsf.blocksize
  • 副本机制:HDFS文件的所有block都有副本,默认是3,可通过文件配置或命令改变
  • nameSpace: HDFS支持传统的层次性文件组织结构。用户可以创建,删除,移动或重命名文件,Namenode负责维护和记录namespace名称空间。
  • 元数据管理: namenode管理的元数据分别有文件自身属性信息,和位置映射信息
  • 数据块存储: block存储在dataNode节点,每个block可以在多个datanode上存储。

shell命令

HDFS除了可以页面操作外,还可以用命令控制

  • -ls 路径:查看当前路径的目录结构
  • -ls -R 路径: 递归查询目录结构
  • -du 路径: 查看目录文件的大小
  • -count 路径:统计文件夹数量
  • -cp 源路径 目的路径: 复制
  • -rm 路径: 删除目录
  • -rmr 路径: 递归删除
  • -put 多个文件 路径: 上传路径
  • -copyFromLocal 多个linux文件 hdfs路径: 从本地复制
  • -moveFromLocal 多个linux文件 hdfs路径: 从本地移动
  • -getmerge 源地址 linux路径: 合并到本地
  • -cat 路径: 查看文件内容
  • -text:查看文件内容
  • -copyToLocal hdfs源路径 linux目的路径
  • -moveToLocal hdfs源路径 linux目的路径: 从本地移动
  • -mkdir hdfs路径 : 创建空白文件夹
  • -touchz hdfs路径: 创建空白文件夹
  • -stat 路径:显示文件统计信息
  • -tail 文件: 查看文件尾部信息
  • -chmod -R 权限 路径: 修改权限
  • -chown -R 属主:属组 路径: 修改属主
  • -chgrp -R 属组 路径: 修改属组

安全模式

安全模式是hadoop的一种保护机制,用于保证集群中的数据块的安全性。当集群启动的时候,会首先进入安全模式。当系统处于安全模式时会检查数据块的完整性。

在安全模式状态下,文件系统只接受读数据请求,而不接受删除、修改等变更请求

hdfs  dfsadmin -safemode  get #查看安全模式状态
hdfs  dfsadmin -safemode  enter #进入安全模式
hdfs  dfsadmin -safemode  leave #离开安全模式

标签:hdfs,存储,HDFS,博学,路径,文件,超强,数据
From: https://www.cnblogs.com/neilniu/p/17448182.html

相关文章

  • 【博学谷学习记录】超强总结,用心分享 | HDFS读写流程
    【博学谷IT技术支持】HDFS写流程上图是HDFS的写流程图主要步骤如下client向服务器发起上传请求(RPC)NameNode接受到请求之后会进行权限检查(目录是否存在权限,目录是否存在)NameNode会给client反馈是否可以上传标记Client会将要上传的文件安装设置的Block大小进行切片Clie......
  • 【博学谷学习记录】超强总结,用心分享 | Hadoop
    【博学谷IT技术支持】一、介绍概念Apache™Hadoop®项目为可靠、可扩展的分布式计算开发开源软件。允许简单的编程模型在大量计算机集群上对大型数据集群进行分布式处理。项目包含以下模块:Common:支持其他hadoop模块的通用实用程序HDFS(分布式文件系统):可提供对应用程......
  • 【博学谷学习记录】超强总结,用心分享 | shell基础
    【博学谷IT技术支持】一、shell简介shell是一种编写脚本程序的语言,常用于linux,shell是解释型语言,相对于其他的语言更加好学,它的语法和结构也比较简单通过编写脚本,能显著的提高开发的效率二、shell的基础知识每个sh文件都有这个开头,是指此脚本使用/bin/bash来解释执行#!/......
  • 【博学谷学习记录】超强总结,用心分享 | Zookeeper
    【博学谷IT技术支持】一、Zookeeper基础知识Zookeeper地址:https://zookeeper.apache.org/介绍Zookeeper是一个开源的分布式协调服务,用来给分布式应用提供一致性服务。Zookeeper本质是一个分布式的小文件存储系统。是Chubby一个开源的实现,是Hadoop和Hbase的重要组件。特性......
  • 博学谷学习记录】超强总结,用心分享 | 发送邮件-yagmail
    【博学谷IT技术支持】一、介绍yagmail是一个GMAIL/SMTP客户端,旨在使发送电子邮件尽可能简单。在项目中或多或少都需要使用的它,比如监控,比如用户提示等。二、项目使用使用流程首先要安装yagmail其次链接邮箱服务器,这里要设置发件人的邮箱,发件人的邮箱授权码,发件服务器等参......
  • 【博学谷学习记录】超强总结,用心分享 | Django简易开发指南
    【博学谷IT技术支持】一、介绍Django是python语言写的开源web开发框架,遵循MVC设计。Django的主要目的是简便、快捷的开发数据库驱动的网站。但是Django有一个专有名词:MVTM:Model,负责数据处理,内嵌了ORM框架V:View,接收HttpRequest,业务处理,返回HttpResponseT:Template,负责......
  • 【博学谷学习记录】超强总结,用心分享 | hive分区与分桶的区别
    【博学谷IT技术支持】公众号:积雷山摩云洞,欢迎关注!!!概念分区表:将数据分散到多个子目录中,在执行查询是,可以根据条件加快查询效率分桶表:是相对分区更细的颗粒度划分,分桶表是将表查分到不同的文件中,根据数据表某列的hash值进行分区,对某列数据分区就是对该列属性值的hash值取模,......
  • 【博学谷学习记录】超强总结,用心分享 | yarn的执行流程
    【博学谷IT技术支持】yarn的组成部分hadoop是由Common、HDFS、YARN、MapReduce等核心模块组成,yarn负责解决资源调度问题,这里介绍下yarn的业务执行流程。yarn是Master/Slave结构,主要包含ResourceManage、NodeManager、ApplicationMaster和Conainer等组件。ResourceManager......
  • 【博学谷学习记录】超强总结,用心分享 | 系统资源监控-psutil
    【博学谷IT技术支持】一、介绍psutil(python系统和进程实用程序)是一个跨平台库,用于在Python中检索有关正在运行的进程和系统利用率(CPU、内存、磁盘、网络、传感器)的信息。它主要用于系统监控、分析、限制进程资源和管理正在运行的进程。二、相关api获取CPU信息cpu_count:......
  • 【博学谷学习记录】超强总结,用心分享 | jupyter常用功能
    jupyter安装文档地址https://jupyter.org/installpipinstallnotebook启动命令jupyternotebookjupyter-themes修改主题安装主题https://github.com/dunovank/jupyter-themesgithub地址pipinstall--upgradejupyterthemes查看所有主题jt-l修改主题jt-tg......