首页 > 其他分享 >hadoop常用命令小锦囊

hadoop常用命令小锦囊

时间:2023-06-20 23:02:50浏览次数:42  
标签:fs 处理 Hadoop hadoop 常用命令 锦囊 txt 数据

Hadoop是什么?

Hadoop是一个由Apache开发的开源分布式计算框架,它能够处理大规模数据并行处理任务,支持大规模数据存储和处理。Hadoop的核心组件包括分布式文件系统HDFS和分布式计算框架MapReduce,它们使得Hadoop可以在廉价的硬件上并行地处理大量数据。Hadoop还包括很多相关的项目和子项目,如Pig、Hive、HBase等,它们都是围绕Hadoop构建的数据处理和查询工具。Hadoop已经成为了大数据领域的标准技术之一,受到了很多企业和组织的广泛应用。

Hadoop的用途

Hadoop主要用于大规模数据的存储和处理,可以帮助用户快速地处理海量数据,提取有价值的信息。以下是Hadoop常见的用途:

  1. 数据存储:Hadoop提供了分布式文件系统HDFS,它可以把数据切分成多个块进行存储,并且每个数据块都会被多个节点进行备份,从而确保数据的高可靠性和可用性。
  2. 数据处理:Hadoop的分布式计算框架MapReduce可以灵活地处理大规模数据集。用户可以编写MapReduce程序,将数据分成更小的“分片”,并在多个计算节点上同时进行计算,从而大大缩短处理时间。
  3. 数据挖掘和分析:Hadoop生态系统中还包含了很多数据挖掘和分析工具,比如Pig、Hive、Spark、Mahout等。用户可以通过这些工具进行数据分析、数据挖掘和数据可视化等工作。
  4. 日志处理:Hadoop还可以用于实时日志的收集和分析。用户可以使用Hadoop存储和处理日志数据,并通过实时数据分析工具(如Storm、Flink等)快速反应异常情况。

总之,Hadoop可以帮助用户处理大规模数据,并提取有价值的信息,为用户提供更为准确的数据决策支持。

Hadoop命令小锦囊

命令

解释

start-dfs.sh

启动HDFS

stop-dfs.sh

结束HDFS

hdfs --daemon start namenode

启动NameNode(换成stop结束)

hdfs --daemon start datanode

启动DataNode(换成stop结束)

hdfs --daemon start secondarynamenode

启动SecondaryNameNode

(换成stop结束)

hadoop fs -put /home/a.txt /

或者

hadoop fs -copyFromLocal /home/a.txt /

上传文件

hadoop fs -get /a.txt /home

或者

hadoop fs -copyToLocal /a.txt /home

下载文件

hadoop fs -mkdir /txt

创建目录

hadoop fs -mkdir -p /video/movie

创建多级目录

hadoop fs -rm /b.txt

删除文件

hadoop fs -rmdir /txt

删除目录

hadoop fs -rm -r /video

递归删除目录

hadoop fs -cat /c.txt

查看文件内容

hadoop fs -tail /c.txt

查看文件最后1000个字节的数据

hadoop fs -mv /c.txt /a.txt

重命名或者剪切

hadoop fs -cp /txt/a.txt /a.txt

复制文件

hadoop fs -ls /

查看子文件或者子目录

hadoop fs -ls -R /

递归查看

hadoop fs -setrep 3 /a.txt

设置副本数量

hadoop fs -chmod 777 /a.txt

更改权限

hadoop fs -chown tom /a.txt

更改用户

hadoop fs -chgrp tedu /a.txt

更改用户组

 

标签:fs,处理,Hadoop,hadoop,常用命令,锦囊,txt,数据
From: https://blog.51cto.com/u_15964895/6525611

相关文章

  • Hadoop第一弹
    Hadoop是什么?Hadoop是一个由Apache开发的开源分布式计算框架,它能够处理大规模数据并行处理任务,支持大规模数据存储和处理。Hadoop的核心组件包括分布式文件系统HDFS和分布式计算框架MapReduce,它们使得Hadoop可以在廉价的硬件上并行地处理大量数据。Hadoop还包括很多相关的项目和子......
  • Hadoop学习之路
    Hadoop是什么?Hadoop是一个由Apache开发的开源分布式计算框架,它能够处理大规模数据并行处理任务,支持大规模数据存储和处理。Hadoop的核心组件包括分布式文件系统HDFS和分布式计算框架MapReduce,它们使得Hadoop可以在廉价的硬件上并行地处理大量数据。Hadoop还包括很多相关的项目和子......
  • 史上最全Hadoop面试题:尼恩大数据面试宝典专题1
    文章且持续更新,建议收藏起来,慢慢读!疯狂创客圈总目录博客园版为您奉上珍贵的学习资源:免费赠送:《尼恩Java面试宝典》持续更新+史上最全+面试必备2000页+面试必备+大厂必备+涨薪必备免费赠送:《尼恩技术圣经+高并发系列PDF》,帮你实现技术自由,完成职业升级,薪酬猛......
  • Docker 常用命令
    DOCKER常用命令根据镜像创建:sudodockercreate-itimg_name启动容器:sudodockerstartcon_name停止容器:dockerstopcon_name删除容器:dockerrmcon_name改名:dockerrenameold_namenew_name进入容器:sudodockerexec-itcon_namebash退出容器:exit查看运行中的容......
  • linux 常用命令
    目录统计文件和文件夹个数当前文件夹文件个数文件夹个数递归文件夹文件个数文件夹个数查看内存占用率统计文件夹占用大小显示磁盘信息Vim小应用回显terminal到vim大文件压缩服务器设置方面时间UbuntuCentOS压缩,解压,查看目录小工具进制转换crontab语法快速复制小文件软件卸载......
  • 02-Hadoop集群搭建
    1.集群配置1.1集群部署规划资源上有抢夺冲突的,尽量不要部署在一起;工作上需要互相配合的,尽量部署在一起。\Hadoop102Hadoop103Hadoop104HDFSNameNode&DataNodeDataNode2rdNameNode&DataNodeYARNNodeManagerResourceManager&NodeManagerNodeManag......
  • 01-Hadoop概述
    1.大数据1.1概述指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据主要解决,海量数据的采集、存储和分析计算问题。按顺序给出数据存储单位......
  • luffy项目 之 导出项目依赖、前台首页固定样式、git介绍和安装、git,github,gitee,gitlab
    目录一、导出项目依赖二、前台首页固定样式三、git介绍和安装四、git,github,gitee,gitlab的介绍五、git工作流程六、git常用命令七、git的回退到某个版本命令八、git忽略文件总结一、导出项目依赖#以后所有python项目的根路径下,都会有个requirements.txt【约定俗称的名字】,这里......
  • 04导出项目依赖,首页推荐课程前端,git介绍安装,git,github,gitee,gitlab,git使用流程,常用命令
    补充-字段类:DateTimeField的属性: -auto_now_add:这个字段新增的时候,可以不传,会以当前时间存入 -这样写,配置文件中:USE_TZ=False写成true,和fasle的区别 -auto_now:更新这条记录,会把当前时间存入 -update更新-对象.属......
  • Linux 常用命令
    一、Linux命令格式command[-options][parameter]说明:command:命令名[-options]:选项,可用来对命令进行控制,也可以省略[parameter]:传给命令的参数,可以是零个、一个或者多个注意:[]代表可选命令名、选项、参数之间有空......