首页 > 其他分享 >Hadoop学习之路

Hadoop学习之路

时间:2023-06-20 23:02:10浏览次数:37  
标签:fs 处理 Hadoop hadoop 学习 txt 数据

Hadoop是什么?

Hadoop是一个由Apache开发的开源分布式计算框架,它能够处理大规模数据并行处理任务,支持大规模数据存储和处理。Hadoop的核心组件包括分布式文件系统HDFS和分布式计算框架MapReduce,它们使得Hadoop可以在廉价的硬件上并行地处理大量数据。Hadoop还包括很多相关的项目和子项目,如Pig、Hive、HBase等,它们都是围绕Hadoop构建的数据处理和查询工具。Hadoop已经成为了大数据领域的标准技术之一,受到了很多企业和组织的广泛应用。

Hadoop的用途

Hadoop主要用于大规模数据的存储和处理,可以帮助用户快速地处理海量数据,提取有价值的信息。以下是Hadoop常见的用途:

  1. 数据存储:Hadoop提供了分布式文件系统HDFS,它可以把数据切分成多个块进行存储,并且每个数据块都会被多个节点进行备份,从而确保数据的高可靠性和可用性。
  2. 数据处理:Hadoop的分布式计算框架MapReduce可以灵活地处理大规模数据集。用户可以编写MapReduce程序,将数据分成更小的“分片”,并在多个计算节点上同时进行计算,从而大大缩短处理时间。
  3. 数据挖掘和分析:Hadoop生态系统中还包含了很多数据挖掘和分析工具,比如Pig、Hive、Spark、Mahout等。用户可以通过这些工具进行数据分析、数据挖掘和数据可视化等工作。
  4. 日志处理:Hadoop还可以用于实时日志的收集和分析。用户可以使用Hadoop存储和处理日志数据,并通过实时数据分析工具(如Storm、Flink等)快速反应异常情况。

总之,Hadoop可以帮助用户处理大规模数据,并提取有价值的信息,为用户提供更为准确的数据决策支持。

Hadoop命令小锦囊

命令

解释

start-dfs.sh

启动HDFS

stop-dfs.sh

结束HDFS

hdfs --daemon start namenode

启动NameNode(换成stop结束)

hdfs --daemon start datanode

启动DataNode(换成stop结束)

hdfs --daemon start secondarynamenode

启动SecondaryNameNode

(换成stop结束)

hadoop fs -put /home/a.txt /

或者

hadoop fs -copyFromLocal /home/a.txt /

上传文件

hadoop fs -get /a.txt /home

或者

hadoop fs -copyToLocal /a.txt /home

下载文件

hadoop fs -mkdir /txt

创建目录

hadoop fs -mkdir -p /video/movie

创建多级目录

hadoop fs -rm /b.txt

删除文件

hadoop fs -rmdir /txt

删除目录

hadoop fs -rm -r /video

递归删除目录

hadoop fs -cat /c.txt

查看文件内容

hadoop fs -tail /c.txt

查看文件最后1000个字节的数据

hadoop fs -mv /c.txt /a.txt

重命名或者剪切

hadoop fs -cp /txt/a.txt /a.txt

复制文件

hadoop fs -ls /

查看子文件或者子目录

hadoop fs -ls -R /

递归查看

hadoop fs -setrep 3 /a.txt

设置副本数量

hadoop fs -chmod 777 /a.txt

更改权限

hadoop fs -chown tom /a.txt

更改用户

hadoop fs -chgrp tedu /a.txt

更改用户组

 

标签:fs,处理,Hadoop,hadoop,学习,txt,数据
From: https://blog.51cto.com/u_16018846/6525640

相关文章

  • kafka学习之三_信创CPU下单节点kafka性能测试验证
    kafka学习之三_信创CPU下单节点kafka性能测试验证背景前面学习了3controller+5broker的集群部署模式.晚上想着能够验证一下国产机器的性能.但是国产机器上面的设备有限.所以想着进行单节点的安装与测试.并且记录一下简单结果希望对以后的工作有指导意义发现producer......
  • 三菱PLC项目案例学习之PLC控制伺服或步进电机带动丝运行案例。
    三菱PLC项目案例学习之PLC控制伺服或步进电机带动丝运行案例。器件:三菱FX1SPLC,威纶通触摸屏,48步进驱动器,伺服电机,丝杆滑台等。控制方式:PLC发脉冲给步进驱动器控制步进电机带动丝杆滑台同步运行。功能:学到:丝杆实际行走的距离转化成工程量脉冲个数的程序编写计算,fx1sPLC没有浮点......
  • 深度学习助力版面分析技术,图像“还原”有方
    1.前言背景近期,2023年度视觉与学习青年学者研讨会(VisionAndLearningSEminar,VALSE)在无锡圆满落幕,此研讨会是图像视觉领域的重磅会议。作为智能文档处理领域代表的合合信息自然不会缺席,合合信息出席会议并进行智能文档处理技术研发与实践成果分享,重点介绍了其在版面分析与......
  • 老外大型装配机程序Step7程序,西门子300P L C,非标自动化工程师可以好好学习人家先进的
    老外大型装配机程序Step7程序,西门子300PLC,非标自动化工程师可以好好学习人家先进的架构ID:3730606912832433......
  • <学习笔记>组合数学
    ####插板法问题一:现有$n$个完全相同的元素,要求将其分为$k$组a,保证每组至少有一个元素,一共有多少种分法?考虑拿$k-1$块板子插入到$n$个元素两两形成的$n-1$个空里面。所以答案就是$$\binom{n-1}{k-1}$$问题二:如果问题变化一下,每组允许为空呢?显然此时没法直接插板......
  • 6月20日 学习总结
    今日学习了简易的数据结构:分别是单向链表:查询慢,增删快,LinkdedList集合;,双向链表,红黑树,数组:查询快,增删慢。,队列,栈,同时也学了ArrayList集合,LinkedList集合,简单了解了Vector集合。明日计划:Set集合Collections类Map集合Debug调试争取完成!!!......
  • Pathlib学习
    Pathlib简单应用importos#获取上一层目录print(os.path.dirname(os.getcwd()))#/Users/na/PycharmProjects/python_1test/a/c#获取上上层目录print(os.path.dirname(os.path.dirname(os.getcwd())))#/Users/na/PycharmProjects/python_1testfrompathlibimport......
  • 效率加倍:适合学习的时候听的白噪音
    效率加倍:适合学习的时候听的白噪音下面是几个常用的白噪音网站,特别适合学习的时候听,可以帮助我们保持专注,提高学习效率。1. Relaxing White Noise简介:国外用户很多的白噪音网站,包含多种场景下的白噪音(国内访问速度略慢)。地址:https://www.relaxingwhitenoise.com/2. 荒......
  • 8086汇编基础学习(3)——伪指令
    8086汇编基础学习(三)——伪指令什么是伪指令:定义:伪指令(PseudoInstruction)是用于对汇编过程进行控制的指令,该类指令并不是可执行指令,没有对应机器代码,只用于汇编过程中为汇编程序提供汇编信息。特点:“伪”,假指令,是不可以执行的指令,没有对应的机器代码,不会占用ROM空间,只用......
  • SpringBoot学习笔记
    SpringBoot学习笔记学习资料分享,一定要点!!!示例代码跳转链接无效,查看完整笔记点击:https://gitee.com/pingWurth/study-notes/blob/master/springboot/spring-boot-demo/SpringBoot学习笔记.md官方文档:https://docs.spring.io/spring-boot/docs/current/reference/html/index......