Hadoop学习之路

时间：2023-06-20 23:02:10浏览次数：37

Hadoop是什么？

Hadoop是一个由Apache开发的开源分布式计算框架，它能够处理大规模数据并行处理任务，支持大规模数据存储和处理。Hadoop的核心组件包括分布式文件系统HDFS和分布式计算框架MapReduce，它们使得Hadoop可以在廉价的硬件上并行地处理大量数据。Hadoop还包括很多相关的项目和子项目，如Pig、Hive、HBase等，它们都是围绕Hadoop构建的数据处理和查询工具。Hadoop已经成为了大数据领域的标准技术之一，受到了很多企业和组织的广泛应用。

Hadoop的用途

Hadoop主要用于大规模数据的存储和处理，可以帮助用户快速地处理海量数据，提取有价值的信息。以下是Hadoop常见的用途：

数据存储：Hadoop提供了分布式文件系统HDFS，它可以把数据切分成多个块进行存储，并且每个数据块都会被多个节点进行备份，从而确保数据的高可靠性和可用性。
数据处理：Hadoop的分布式计算框架MapReduce可以灵活地处理大规模数据集。用户可以编写MapReduce程序，将数据分成更小的“分片”，并在多个计算节点上同时进行计算，从而大大缩短处理时间。
数据挖掘和分析：Hadoop生态系统中还包含了很多数据挖掘和分析工具，比如Pig、Hive、Spark、Mahout等。用户可以通过这些工具进行数据分析、数据挖掘和数据可视化等工作。
日志处理：Hadoop还可以用于实时日志的收集和分析。用户可以使用Hadoop存储和处理日志数据，并通过实时数据分析工具（如Storm、Flink等）快速反应异常情况。

总之，Hadoop可以帮助用户处理大规模数据，并提取有价值的信息，为用户提供更为准确的数据决策支持。

Hadoop命令小锦囊

命令	解释
start-dfs.sh	启动HDFS
stop-dfs.sh	结束HDFS
hdfs --daemon start namenode	启动NameNode（换成stop结束）
hdfs --daemon start datanode	启动DataNode（换成stop结束）
hdfs --daemon start secondarynamenode	启动SecondaryNameNode （换成stop结束）
hadoop fs -put /home/a.txt / 或者 hadoop fs -copyFromLocal /home/a.txt /	上传文件
hadoop fs -get /a.txt /home 或者 hadoop fs -copyToLocal /a.txt /home	下载文件
hadoop fs -mkdir /txt	创建目录
hadoop fs -mkdir -p /video/movie	创建多级目录
hadoop fs -rm /b.txt	删除文件
hadoop fs -rmdir /txt	删除目录
hadoop fs -rm -r /video	递归删除目录
hadoop fs -cat /c.txt	查看文件内容
hadoop fs -tail /c.txt	查看文件最后1000个字节的数据
hadoop fs -mv /c.txt /a.txt	重命名或者剪切
hadoop fs -cp /txt/a.txt /a.txt	复制文件
hadoop fs -ls /	查看子文件或者子目录
hadoop fs -ls -R /	递归查看
hadoop fs -setrep 3 /a.txt	设置副本数量
hadoop fs -chmod 777 /a.txt	更改权限
hadoop fs -chown tom /a.txt	更改用户
hadoop fs -chgrp tedu /a.txt	更改用户组

标签：fs,处理,Hadoop,hadoop,学习,txt,数据
From： https://blog.51cto.com/u_16018846/6525640

kafka学习之三_信创CPU下单节点kafka性能测试验证
kafka学习之三_信创CPU下单节点kafka性能测试验证背景前面学习了3controller+5broker的集群部署模式.晚上想着能够验证一下国产机器的性能.但是国产机器上面的设备有限.所以想着进行单节点的安装与测试.并且记录一下简单结果希望对以后的工作有指导意义发现producer......
三菱PLC项目案例学习之PLC控制伺服或步进电机带动丝运行案例。
三菱PLC项目案例学习之PLC控制伺服或步进电机带动丝运行案例。器件:三菱FX1SPLC,威纶通触摸屏，48步进驱动器，伺服电机，丝杆滑台等。控制方式：PLC发脉冲给步进驱动器控制步进电机带动丝杆滑台同步运行。功能：学到:丝杆实际行走的距离转化成工程量脉冲个数的程序编写计算，fx1sPLC没有浮点......
深度学习助力版面分析技术,图像“还原”有方
1.前言背景近期，2023年度视觉与学习青年学者研讨会(VisionAndLearningSEminar,VALSE)在无锡圆满落幕，此研讨会是图像视觉领域的重磅会议。作为智能文档处理领域代表的合合信息自然不会缺席，合合信息出席会议并进行智能文档处理技术研发与实践成果分享，重点介绍了其在版面分析与......
老外大型装配机程序Step7程序，西门子300P L C，非标自动化工程师可以好好学习人家先进的
老外大型装配机程序Step7程序，西门子300PLC，非标自动化工程师可以好好学习人家先进的架构ID:3730606912832433......
<学习笔记>组合数学
####插板法问题一：现有$n$个完全相同的元素，要求将其分为$k$组a，保证每组至少有一个元素，一共有多少种分法？考虑拿$k-1$块板子插入到$n$个元素两两形成的$n-1$个空里面。所以答案就是$$\binom{n-1}{k-1}$$问题二：如果问题变化一下，每组允许为空呢？显然此时没法直接插板......
6月20日学习总结
今日学习了简易的数据结构：分别是单向链表：查询慢，增删快，LinkdedList集合；，双向链表，红黑树，数组：查询快，增删慢。，队列，栈，同时也学了ArrayList集合，LinkedList集合，简单了解了Vector集合。明日计划：Set集合Collections类Map集合Debug调试争取完成！！！......
Pathlib学习
Pathlib简单应用importos#获取上一层目录print(os.path.dirname(os.getcwd()))#/Users/na/PycharmProjects/python_1test/a/c#获取上上层目录print(os.path.dirname(os.path.dirname(os.getcwd())))#/Users/na/PycharmProjects/python_1testfrompathlibimport......
效率加倍：适合学习的时候听的白噪音
效率加倍：适合学习的时候听的白噪音下面是几个常用的白噪音网站，特别适合学习的时候听，可以帮助我们保持专注，提高学习效率。1. Relaxing White Noise简介：国外用户很多的白噪音网站，包含多种场景下的白噪音（国内访问速度略慢）。地址：https://www.relaxingwhitenoise.com/2. 荒......
8086汇编基础学习（3）——伪指令
8086汇编基础学习（三）——伪指令什么是伪指令：定义：伪指令(PseudoInstruction)是用于对汇编过程进行控制的指令，该类指令并不是可执行指令，没有对应机器代码，只用于汇编过程中为汇编程序提供汇编信息。特点：“伪”，假指令，是不可以执行的指令，没有对应的机器代码，不会占用ROM空间，只用......
SpringBoot学习笔记
SpringBoot学习笔记学习资料分享，一定要点！！！示例代码跳转链接无效，查看完整笔记点击：https://gitee.com/pingWurth/study-notes/blob/master/springboot/spring-boot-demo/SpringBoot学习笔记.md官方文档：https://docs.spring.io/spring-boot/docs/current/reference/html/index......

Hadoop学习之路

Hadoop是什么？

Hadoop的用途

Hadoop命令小锦囊

相关文章

赞助商

阅读排行