首页 > 其他分享 >Hadoop第一弹

Hadoop第一弹

时间:2023-06-20 23:02:29浏览次数:42  
标签:fs 第一 处理 Hadoop hadoop txt 数据

Hadoop是什么?

Hadoop是一个由Apache开发的开源分布式计算框架,它能够处理大规模数据并行处理任务,支持大规模数据存储和处理。Hadoop的核心组件包括分布式文件系统HDFS和分布式计算框架MapReduce,它们使得Hadoop可以在廉价的硬件上并行地处理大量数据。Hadoop还包括很多相关的项目和子项目,如Pig、Hive、HBase等,它们都是围绕Hadoop构建的数据处理和查询工具。Hadoop已经成为了大数据领域的标准技术之一,受到了很多企业和组织的广泛应用。

Hadoop的用途

Hadoop主要用于大规模数据的存储和处理,可以帮助用户快速地处理海量数据,提取有价值的信息。以下是Hadoop常见的用途:

  1. 数据存储:Hadoop提供了分布式文件系统HDFS,它可以把数据切分成多个块进行存储,并且每个数据块都会被多个节点进行备份,从而确保数据的高可靠性和可用性。
  2. 数据处理:Hadoop的分布式计算框架MapReduce可以灵活地处理大规模数据集。用户可以编写MapReduce程序,将数据分成更小的“分片”,并在多个计算节点上同时进行计算,从而大大缩短处理时间。
  3. 数据挖掘和分析:Hadoop生态系统中还包含了很多数据挖掘和分析工具,比如Pig、Hive、Spark、Mahout等。用户可以通过这些工具进行数据分析、数据挖掘和数据可视化等工作。
  4. 日志处理:Hadoop还可以用于实时日志的收集和分析。用户可以使用Hadoop存储和处理日志数据,并通过实时数据分析工具(如Storm、Flink等)快速反应异常情况。

总之,Hadoop可以帮助用户处理大规模数据,并提取有价值的信息,为用户提供更为准确的数据决策支持。

Hadoop命令小锦囊

命令

解释

start-dfs.sh

启动HDFS

stop-dfs.sh

结束HDFS

hdfs --daemon start namenode

启动NameNode(换成stop结束)

hdfs --daemon start datanode

启动DataNode(换成stop结束)

hdfs --daemon start secondarynamenode

启动SecondaryNameNode

(换成stop结束)

hadoop fs -put /home/a.txt /

或者

hadoop fs -copyFromLocal /home/a.txt /

上传文件

hadoop fs -get /a.txt /home

或者

hadoop fs -copyToLocal /a.txt /home

下载文件

hadoop fs -mkdir /txt

创建目录

hadoop fs -mkdir -p /video/movie

创建多级目录

hadoop fs -rm /b.txt

删除文件

hadoop fs -rmdir /txt

删除目录

hadoop fs -rm -r /video

递归删除目录

hadoop fs -cat /c.txt

查看文件内容

hadoop fs -tail /c.txt

查看文件最后1000个字节的数据

hadoop fs -mv /c.txt /a.txt

重命名或者剪切

hadoop fs -cp /txt/a.txt /a.txt

复制文件

hadoop fs -ls /

查看子文件或者子目录

hadoop fs -ls -R /

递归查看

hadoop fs -setrep 3 /a.txt

设置副本数量

hadoop fs -chmod 777 /a.txt

更改权限

hadoop fs -chown tom /a.txt

更改用户

hadoop fs -chgrp tedu /a.txt

更改用户组

 

标签:fs,第一,处理,Hadoop,hadoop,txt,数据
From: https://blog.51cto.com/u_16004326/6525629

相关文章

  • Hadoop学习之路
    Hadoop是什么?Hadoop是一个由Apache开发的开源分布式计算框架,它能够处理大规模数据并行处理任务,支持大规模数据存储和处理。Hadoop的核心组件包括分布式文件系统HDFS和分布式计算框架MapReduce,它们使得Hadoop可以在廉价的硬件上并行地处理大量数据。Hadoop还包括很多相关的项目和子......
  • 第一节:drf入门规范
    一Web应用模式在开发Web应用中,有两种应用模式:1.1前后端不分离1.2前后端分离二API接口为了在团队内部形成共识、防止个人习惯差异引起的混乱,我们需要找到一种大家都觉得很好的接口实现规范,而且这种规范能够让后端写的接口,用途一目了然,减少双方之间的合作成本。通过......
  • 史上最全Hadoop面试题:尼恩大数据面试宝典专题1
    文章且持续更新,建议收藏起来,慢慢读!疯狂创客圈总目录博客园版为您奉上珍贵的学习资源:免费赠送:《尼恩Java面试宝典》持续更新+史上最全+面试必备2000页+面试必备+大厂必备+涨薪必备免费赠送:《尼恩技术圣经+高并发系列PDF》,帮你实现技术自由,完成职业升级,薪酬猛......
  • 第一天:一元函数的图形
    学习过程中须注意的几个点:1.log(n)和lg(n)在matlab中分别代表日常所见的ln(n)和log10(n);2.matlab中绘制反函数时只需要颠倒plot函数中x和y的位置即可;3.asin(x)即为arcsinx的意思;4.求反函数的函数为finverse(y,x);5.符号变量的定义:x=sym(‘x’,‘integer’);6.图例函数:legend(......
  • 从零开始学Python第02课:第一个Python程序
    在上一课中,我们对Python语言的过去现在有了一些了解,我们准备好了运行Python程序所需要的解释器环境。相信大家已经迫不及待的想开始自己的Python编程之旅了,但是新问题来了,我们应该在什么地方书写Python程序,然后又怎么运行它呢?编写和运行代码的工具下面我们为大家讲解几种可......
  • 02-Hadoop集群搭建
    1.集群配置1.1集群部署规划资源上有抢夺冲突的,尽量不要部署在一起;工作上需要互相配合的,尽量部署在一起。\Hadoop102Hadoop103Hadoop104HDFSNameNode&DataNodeDataNode2rdNameNode&DataNodeYARNNodeManagerResourceManager&NodeManagerNodeManag......
  • 第二届猿人学web比赛第一题浅记
    上个月的猿人学逆向比赛终于参加了一次,本着嫖一件文化衫的目的与做出第一题的目标,开始了比赛。过程是艰苦的,结果还是满意的,文化衫嫖到了,现在记录一下第一题的过程。(基于补环境)链接地址:https://match2023.yuanrenxue.cn/topic/11、网站分析:照常F12看发包的请求:对比多个请求......
  • 01-Hadoop概述
    1.大数据1.1概述指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据主要解决,海量数据的采集、存储和分析计算问题。按顺序给出数据存储单位......
  • 动手开发第一个 SAP Fiori Elements 应用
    本教程的前五篇文章,我们已经为SAPFioriElements的创建做了足够的铺垫。0.迈入SAPFioriElements开发的大门-什么是FioriElements,它和FreestyleUI5开发方式有何区别?1.SAPFioriElements开发环境的搭建和开发准备工作2.在ES5系统注册用户以获得Fiori......
  • 第一届赣网杯网络安全大赛 2020GW-CTF Misc_Writeup
    目录签到CheckinfaceDestroyJavaHidepig签到Checkinflag{welc0me_to_ganwangbei}faceLennyfuckinterpreterhttps://github.com/Knorax/Lennyfuck_interpreter跟着对照表替换即可++++++++++[->++++++++++<]>++.++++++.<+++[->---<]>--.++++++.<++++[->++++<......