hadoop官方文档解读

时间：2023-10-20 17:23:27浏览次数：30

标签：szj hdfs hadoop dfs 解读文档 3.3 localhost

Hadoop是一个分布式计算框架，用于存储和处理大规模数据集。

首先搞清楚为什么需要使用Hadoop

Hadoop进行数据处理可以充分利用分布式计算和存储的优势，适用于大规模数据的批处理和分布式计算场景。

裸机上进行数据处理则更适合小规模数据或需要实时处理的场景。

在裸机上进行数据处理和使用Hadoop进行数据处理有以下区别：

分布式处理能力：Hadoop是一个分布式计算框架，可以将数据分布在多台计算机上进行并行处理。相比之下，裸机上的数据处理通常是在单台计算机上进行，无法充分利用多台计算机的处理能力。
数据存储和处理：Hadoop使用Hadoop分布式文件系统（HDFS）来存储数据，数据被分割成多个块并分布在集群中的多个节点上。而在裸机上进行数据处理时，数据通常存储在本地磁盘上。
容错性：Hadoop具有高度的容错性，当集群中的某个节点发生故障时，任务可以自动重新分配到其他可用节点上继续执行。而在裸机上进行数据处理时，如果计算机发生故障，可能会导致任务中断或数据丢失。
扩展性：Hadoop可以通过添加更多的计算节点来扩展集群的处理能力，以适应不断增长的数据量和计算需求。而在裸机上进行数据处理时，扩展性受限于单台计算机的处理能力和存储容量。
数据处理模型：Hadoop使用MapReduce编程模型进行数据处理，将任务分为Map和Reduce两个阶段，适用于大规模数据的批处理。而在裸机上进行数据处理时，可以使用各种编程语言和工具进行数据处理，包括实时处理和交互式查询等。

1 安装

部署可分为单节点部署、伪分布式部署、集群部署

1.1 单节点部署

先到合适的路径下面,比如/data/software

下载

[szj@localhost software]$ wget wget https://dlcdn.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz --no-check-certificate

解压

[szj@localhost software]$ tar -zxvf hadoop-3.3.6.tar.gz
[szj@localhost software]$ cd hadoop-3.3.6/

修改etc/hadoop/hadoop-env.sh

vi etc/hadoop/hadoop-env.sh

内容如下

export JAVA_HOME=/data/software/jdk1.8.0_251

创建input目录

[szj@localhost software]$ mkdir input
[szj@localhost software]$ cp etc/hadoop/*.xml input

执行hadoop命令

[szj@localhost software]$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.6.jar grep input output 'dfs[a-z.]+'

将会生成output文件夹

[szj@localhost hadoop-3.3.6]$ ll output/
total 4
-rw-r--r--. 1 szj szj 29 Oct 20 00:05 part-r-00000
-rw-r--r--. 1 szj szj  0 Oct 20 00:05 _SUCCESS
[szj@localhost hadoop-3.3.6]$

这里没有启动hdfs文件系统。与其说是单节点部署，不如说是在本地文件系统下运行了一个hadoop的示例程序。

1.2 伪分布式

修改etc/hadoop/core-site.xml

[szj@localhost hadoop-3.3.6]$ vi etc/hadoop/core-site.xml

内容

<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>

修改etc/hadoop/hdfs-site.xml

<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>

配置各节点之间免密登陆

$ ssh localhost

如果提示输入密码则执行如下操作

$ ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
$ chmod 0600 ~/.ssh/authorized_keys

格式化文件系统

$ bin/hdfs namenode -format

启动NameNode和DataNode守护进程

[szj@localhost hadoop-3.3.6]$ sbin/start-dfs.sh
Starting namenodes on [localhost]
Starting datanodes
Starting secondary namenodes [localhost.localdomain]
[szj@localhost hadoop-3.3.6]$

然后我们就可以在浏览器中查看部署运行情况了http://xxxx:9870/

在hdfs中创建用户目录

$ bin/hdfs dfs -mkdir -p /user/szj

拷贝本地文件路径input下的文件到hdfs

$ bin/hdfs dfs -mkdir input
$ bin/hdfs dfs -put etc/hadoop/*.xml input

运行自带的示例

$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.6.jar grep input output 'dfs[a-z.]+'

把hdfs中的输出拷贝到本地文件系统

$ bin/hdfs dfs -get output output

然后我们就可以在本地查看了

[szj@localhost hadoop-3.3.6]$ cat output/*
1       dfsadmin
1       dfs.replication
[szj@localhost hadoop-3.3.6]$

或者我们可以直接在hdfs文件系统下面查看输出

[szj@localhost hadoop-3.3.6]$ bin/hdfs dfs -cat output/*
1       dfsadmin
1       dfs.replication
[szj@localhost hadoop-3.3.6]$

如果不使用了，我们也可以停止hadoop服务

$ sbin/stop-dfs.sh

标签：szj,hdfs,hadoop,dfs,解读,文档,3.3,localhost
From： https://www.cnblogs.com/zhenjingcool/p/17777565.html

软件研发流程、架构规范、技术标准、需求过程等全文档
前言：软件项目管理全文档包括以下几个方面：需求分析、项目规划、过程管理、测试和部署。全文档获取：Q+:262086839例图在文末。正文：一、需求分析是软件项目管理的第一步，也是非常关键的一步。在需求分析阶段，项目团队需要与用户进行深入沟通，了解用户的需求和期望，并对其进行详细的分......
WPF中资源URL解读
引言资源（Resources）在WPF（WindowsPresentationFoundation）中扮演着非常重要的角色，它们提供了一种灵活和高效的方式来管理和使用图像、样式、模板等。资源URL（ResourceURL）则是资源管理中的一个关键概念。本文将深入解读WPF中资源URL的概念，类型，以及如何高效地使用它们。1.资源与......
“达观杯”智能文档版面分析赛题baseline已上线，欢迎下载报名！
由国内领先智能文本处理企业达观数据与上海市计算机学会联合举办的智能文档版面分析多模态数据处理算法竞赛正在火热报名阶段。开赛一周内，第七届“达观杯”已有来自国内外的近200名企业和高校算法精英参与到比赛中。作为本次赛题的出题方，为助力各位打榜达人更快速上手比赛，更高效优......
亚马逊Dynamo数据库解读（英文版）
最近看了亚麻的Dynamo，个人认为其中alwayswriteable的业务目标，对于DHT，vectorclock，merkeltree的应用，包括对于一致性和高可用的权衡（基于CAP猜想，实现默认保证分区容错，因此二选一）等都很有意思。建议参考原论文食用。Whatistheproblemthatthispapertriestosolve?Howwould......
趋势来袭！大模型时代的文档图像发展与图像安全剖析
1.前言背景自去年ChatGPT发布之后，各大科技公司纷纷推出了自家的大模型，标志这人类社会正式进入了大模型时代。大模型的发展速度惊人，从最初的只能根据提问生成自然语言文本，到现在可以根据输入文本来绘图，根据输入图像来进行OCR识别，并对文档或图像的内容进行解释。这意味着现在的大模......
开源版本Disruptor代码解读记录
01disruptor实现原理disruptor是一种基于共享内存的进程间通信方式；接下来我们对该开源代码进行解读环形队列设计原理使用环形队列，实际上就是在堆上申请的一个大小为cap的数组，要求队列大小为2的N次方，为了满足位运算，快速计算出索引index（比取模的速度快）。对该数组的访问将由2个索......
基于Java Web的多功能旅游网站的设计与实现-计算机毕业设计源码+LW文档
摘要随着时代的发展，人们对旅游也越来越重视，近些年来我国的旅游产业也发生了翻天覆地的变化，但是很多人在出去旅游的时候不知道去哪里旅游，在预订酒店和机票的时候也没有一个综合性的旅游网站，为了让人们的旅游变的更加的方便，为此我开发了本基于JavaWeb的多功能旅游网站本基于......
基于Java的智慧图书管理系统-计算机毕业设计源码+LW文档
摘要随着时代的发展，图书的重要性显示的越来越突出了，尤其是知识大爆炸的这个年代，人们需要掌握的知识也越来越多，只有不断的提高自己才能够更好的立足于社会，但是通常情况下很多图书的价格比较高，这个时候就可以通过图书馆借阅图书来达到图书阅读的目的，为了让图书借阅变的更加的方便我......
基于Python的《计算机组成原理》在线学习平台-计算机毕业设计源码+LW文档
摘要随着互联网的发展，通过计算机来学习是当前非常流行的一种学习方式。通过课程虽然可以面对面的进行交流和学习，但是很多时候因为地区和空间的限制会受到很多的影响但是通过网络来进行学习可以打破这一局限性，为此我开发了本基于Python的《计算机组成原理》在线学习平台网站本......
基于Python的招聘网站爬虫及可视化的实现-计算机毕业设计源码+LW文档
一、内容框架（一）主要内容论文按照项目的研究内容及技术路线，分为六章进行论述：第一章为概述，介绍了数据可视化和招聘网站的研究背景以及研究意义，分析了数据可视化和招聘技术的发展，对论文的研究内容做出阐述，最后简述了本文的章节安排。第二章为招聘数据可视化以及相关职位推荐系统使......

hadoop官方文档解读

1 安装

1.1 单节点部署

1.2 伪分布式

相关文章

赞助商

阅读排行