要在你的 Spark 集群上安装和配置 HDFS(Hadoop 分布式文件系统),可以按照以下步骤进行:
1. 安装 Hadoop
1.1 下载 Hadoop
选择一个合适的 Hadoop 版本(例如 Hadoop 3.x),下载并解压缩:
wget https://downloads.apache.org/hadoop/common/hadoop-x.y.z/hadoop-x.y.z.tar.gz tar -xzf hadoop-x.y.z.tar.gz sudo mv hadoop-x.y.z /usr/local/hadoop
1.2 设置环境变量
编辑 ~/.bashrc
或 /etc/profile
文件,添加以下行:
export HADOOP_HOME=/usr/local/hadoop export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
然后执行:
source ~/.bashrc
2. 配置 Hadoop
在所有节点上,修改 Hadoop 配置文件。进入 Hadoop 配置目录:
cd /usr/local/hadoop/etc/hadoop
2.1 core-site.xml
编辑 core-site.xml
,配置 HDFS 的基本信息:
<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://master:9000</value> <!-- 将 master 替换为实际的 Master 节点 IP 或主机名 --> </property> </configuration>
2.2 hdfs-site.xml
编辑 hdfs-site.xml
,设置 HDFS 的数据存储位置:
<configuration> <property> <name>dfs.replication</name> <value>2</value> <!-- 根据需要设置副本数 --> </property> <property> <name>dfs.namenode.name.dir</name> <value>file:///usr/local/hadoop/dfs/name</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>file:///usr/local/hadoop/dfs/data</value> </property> </configuration>
2.3 修改权限(可选)
确保 Hadoop 目录权限正确:
sudo mkdir -p /usr/local/hadoop/dfs/name sudo mkdir -p /usr/local/hadoop/dfs/data sudo chown -R $(whoami):$(whoami) /usr/local/hadoop
3. 启动 HDFS
3.1 格式化 NameNode
在 Master 节点上格式化 NameNode:
hdfs namenode -format
3.2 启动 HDFS 服务
在 Master 节点上启动 NameNode:
start-dfs.sh
4. 检查 HDFS 状态
你可以通过访问以下地址查看 HDFS 的状态:
http://master:9870
5. 测试 HDFS
在 HDFS 中创建目录和文件,确保它们能够在 Worker 节点上访问。
hdfs dfs -mkdir /test hdfs dfs -put /path/to/local/file /test hdfs dfs -ls /test
6. 集成 Spark 和 HDFS
确保 Spark 可以访问 HDFS。你可以在 Spark 提交作业时使用 HDFS 路径,例如:
spark-submit --master spark://master:7077 --class your.main.Class hdfs://master:9000/test/yourfile
标签:HDFS,hdfs,hadoop,dfs,Hadoop,local,DeltaLake,搭建 From: https://www.cnblogs.com/xgc521/p/18492184