首页 > 其他分享 >Hadoop入门(2)——环境准备

Hadoop入门(2)——环境准备

时间:2022-11-02 17:02:16浏览次数:58  
标签:入门 创建 虚拟机 配置 环境 Hadoop 192.168 默认 安装

CentOS环境

环境要求

使用VMware虚拟机搭建基于CentOS7.5的Hadoop环境:

  • cpu核数(需要搭建3台Hadoop组成集群,加上Windows本机,所以可以分配的数量为本机的cpu核数除以4)
  • 内存至少4G
  • 硬盘最少50G

CentOS 7.5,即官方的 CentOS-7-xxxxxx-1804 版本。

创建虚拟机

创建虚拟机:

  1. 新建虚拟机,选择自定义(高级)
  2. 硬件兼容性默认
  3. 选择稍后安装操作系统
  4. 客户机操作系统选择 Linux -> CentOS7 64位
  5. 配置虚拟机名称、存储位置
  6. 处理器数量1,每个处理器内核数2.(本机总共有4核,8个逻辑处理器)
  7. 配置虚拟机内存 4G
  8. 网络类型默认的NAT
  9. IO类型、磁盘类型默认
  10. 选择 创建新虚拟磁盘
  11. 磁盘容量设置为 60G,默认将虚拟磁盘拆分成多个文件不用变
  12. 创建的磁盘文件配置到指定目录
  13. 完成

安装CentOS

安装CentOS7系统:

  1. 配置CD/DVD使用的iso文件指向下载好的 CentOS 7.5 系统镜像
  2. 启动虚拟机
  3. 选择安装CentOS7
  4. 虚拟机自动进入图形界面安装
  5. 选择中文(安装过程中使用的语言,不代表操作系统的语言),继续
  6. 修改时区、日期和时间
  7. 软件选择可以选择最小安装或者GNOME 桌面安装,本次选择桌面版
  8. 选择安装位置,我要分配分区进行手动分区,大小可以参考以下配置:
    ○ /boot:1g(如果是最小化安装,/boot只有150多Mb),文件系统配置为 ext4
    ○ swap分区:4g
    ○ /:剩余空间分给根分区,文件系统默认xfr就行
  9. 自己实验用的虚拟机,KDUMP可以禁用kdump以节省资源。(kdump是系统崩溃前捕获系统信息,用于诊断崩溃原因,但是需要预留一部分系统内存)
  10. 网络和主机名称配置主机名称、网络。主机名例如设置为hadoop100
  11. SECURITY POLICY安全策略默认打开即可
  12. 然后便可以点击安装
  13. 安装的过程中可以配置root密码
  14. 等安装完成,点击重启
  15. 重启进来之后,点开许可协议,选择我同意许可协议
  16. 点击完成配置
  17. 选择中文、汉语、打开位置、选择上海时区、跳过在线账号
  18. 创建一个用户
  19. 开始使用

配置网络静态IP

配置网络:

  1. 配置hostname,检查/etc/hostname中的主机名配置信息,例如将主机名配置为hadoop100(后面的几台集群中主机为hadoop101、hadoop102、hadoop103组成集群)
  2. 配置IP为静态IP,默认的为DHCP动态获取。修改/etc/sysconfig/network-scripts/ifcfg-ens33:
TYPE="Ethernet"
PROXY_METHOD="none"
BROWSER_ONLY="no"
 # 将DHCP动态获取修改为static静态IP
BOOTPROTO="static" 
DEFROUTE="yes"
IPV4_FAILURE_FATAL="no"
IPV6INIT="yes"
IPV6_AUTOCONF="yes"
IPV6_DEFROUTE="yes"
IPV6_FAILURE_FATAL="no"
IPV6_ADDR_GEN_MODE="stable-privacy"
NAME="ens33"
UUID="b77a5288-57bc-4564-a2d2-3c12ab2395a9"
DEVICE="ens33"
ONBOOT="yes"
# 其他保持默认即可

# 然后添加以下配置(根据虚拟机实际情况进行配置)
# ip
IPADDR=192.168.29.100
# 网关(可以在VMware虚拟网络编辑器的NAT模式中 NAT设置 里面查找到)
GATEWAY=192.168.29.2
# DNS
DNS1=192.168.29.2
  1. 配置hosts映射,,将集群中的主机添加进来,/etc/hosts:
192.168.29.100 hadoop100
192.168.29.101 hadoop101
192.168.29.102 hadoop102
192.168.29.103 hadoop103
192.168.29.104 hadoop104
192.168.29.105 hadoop105
  1. 在Windows系统中,也讲Hosts映射加入进来。C:\Windows\System32\drivers\etc\hosts文件
  2. 配置好网络,使用reboot重启使其生效
  3. 重新进来后,使用ifconfig判断网络配置是否生效,ping一个外部网站查看是否可以连网

安装epel-release

Extra Packages for Enterprise Linux是为“红帽系”的操作系统提供额外的软件包,适用于 RHEL、CentOS和Scientific Linux。相当于是一个软件仓库,大多数 rpm 包在官方 repository 中是找不到的。

安装命令:

yum install -y epel-release

如果Linux安装的是最小系统板,还需要安装net-tool、vim等常用工具:

# 安装ifconfig命令
yum install -y net-tools
# 安装vim编辑器
yum install -y vim

关闭防火墙

关闭防火墙,关闭防火墙的开机自启:

systemctl stop firewalld
systemctl disable firewalld.service

将自己创建的用户加入sudoers

如果安装的桌面版,在安装过程就会让创建一个非root用户。

如果安装的最小系统版,则可以手工执行命令创建一个非root用户,例如:

useradd abc
passwd abc

将该用户加入sudoers中,方便后续添加sudo执行命令。

编辑 /etc/sudoers文件(该文件默认只读,需要先添加写权限),在%wheel用户执行命令权限下面添加一行:

%wheel  ALL=(ALL)       ALL
# 在%wheel下面添加,不要直接加载 root下面。因为所有用户都属于wheel组,如果放到了root下面(%wheel上面),那么执行了NOPASSWD:ALL免密之后,程序走到%wheel时就又会被覆盖回需要密码
abc ALL=(ALL) NOPASSWD:ALL

创建文件夹,准备环境

在/opt下创建文件夹module、software:

# 软件安装位置
sudo mkdir module
# 软件安装包存放位置
sudo mkdir software
sudo chown abc:abc module/ software/

卸载自带的JDK

检查系统中自带的JDK:

rpm -qa | grep -i java

卸载自带的JDK:(需要以root用户运行)

# grep -i 忽略大小写
# xargs 将前面的输出结果作为命令的参数
# -n1 每次只取一个结果作为命令参数。如果不加,则会将所有结果以空格分隔拼接作为命令的参数
# rpm -e --nodeps:不验证套件档的相互关联性进行卸载
rpm -qa | grep -i java | grep -v ".noarch" | xargs -n1 rpm -e  --nodeps

克隆虚拟机

因为我们要搭建集群,所以需要再克隆出几台虚拟机出来。

将hadoop100虚拟机关机,然后创建完整克隆。克隆出 hadoop102、hadoop103、hadoop104几台主机。(hadop101用于后面搭建伪分布式,分析源码,本次先不搭建进集群中)。

克隆完成之后,还需要依次修改 hadoop102、hadoop103、hadoop104的ip和hostname。

标签:入门,创建,虚拟机,配置,环境,Hadoop,192.168,默认,安装
From: https://www.cnblogs.com/CQCx64/p/16851569.html

相关文章

  • 第一章、Flink wordcount 入门示例
    概述希望通过本示例对flink有一个轮廓性的认识本示例实现效果:flink连接SocketServer,从SockerServer中按行读取数据作为数据输入,将输入的数据根据空格切分、分组、......
  • redhat环境使用jenkins部署项目(前后端)
    目录redhat环境使用jenkins部署项目(前后端)从安装到部署redhat环境使用jenkins部署项目(前后端)最近使用了jenkins部署项目,在此做一个小结从安装到部署安装jenkins......
  • 人工智能环境搭建-ubantu python3.10.8安装记录
    当前时间(2022-11)python3.11已经出来,python3.10已稳定 配置一个AI开发的python环境,代码部署迁移时,安装环境也一块带走OS:ubantu20.10安装用户:xt,  python环境sqlite......
  • 分布式事务框架 Seata 入门案例
    1. SeataServer部署Seata分TC、TM和RM三个角色,TC(Server端)为单独服务端部署,TM和RM(Client端)由业务系统集成。首先,下载最新的安装包也可以下载源码,然后本地编译。最新......
  • 线段树入门
    是一种二叉搜索树,通过二分法访问或修改区间值,区间大小不超过10^6,区间值必须满足区间加法,即仅当对于区间[L,R]的问题的答案可以由[L,M]和[M+1,R]的答案......
  • anaconda配置pytorch环境遇到的坑
    1.设置jupyternotebook默认打开位置单击jupyternotebook图标,打开属性,将“目标”和“起始位置”两个框里加入你要默认的打开位置2.jupyter打开后内核无法启动/启动失败......
  • day12 --> (Web概念回顾、Tomcat服务器、Servlet入门)
    Web相关概念的回顾: 1.软件架构:1.B/S:浏览器/服务器端2.C/S:客户端/服务器端2.资源分类:1.静态资源:所有用户访问后,得到的结果都是一样的,称之为静态资源如:html、......
  • 关于安装hadoop时在centos上修改主机名总是不成功
    按照老师给的文件和网上搜的代码改了很多次,比如改/etc/sysconfig/network这些,无论改几次都没用,找了个帖子,说可能是因为CentOS7版本由于与之前版本变化比较大,修改主机名的......
  • AutoCAD 数据库入门
    1.AutoCAD数据库概述AutoCAD图形是存储在数据库中的对象集合。一些基本的数据库对象是实体、符号表和字典。实体是一种特殊的数据库对象,在AutoCAD图形中具有图形表示......
  • 【数据库数据恢复】HP-UX环境下误删除ORACLE数据库的数据恢复案例
    数据库恢复环境:联通海南分部信息平台,HP-UX小型机;ORACLE数据库,卷文件系统为VxFS。​数据库故障&分析:工程师误RM掉了重要ORACLE数据库,丢失了所有的数据表、UNDO、LOG等。......