首页 > 其他分享 >hadoop集群 大数据项目实战_电信用户行为分析_day01

hadoop集群 大数据项目实战_电信用户行为分析_day01

时间:2023-10-14 09:56:37浏览次数:35  
标签:day01 配置 hadoop mapreduce etc 集群 mysql HOME

上图是相关配置的要求,主要创建了四个虚拟系统,有三台虚拟机搭建hadoop集群,一台作为业务系统。

涉及到相关的Linux指令有::set nu[显示行号]  :6[到第6行  shift+G跳到最后一行  进入vi指令后查找相关东西/(你需要查找的东西)

1.配置环境、

第一步设置网络参数,设置静态网络

目录:/etc/sysconfig/network-scripts      访问文件名字:ifcfgens33

 其中ONBOOT='yes',表示启动这块网卡    BOOTPROTO=static,表示静态路由协议,可以保持IP固定     GATEWAY:表示虚拟网关,通常都是将IP地址最后一个位数变成了2   PREFIX:24用来表示子网掩码,前面右24个1,1个0

第二步设置主机名和IP映射配置   一台主机mask   另外两台分别是子机

设置三台主机名和IP地址相关映射

[root@node03 ~]# cat /etc/hosts

127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4
::1 localhost localhost.localdomain localhost6 localhost6.localdomain6
192.168.77.138 node01
192.168.77.139 node02
192.168.77.140 node03

第三步设置SSH免密登录功能配置

1.每台机子生成公钥和密钥

指令:ssh-keygen -t rsa

 上述代码生成了密钥和公钥

2.把每台的公钥传给另外几台机子

ssh-copy-id  机子  

 3.配置通过不操作

一种方式:yum install -y rsync

一种通过脚本进行编写:脚本名字xsync

#!/bin/bash #1 获取命令输入参数的个数,如果个数为0,直接退出命令 paramnum=$# echo "paramnum:$paramnum" if (( paramnum == 0 )); then echo no params; exit; fi # 2 根据传入参数获取文件名称 p1=$1 file_name=`basename $p1` echo fname=$file_name #3 获取输入参数的绝对路径 pdir=`cd -P $(dirname $p1); pwd` echo pdir=$pdir #4 获取用户名称 user=`whoami` #5 循环执行rsync current=`hostname` nodes=$(cat /root/bin/works) for host in $nodes; do echo ------------------- $host -------------- if [ "$host" != "$current" ];then rsync -rvl $pdir/$file_name $user@$host:$pdir fi done 上述的works需要自己手动创建,并且写入主机名字hadoop01  hadoop02  hadoop03 4.配置java环境

1.上传jdk包: tar -zxvf jdk-8u241-linux-x64.tar.gz -C  /bigdata/server/

2.修改名字:mv jdk1.8.0_241/ jdk

3.配置环境:

 4.激活环境

source /etc/profile

5.配置hadoop环境

hadoop相关文件介绍如上所示,目前用到的是etc配置文件目录

上述是对hadoop和java配置环境

6.配置mysl环境

首先检查有没有安装过mysql环境,主要业务系统安装mysql

下载数据库

wget https://dev.mysql.com/get/mysql80-community-release-el7-6.noarch.rpm

安装数据仓库 rpm -ivh mysql80-community-release-el7-6.noarch.rpm 修改相关文件 cd /etc/yum.repos.d/ mysql-community.repo: 用于指定下载哪个版本的安装包

 就是使用mysql 5,.7版本不使用8.0版本

mysql-community-source.repo: 用于指定下载哪个版本的源码 (这个不需要修改) ## 导入签名的信息key rpm --import https://repo.mysql.com/RPM-GPG-KEY-mysql-2022 ## 安装5.7 yum install -y mysql-community-server 启动mysql systemctl start mysqld systemctl status mysqld systemctl enable mysqld  ## 查看初始密码 less /var/log/mysqld.log |grep pass ## 登录数据库 mysql -uroot -p'XRY046OefV<7' (每个人不一样) 修改密码策略: set global validate_password_length=4; set global validate_password_policy=0; 数据库设置相关编码方式:utf-8 vi /etc/my.cnf ## 在mysqld下面设置 character_set_server=utf8 ## 重启服务 systemctl restart mysqld

重点:集群配置

 

所有配置文件均在:/bigdata/server/hadoop-3.3.3/etc

1.配置hadoop-env.sh

 2.核心配置文件:core-site.xml

<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://hadoop01:8020</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/bigdata/data/hadoop</value>
</property>
<!-- 设置HDFS web UI用户身份 -->
<property>
<name>hadoop.http.staticuser.user</name>
<value>root</value>
</property>
<!-- 整合hive -->
<property>
<name>hadoop.proxyuser.root.hosts</name>
<value>*</value>
</property>
<property>
<name>hadoop.proxyuser.root.groups</name>
<value>*</value>
</property>
</configuration>

3.配置mapred-site.xml

<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>yarn.app.mapreduce.am.env</name>
<value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>
</property>
<property>
<name>mapreduce.map.env</name>
<value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>
</property>
<property>
<name>mapreduce.reduce.env</name>
<value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>
</property>
<property>
<name>mapreduce.jobhistory.address</name>
<value>hadoop02:10020</value>
</property>
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>hadoop02:19888</value>
</property>
</configuration>

4.配置yarn-site.xml

<configuration>

<!-- Site specific YARN configuration properties -->RN的主角色(ResourceManager)的地址 -->
<!-- 指定YARN的主角色(ResourceManager)的地址 -->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>hadoop01</value>
</property>
<!-- NodeManager上运行的附属服务。需配置成mapreduce_shuffle,才可运行MapReduce程序默认
值:"" -->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<!-- 是否将对容器实施物理内存限制 -->
<property>
<name>yarn.nodemanager.pmem-check-enabled</name>
<value>false</value>
</property>
<!-- 是否将对容器实施虚拟内存限制。 -->
<property>
<name>yarn.nodemanager.vmem-check-enabled</name>
<value>false</value>
</property>
<!-- 开启日志聚集 -->
<property>
<name>yarn.log-aggregation-enable</name>
<value>true</value>
</property>
<!-- 设置yarn历史服务器地址 -->
<property>
<name>yarn.log.server.url</name>
<value>http://hadoop01:19888/jobhistory/logs</value>
</property>
<!-- 保存的时间7天 -->
<property>
<name>yarn.log-aggregation.retain-seconds</name>
<value>604800</value>
</property>

</configuration>

5.配置hdfs-site.xml

<configuration>
<!-- 指定secondarynamenode运行位置 -->
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>hadoop02:50090</value>
</property>
</configuration>

最后使用start-dfs.sh和start-yarn.sh启动所有分布式服务系统,最后结果为:

 

 

 

 

  

 

标签:day01,配置,hadoop,mapreduce,etc,集群,mysql,HOME
From: https://www.cnblogs.com/hellotoworld/p/17757065.html

相关文章

  • 迷你Ceph集群搭建(超低配设备)
    我的博客原文链接:https://blog.gcc.ac.cn/post/2023/%E8%BF%B7%E4%BD%A0ceph%E9%9B%86%E7%BE%A4%E6%90%AD%E5%BB%BA/(原文有图,这里没图)环境机器列表:IP角色说明10.0.0.15osdARMv7,512M内存,32G存储,百兆网口10.0.0.16clientARM64,2G内存,测试集群性能用,千兆网口10.0.0.17osdAMD64,2G内存,32G......
  • ES集群节点类型
    4 ES集群节点类型es集群中节点类型介绍ClusterStateMasterDataCoordinating4.1ClusterStateClusterState:集群相关的数据称为clusterstate;会存储在每个节点中,主要有如下信息:节点信息,比如节点名称、节点连接地址等索引信息,比如索引名称、索引配置信息等4.2MasterES集......
  • 云行|乘云而上,“赣”劲十足,天翼云4.0暨赣州算力集群落成!
    10月10日,以“算”汇三江水,“云”聚八境台为主题的天翼云中国行·赣州站活动成功举办,赣州市有关领导,以及客户、合作伙伴等众多企业代表共同出席。会上举行了天翼云4.0暨赣州算力集群落成发布仪式,通过进一步完善云资源部署,天翼云助力赣州政府与各行各业实现上云用数赋智的转型升级,打......
  • Hadoop-Operation category READ is not supported in state standby 故障解决
    在查询hdfs时或者执行程序向hdfs写入数据时遇到报错:OperationcategoryREADisnotsupportedinstatestandby 意思是:该主机状态为待机,不支持操作类别READ.你会发现最基本的hdfs命令都不能执行,例如:hadoopfs-ls/自定义的是nn1还是namenode1等自定义名可以在配置文件h......
  • 云行|乘云而上,“赣”劲十足,天翼云4.0暨赣州算力集群落成!
    10月10日,以“算”汇三江水,“云”聚八境台为主题的天翼云中国行·赣州站活动成功举办,赣州市有关领导,以及客户、合作伙伴等众多企业代表共同出席。会上举行了天翼云4.0暨赣州算力集群落成发布仪式,通过进一步完善云资源部署,天翼云助力赣州政府与各行各业实现上云用数赋智的转型升级,打......
  • 分库和集群方案
          ......
  • Hadoop2伪分布式安装、分布式安装
    最近有观看我主讲的《Hadoop基础与演练》课程的同学问到Hadoop环境到底应该怎么安装。Hadoop的安装其实非常的简单,网上有很多教程,官网也有示例。但是可能部分同学对于linux不太熟悉,导致安装的时候会遇到各种问题,打击学习激情。本文就来详细的讲解一下如何配置Hadoop2的伪分布式环......
  • day01-java数组
    数组概述数组的定义数组时相同类型的数据的有序集合数组描述的时相同类型的若干个数据,按照一定的先后次序排列组合而成。数组的声明和创建首先必须声明数组变量,才能在程序中使用数组。dateType[]arrayRefVar;或者dataTypearrayRefVar[];//效果相同,但不是所选方法java......
  • day01-Java方法
    方法java方法是语句的集合,它们在一起执行一个功能--相当于c中的函数方法是解决一类问题的步骤的有序组合方法包含于类或对象中方法在程序中被创建,在其他地方被引用设计方法的原则:方法的本意是功能块,就是实现某个功能的语句块的集合。我们设计方法的时候,最好保持方法的原子......
  • day01-java流程控制
    用户交互Scannerjava.util.Scanner是java5的新特征,我们可以通过Scanner类来获取用户的输入。Scanners=newScanner(System.in);​//通过Scanner类的next()与nextLine()方法获取输入的字符串,在读取前我们一般需要使用hasNext()与hasNextLine()判断是否还有输入的数据。import......