首页 > 其他分享 >hadoop集群 大数据项目实战_电信用户行为分析_day04

hadoop集群 大数据项目实战_电信用户行为分析_day04

时间:2023-10-20 19:26:22浏览次数:31  
标签:option bigdata hive hadoop 集群 spark day04 javax

进行HIVE环境配置

1.上传相关的包

 2.对上传的包进行下载和创建软连接

 3.配置相关的文件

4.分别发送给其他机子

 假设你需要在所有机器执行同一个指令,则你就需要相关设置

 

 5.在hive的onf文件中创建hive-site.xml进行相关设置

```xml
<configuration>
<-- 元数据存储的数据库配置 -->
<property>
<name>javax.jdo.option.ConnectionURL</name>
<value>jdbc:mysql://biz01:3306/hive?useSSL=false</value>
</property>

<property>
<name>javax.jdo.option.ConnectionDriverName</name>
<value>com.mysql.jdbc.Driver</value>
</property>

<property>
<name>javax.jdo.option.ConnectionUserName</name>
<value>root</value>
</property>

<property>
<name>javax.jdo.option.ConnectionPassword</name>
<value>123456</value>
</property>
<-- 数据文件存储的目录配置 -->
<property>
<name>hive.metastore.warehouse.dir</name>
<value>/user/hive/warehouse</value>
</property>
<-- 去掉metastore的校验 -->
<property>
<name>hive.metastore.schema.verification</name>
<value>false</value>
</property>

<-- 设置thrift的访问端口 hiveserver2 -->
<property>
<name>hive.server2.thrift.port</name>
<value>10000</value>
</property>
<-- 设置hiveserver2绑定的主机 -->
<property>
<name>hive.server2.thrift.bind.host</name>
<value>hadoop03</value>
</property>
<-- 禁用权限认证 -->
<property>
<name>hive.metastore.event.db.notification.api.auth</name>
<value>false</value>
</property>
<-- hive客户端配置, 显示表头信息 -->
<property>
<name>hive.cli.print.header</name>
<value>true</value>
</property>
<-- hive客户端配置, 显示当前数据库 -->
<property>
<name>hive.cli.print.current.db</name>
<value>true</value>
</property>
</configuration>
```

### 初始化元数据信息

```shell
schematool -initSchema -dbType mysql -verbose
```

设置好之后,进行创建数据库和创建表之类的操作

Spark环境配置

1.上传相关包

 

 2.进行解压

 tar -zxvf spark-3.0.0-bin-without-hadoop.tgz  -C /bigdata/serrver/  创建软连接:ln -s spark-3.0.0-bin-without-hadoop  spark 修改文件名字: mv spark-env.sh.template  spark-env.sh

vim conf/spark-env.sh
# spark-on 配置
export HADOOP_CONF_DIR=/bigdata/server/hadoop/etc/hadoop
export YARN_CONF_DIR=/bigdata/server/hadoop/etc/hadoop
# spark的classpath依赖配置
export SPARK_DIST_CLASSPATH=$(/bigdata/server/hadoop/bin/hadoop classpath)

创建一个新的文件spark-default.conf

spark.master=yarn
spark.eventLog.enabled=true
spark.eventLog.dir=hdfs://hadoop01:8020/spark/log
spark.executor.memory=1g
spark.driver.memory=1g

 

 

 

 

 

标签:option,bigdata,hive,hadoop,集群,spark,day04,javax
From: https://www.cnblogs.com/hellotoworld/p/17774079.html

相关文章

  • hadoop官方文档解读
    Hadoop是一个分布式计算框架,用于存储和处理大规模数据集。首先搞清楚为什么需要使用HadoopHadoop进行数据处理可以充分利用分布式计算和存储的优势,适用于大规模数据的批处理和分布式计算场景。裸机上进行数据处理则更适合小规模数据或需要实时处理的场景。在裸机上进行数据处......
  • Oracle集群升级迁移—主机网络设置及交换机侧bond vlan划分
    目录Oracle集群升级迁移—主机网络设置及交换机bondvlan划分网络规划操作系统层面的IP设置bond类型介绍设置bond1和bond0交换机侧的设置(省略)Oracle集群升级迁移—主机网络设置及交换机bondvlan划分网络规划按照工程师要求,配置了5个IP供集群使用。1个IP为ScanIP、2个IP为VIP......
  • CDH集群日志清理
    CDH集群日志清理一、查看磁盘占用情况df-h二、查看日志占用情况cdh的各种组件日志一般在/var/log目录下,因此需要关注“/”根目录,查看/var/log下使用空间较大的文件夹,并又大到小排列cd/var/log/du-s./*|sort-nr还有一个是ClouderaManagementService服......
  • VM部署HDFS集群
    上传hadoop-3.3.4.tar.gz到/export/server解压tar-zxvfhadoop-3.3.4.tar.gz-C/export/server/#快捷方式ln-s/export/server/hadoop-3.3.4hadoopHadoop安装包目录结构目录说明bin存放Hadoop的各类程序(命令)etc存放Hadoop的配置文件sbin管理员程序(s......
  • Oracle集群升级迁移—老集群磁盘切割
    目录Oracle升级迁移剔除磁盘腾出存储LUNGRID用户登录,查询ASM磁盘剔除磁盘Oracle升级迁移目前有两套Oracle采用ADG+RAC架构,其中备库使用的为SUSE12.4目前已EOS,文件系统BFTFS与Oracle兼容性据说也有一定的问题,决定对现有的集群进行升级,升级后服务器统一采用SUSE12.5+EXT4文件系......
  • kubeadm安装k8s集群
    kubeadm安装k8s集群一、机器准备(所有的master和node节点需要执行)部署k8s集群的节点按照用途可以划分为如下2类角色:master:集群的master节点,集群的初始化节点,基础配置不低于2c4gslave:集群的slave节点,可以多台,基础配置不低于1c2g主机名、节点ip、部署组件k8s-master10.......
  • hadoop集群 大数据项目实战_电信用户行为分析_day03
    配置系统环境  Reis1.先把之前的dump.rdb删除掉rm-rfdump.rdb 2.把原始项目给的dump.rdb放进来,它里面包含了需要的数据,比如端口;在这部之前必须要进行关闭端口,随后传送文件,最后重启端口相关指令:   bin/redis-server conf/redis.conf   bin/redis-cli  bin......
  • ES集群调优建议
    9 ES集群调优建议9.1内核参数优化#对于操作系统,需要调整几个内核参数[root@node~]#vim/etc/sysctl.conffs.file-max=655360#设定系统最大打开文件描述符数,建议修改为655360或者更高,vm.max_map_count=262144#用于限制一个进程可以拥有的虚拟内存大小,建议修改成262144......
  • 如何查看Kubernetes集群中哪个Pod占用CPU最高?
    下载MetricsServer的部署文件:wgethttps://github.com/kubernetes-sigs/metrics-server/releases/latest/download/components.yaml编辑下载的components.yaml文件,以便MetricsServer可以与kubelet进行安全通信。spec:containers:-args:......
  • ZooKeeper集群版本升级
     ZooKeeper集群版本升级 环境描述:3节点的集群,当前版本为3.8.1,计划将所有节点版本升级到3.8.3。由于过半机制,即存活的节点数量>(非>=)所有节点数量的一半,则整个集群可以正常对外提供服务。举个例子,3个节点,最少存活2>(3/2=1.5)个节点,即允许有一个节点宕机下依旧能够对外服务。......