hadoop集群大数据项目实战_电信用户行为分析_day04

时间：2023-10-20 19:26:22浏览次数：34

标签：option bigdata hive hadoop 集群 spark day04 javax

进行HIVE环境配置

1.上传相关的包

2.对上传的包进行下载和创建软连接

3.配置相关的文件

4.分别发送给其他机子

假设你需要在所有机器执行同一个指令，则你就需要相关设置

5.在hive的onf文件中创建hive-site.xml进行相关设置

```xml
<configuration>
<-- 元数据存储的数据库配置 -->
<property>
<name>javax.jdo.option.ConnectionURL</name>
<value>jdbc:mysql://biz01:3306/hive?useSSL=false</value>
</property>

<property>
<name>javax.jdo.option.ConnectionDriverName</name>
<value>com.mysql.jdbc.Driver</value>
</property>

<property>
<name>javax.jdo.option.ConnectionUserName</name>
<value>root</value>
</property>

<property>
<name>javax.jdo.option.ConnectionPassword</name>
<value>123456</value>
</property>
<-- 数据文件存储的目录配置 -->
<property>
<name>hive.metastore.warehouse.dir</name>
<value>/user/hive/warehouse</value>
</property>
<-- 去掉metastore的校验 -->
<property>
<name>hive.metastore.schema.verification</name>
<value>false</value>
</property>

<-- 设置thrift的访问端口 hiveserver2 -->
<property>
<name>hive.server2.thrift.port</name>
<value>10000</value>
</property>
<-- 设置hiveserver2绑定的主机 -->
<property>
<name>hive.server2.thrift.bind.host</name>
<value>hadoop03</value>
</property>
<-- 禁用权限认证 -->
<property>
<name>hive.metastore.event.db.notification.api.auth</name>
<value>false</value>
</property>
<-- hive客户端配置, 显示表头信息 -->
<property>
<name>hive.cli.print.header</name>
<value>true</value>
</property>
<-- hive客户端配置, 显示当前数据库 -->
<property>
<name>hive.cli.print.current.db</name>
<value>true</value>
</property>
</configuration>
```

### 初始化元数据信息

```shell
schematool -initSchema -dbType mysql -verbose
```

设置好之后，进行创建数据库和创建表之类的操作

Spark环境配置

1.上传相关包

2.进行解压

tar -zxvf spark-3.0.0-bin-without-hadoop.tgz -C /bigdata/serrver/ 创建软连接：ln -s spark-3.0.0-bin-without-hadoop spark 修改文件名字: mv spark-env.sh.template spark-env.sh

vim conf/spark-env.sh
# spark-on 配置
export HADOOP_CONF_DIR=/bigdata/server/hadoop/etc/hadoop
export YARN_CONF_DIR=/bigdata/server/hadoop/etc/hadoop
# spark的classpath依赖配置
export SPARK_DIST_CLASSPATH=$(/bigdata/server/hadoop/bin/hadoop classpath)

创建一个新的文件spark-default.conf

spark.master=yarn
spark.eventLog.enabled=true
spark.eventLog.dir=hdfs://hadoop01:8020/spark/log
spark.executor.memory=1g
spark.driver.memory=1g

标签：option,bigdata,hive,hadoop,集群,spark,day04,javax
From： https://www.cnblogs.com/hellotoworld/p/17774079.html

hadoop官方文档解读
Hadoop是一个分布式计算框架，用于存储和处理大规模数据集。首先搞清楚为什么需要使用HadoopHadoop进行数据处理可以充分利用分布式计算和存储的优势，适用于大规模数据的批处理和分布式计算场景。裸机上进行数据处理则更适合小规模数据或需要实时处理的场景。在裸机上进行数据处......
Oracle集群升级迁移—主机网络设置及交换机侧bond vlan划分
目录Oracle集群升级迁移—主机网络设置及交换机bondvlan划分网络规划操作系统层面的IP设置bond类型介绍设置bond1和bond0交换机侧的设置（省略）Oracle集群升级迁移—主机网络设置及交换机bondvlan划分网络规划按照工程师要求，配置了5个IP供集群使用。1个IP为ScanIP、2个IP为VIP......
CDH集群日志清理
CDH集群日志清理一、查看磁盘占用情况df-h二、查看日志占用情况cdh的各种组件日志一般在/var/log目录下，因此需要关注“/”根目录，查看/var/log下使用空间较大的文件夹，并又大到小排列cd/var/log/du-s./*|sort-nr还有一个是ClouderaManagementService服......
VM部署HDFS集群
上传hadoop-3.3.4.tar.gz到/export/server解压tar-zxvfhadoop-3.3.4.tar.gz-C/export/server/#快捷方式ln-s/export/server/hadoop-3.3.4hadoopHadoop安装包目录结构目录说明bin存放Hadoop的各类程序（命令）etc存放Hadoop的配置文件sbin管理员程序（s......
Oracle集群升级迁移—老集群磁盘切割
目录Oracle升级迁移剔除磁盘腾出存储LUNGRID用户登录，查询ASM磁盘剔除磁盘Oracle升级迁移目前有两套Oracle采用ADG+RAC架构，其中备库使用的为SUSE12.4目前已EOS，文件系统BFTFS与Oracle兼容性据说也有一定的问题，决定对现有的集群进行升级，升级后服务器统一采用SUSE12.5+EXT4文件系......
kubeadm安装k8s集群
kubeadm安装k8s集群一、机器准备(所有的master和node节点需要执行)部署k8s集群的节点按照用途可以划分为如下2类角色：master：集群的master节点，集群的初始化节点，基础配置不低于2c4gslave：集群的slave节点，可以多台，基础配置不低于1c2g主机名、节点ip、部署组件k8s-master10.......
hadoop集群大数据项目实战_电信用户行为分析_day03
配置系统环境 Reis1.先把之前的dump.rdb删除掉rm-rfdump.rdb 2.把原始项目给的dump.rdb放进来，它里面包含了需要的数据，比如端口；在这部之前必须要进行关闭端口，随后传送文件，最后重启端口相关指令: bin/redis-server conf/redis.conf bin/redis-cli bin......
ES集群调优建议
9 ES集群调优建议9.1内核参数优化#对于操作系统，需要调整几个内核参数[root@node~]#vim/etc/sysctl.conffs.file-max=655360#设定系统最大打开文件描述符数，建议修改为655360或者更高，vm.max_map_count=262144#用于限制一个进程可以拥有的虚拟内存大小，建议修改成262144......
如何查看Kubernetes集群中哪个Pod占用CPU最高？
下载MetricsServer的部署文件：wgethttps://github.com/kubernetes-sigs/metrics-server/releases/latest/download/components.yaml编辑下载的components.yaml文件，以便MetricsServer可以与kubelet进行安全通信。spec:containers:-args:......
ZooKeeper集群版本升级
ZooKeeper集群版本升级环境描述：3节点的集群，当前版本为3.8.1，计划将所有节点版本升级到3.8.3。由于过半机制，即存活的节点数量>（非>=）所有节点数量的一半，则整个集群可以正常对外提供服务。举个例子，3个节点，最少存活2>(3/2=1.5)个节点，即允许有一个节点宕机下依旧能够对外服务。......

hadoop集群大数据项目实战_电信用户行为分析_day04

相关文章

赞助商

阅读排行

hadoop集群 大数据项目实战_电信用户行为分析_day04

相关文章

赞助商

阅读排行

hadoop集群大数据项目实战_电信用户行为分析_day04