腾讯EMR表治理工具安装使用

时间：2024-04-22 10:58:52浏览次数：25

标签：luoshu service EMR export usr 腾讯 spark local 治理

一、安装

1、root用户上传文件

cd wang
rz -bey luoshu-1.0-bin.tar.gz

2、解压文件到服务目录

重新安装洛书需执行：rm -rf /usr/local/service/luoshu

mkdir /usr/local/service/luoshu

tar -zxf luoshu-1.0-bin.tar.gz -C /usr/local/service/luoshu

3、（仅初次安装洛书执行）连接hive metastore,执行初始化脚本。脚本会新建数据库luoshu_db

mysql -h 127.0.0.1 -u账号 -p'密码' < config/luoshu-mysql-init.sql

4、（仅初次安装洛书执行）查看本地有无jdk-17.0.6版本，没有则上传。解压到/usr/local/jdk-17.0.6

rz -bey jdk-17.0.6.tar.gz

tar -zxf jdk-17.0.6.tar.gz -C /usr/local/

5、修改luoshu/config下面的luoshu-env.sh

#!/usr/bin/env bash
 
# Options for luoshu server
# - JAVA_HOME, to set java home path
#export JAVA_HOME=
export JAVA_HOME=/usr/local/jdk-17.0.6
 
# - JAVA_EXTRA_OPTS, set java extra opts for luoshu server
#export JAVA_OPTS="-server -Xms512m -Xmx512m"
export JAVA_OPTS="-server -Xms512m -Xmx512m -Djava.security.krb5.conf=/etc/krb5.conf --add-opens=java.security.jgss/sun.security.krb5=ALL-UNNAMED"
 
# - HADOOP_CONF_DIR, to point Spark towards Hadoop configuration files
#export HADOOP_CONF_DIR=
export HADOOP_CONF_DIR=/usr/local/service/hadoop/etc/hadoop
 
# - HIVE_CONF_DIR, to point Spark towards Hive configuration files
#export HIVE_CONF_DIR=
export HIVE_CONF_DIR=/usr/local/service/hive/conf
 
# - LUOSHU_LOG_DIR, to set where log files are stored. (Default: ${LUOSHU_HOME}/logs)
#export LUOSHU_LOG_DIR=
 
# - SERVER_PORT, to set luoshu web server listen port. (Default: 8080)
#export SERVER_PORT=8080
export SERVER_PORT=9090
 
# - DB_DRIVER, to set datastore engine driver class name. (Default: com.mysql.cj.jdbc.Driver)
#export DB_DRIVER=com.mysql.cj.jdbc.Driver
export DB_DRIVER=com.mysql.cj.jdbc.Driver
 
# - DB_URL, to set datastore engine connection url
#export DB_URL="jdbc:mysql://localhost:3306/db?useSSL=false&characterEncoding=UTF-8"
export DB_URL="jdbc:mysql://localhost:3306/luoshu_db?useSSL=false&characterEncoding=UTF-8"
 
# - DB_USER, to set datastore engine connection username
#export DB_USER=
export DB_USER=账号
 
# - DB_PASS, to set datastore engine connection password
#export DB_PASS=
export DB_PASS=密码

6、配置luoshu-config.properties新增如下配置

#本地ip和spark做rpc通信，不能用127.0，用本机ip
thrift.server.host=10.10.10.10
thrift.server.port=9091

7、修改spark配置

/usr/local/service/spark/conf/spark-env.sh

新增：export JAVA_HOME=/usr/local/jdk

8、krb5.conf增加配置

原因：洛书使用了jdk17，不支持低版本加密方式，需要开启兼容

vim /etc/krb5.conf

[libdefaults]下面新增
allow_weak_crypto = true

9、增加jar包

/usr/local/service/hadoop/share/hadoop/common/lib下面拷贝包

cp chdfs_hadoop_plugin_network-2.7.jar /usr/local/service/luoshu/lib/

cp gson-2.2.4.jar /usr/local/service/luoshu/lib/

cp goosefs-1.1.0-SNAPSHOT-client.jar /usr/local/service/luoshu/lib/

10、修改文件夹权限

chown hadoop:hadoop luoshu -R

11、多询问一下，有没有数据库变更

有的更新可能有数据库变更，询问有没有数据库字段变更，确保启动正常

12、启动luoshu（hadoop用户）

sudo su - hadoop

cd /usr/local/service/luoshu/bin

sh start.sh

13、验证服务

（1）查看启动日志

tail -f /usr/local/service/luoshu/logs/luoshu.log -n 500

（2）ps -ef |grep -i luoshu

查看是否是hadoop登录

（3）登录洛书页面，新增任务，查看是否验证正常

data_lake_ods.order_info1

14、附加-luoshu定时提交任务

默认是创建时间，每天一次全表优化

优化命令：

/usr/local/service/spark/bin/spark-submit --master yarn --deploy-mode cluster --queue default --class com.tencent.luoshu.optimizer.SparkBatchOptimizer --conf spark.yarn.submit.waitAppCompletion=false --conf spark.yarn.dist.files=/usr/local/service/luoshu/config/luoshu-config.properties --conf spark.app.name=spark-luoshu --conf spark.yarn.tags=spark-20240103164142 --conf spark.yarn.applicationType=spark-20240103164142 /usr/local/service/luoshu/spark/luoshu-spark-1.0-jar-with-dependencies.jar -1

15、附加-测试kerberos连接工具

/usr/local/jdk-17.0.6/bin/java -Djava.security.krb5.conf=/etc/krb5.conf --add-opens=java.security.jgss/sun.security.krb5=ALL-UNNAMED -jar kerberos-test-1.0-jar-with-dependencies2.jar

二、使用

1、页面管理地址

127.0.0.1:9090/luoshu

2、配置定时清理任务

标签：luoshu,service,EMR,export,usr,腾讯,spark,local,治理
From： https://www.cnblogs.com/robots2/p/18150187

表治理-iceberg表手动治理常用命令
一、登录spark客户端spark-sql--masteryarn\--deploy-modeclient\--queuedefault\--namewang\--driver-memory12G\--num-executors10\--executor-cores4\--executor-memory20G二、sql查询表信息1、查询表快照信息SELECT*FROMspark_catalog.data_lak......
win10系统腾讯会议连接蓝牙耳机（小米buds3）没有声音
台式机放在工位地下，用有线耳机实在太麻烦。台式机如何连接蓝牙耳机了。只需要在拼多多上面买个蓝牙适配器。5-10块钱哪种就行（蓝5.1就够了，有钱就买最好的）添加后，听音乐啥的都没有问题。但是今天腾讯会议开会，居然灭有声音。连接蓝牙耳机后，腾讯会议还是外放，可能是由于声音模式未切......
数据治理2
么是数据治理？数据治理是一种管理和保护数据资源的综合性方法。它涵盖了数据的收集、存储、处理、传输和使用，旨在确保数据的质量、可用性、安全性和合规性。数据治理的要素数据治理包括以下关键要素：数据质量管理：确保数据准确、完整、一致和可靠。数据安全......
前端【小程序】14-小程序基础篇【地理位置】【腾讯定位服务】
腾讯定位服务官网：https://lbs.qq.com位置服务（LBS）是基于用户的位置来提供服务的技术，通过要配合第三方的服务来实现，如腾讯地图、高德地图、百度地图等，享+项目采用的是腾讯的位置服务。申请使用腾讯位置服务需要按如下步骤操作：注册账号创建应用生成key小程序管理后......
数据治理
数据治理对于企业来说至关重要。它可以帮助企业清晰地了解自己的数据资源、数据流和数据质量。通过有效的数据治理，企业能够更好地管理和控制数据，最大化数据的价值，并在决策过程中减少错误和风险。数据治理的步骤及原则数据收集和整合数据治理的第一步是收集和整合数据......
腾讯云APP备案指南：一站式完成备案手续，助您顺利上线
工信部最新通知要求所有互联网信息服务提供者完成移动互联网应用程序备案手续。腾讯云为开发者提供了简单易行的备案流程，本文详细解答如何在腾讯云平台完成备案，帮助开发者快速上线自己的APP。从验证备案域名到腾讯云审核，一步步指导您完成备案流程，让您的APP合法合规地运营。1.验......
长连接网关技术专题(十一)：揭秘腾讯公网TGW网关系统的技术架构演进
本文由腾讯技术团队peter分享，原题“腾讯网关TGW架构演进之路”，下文进行了排版和内容优化等。1、引言TGW全称TencentGateway，是一套实现多网统一接入，支持自动负载均衡的系统，是公司有10+年历史的网关，因此TGW也被称为公司公网的桥头堡。本文从腾讯公网TGW网关系统的应用场景、......
实习记录-腾讯一面
1.mysql的优化。建表的时候、使用索引、sql语句的编写、主从复制，读写分离，还有一个是如果量比较大的话，可以考虑分库分表在定义字段的时候需要结合字段的内容来选择合适的类型，如果是数值的话，像tinyint、int、bigint这些类型，要根据实际情况选择。如果是字符串类型，也是结......
腾讯音乐：说说Redis脑裂问题？
Redis脑裂问题是指，在Redis哨兵模式或集群模式中，由于网络原因，导致主节点（Master）与哨兵（Sentinel）和从节点（Slave）的通讯中断，此时哨兵就会误以为主节点已宕机，就会在从节点中选举出一个新的主节点，此时Redis的集群中就出现了两个主节点的问题，就是Redis脑裂问题。脑裂问题影响Redis......
RTX 腾讯通停止服务，有哪些平滑升级迁移替代方案？
RTX腾讯通，作为腾讯公司于2003年推出的企业即时通讯软件，曾经在政企单位中得到广泛应用。然而，自2015年后，这款软件就未曾更新，近期腾讯将RTX腾讯通官网的域名更改为跳转到企业微信官网，这意味RTX腾讯通正式停止服务。尽管如此，由于本地化部署的特点，已安装用户仍可继续使用。但面临授权文......