README.md
# how to use
# 使用说明
## 确认是否初始化完成, 当前yarn-session管理所有 《用户属性任务》
## 任务名称为: bus_user_info_flinkjob
path=`pwd`
00. 确认是否已经存在yarn session
`shell
yarn app -list |grep app_log_2_hudi_flinkJob
`
1. 若未运行yarn session 应该执行以下命令, 运行yarnsession 创建Application-Name
/opt/flink/bin/yarn-session.sh -jm 10G -tm 10G -nm app_log_2_hudi_flinkJob -qu realtime -d
2. 记录当前yarn session , 启动任务时要使用
yarn application --list get 创建的Application-Name :app_log_2_hudi_flinkJob 的 jobid
`shell
jobid=`yarn app -list |grep bus_user_info_flinkjob |awk -F ' ' '{print $1}'`
sed -i "s/applicationID=.*/applicationID=${jobid}/g" /tmp/.yarn-properties-hdfs
`
3. 完成后可以执行任务, 每个任务可以单独提交, 每个任务说明流向及数据源信息(特征)
`shell
# 任务1.--数据实时入hudi 通过kafka收集数据,运行该程序, 可以将用明细数据, 按天进行分区,存储到 hudi 数据湖中。
/opt/flink/bin/sql-client.sh -f /data/flinkJob/flinksql/app_log/01_kafka2hudi_all.sql --session $jobid
# 任务2.-- 登录数据实时统计 入clickhouse 通过kafka收集数据,运行该程序, 可以将用户明细数据, 按天进行分区,存储到 clickhouse 中。
/opt/flink/bin/sql-client.sh -f /data/flinkJob/flinksql/app_log/01_kafka2clickhouse.sql --session $jobid
`
标签:hudi,启动,app,flink,yarn,session,sql
From: https://www.cnblogs.com/whiteY/p/17388604.html