首页 > 其他分享 >Hadoop开启Yarn的日志监控功能

Hadoop开启Yarn的日志监控功能

时间:2023-02-18 12:36:26浏览次数:62  
标签:yarn name avro Hadoop hive hadoop Yarn 日志 type


1.开启JobManager日志

(1)编辑NameNode配置文件${hadoop_home}/etc/hadoop/yarn-site.xml和mapred-site.xml

Hadoop开启Yarn的日志监控功能_hive

  • 编辑yarn-site.xml
<!-- Site specific YARN configuration properties -->
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>

<!-- 开启日志聚合 -->
<!-- 是否启用日志聚集功能 -->
<property>
<name>yarn.log-aggregation-enable</name>
<value>true</value>
</property>
<!-- 日志存储时间 -->
<property>
<name>yarn.log-aggregation.retain-seconds</name>
<value>10080</value>
</property>
<!--当应用程序运行结束后,日志被转移到的HDFS目录(启用日志聚集功能时有效),如此便可通过appmaster UI查看作业的运行日志。-->
<property>
<name>yarn.nodemanager.remote-app-log-dir</name>
<value>/flink/log</value>
</property>
<!-- 日志服务器的地址 -->
<property>
<name>yarn.log.server.url</name>
<value>http://localhost:19888/jobhistory/logs</value>
</property>
<!-- 正在运行中的日志在hdfs上的存放路径 -->
<property>
<name>mapreduce.jobhistory.intermediate-done-dir</name>
<value>/history/done_intermediate</value>
</property>

<!-- 运行过的日志存放在hdfs上的存放路径 -->
<property>
<name>mapreduce.jobhistory.done-dir</name>
<value>/history/done</value>
</property>
</configuration>
  • 编辑mapred-site.xml
<property>
<!-- 表示提交到hadoop中的任务采用yarn来运行,要是已经有该配置则无需重复配置 -->
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<property>
<!--日志监控服务的地址,一般填写为namenode机器地址 -->
<name>mapreduce.jobhistroy.address</name>
<value>hadoop101:10020</value>
</property>
<!--填写为namenode机器地址-->
<property>
<name>mapreduce.jobhistroy.webapp.address</name>
<value>hadoop101:19888</value>
</property>
#复制配置文件到集群的其他机器
scp mapred-site.xml 用户@IP地址:/目标机器文件夹路径
scp yarn-site.xml 用户@IP地址:/目标机器文件夹路径

(3)重启yarn,重启历史服务

Hadoop开启Yarn的日志监控功能_hadoop_02

./stop-yarn.sh && ./start-yarn.sh
#进入到hadoop的安装目录
cd ${hadoophome}/hadoop/sbin

Hadoop开启Yarn的日志监控功能_大数据_03

kill -9 117681 && ./mr-jobhistory-daemon.sh start historyserver

(4)查看服务运行情况

jps

Hadoop开启Yarn的日志监控功能_hive_04

(5)运行flink on yarn

Hadoop开启Yarn的日志监控功能_大数据_05

./bin/flink run -m yarn-cluster -c com.lixiang.app.FlinkDemo ./flink-demo-jar-with-dependencies.jar

Hadoop开启Yarn的日志监控功能_hadoop_06

(6)查看hadoop控制台

Hadoop开启Yarn的日志监控功能_hadoop_07


Hadoop开启Yarn的日志监控功能_mapreduce_08


Hadoop开启Yarn的日志监控功能_hive_09

2.开启TaskManager日志

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
<name>javax.jdo.option.ConnectionURL</name>
<value>jdbc:mysql://192.168.139.101:3306/metastore?useSSL=false</value>
</property>

<property>
<name>javax.jdo.option.ConnectionDriverName</name>
<value>com.mysql.jdbc.Driver</value>
</property>
<property>
<name>javax.jdo.option.ConnectionUserName</name>
<value>root</value>
</property>
<property>
<name>hive.metastore.warehouse.dir</name>
<value>/user/hive/warehouse</value>
</property>
<property>
<name>javax.jdo.option.ConnectionPassword</name>
<value>123456</value>
</property>
<property>
<name>hive.metastore.schema.verification</name>
<value>false</value>
</property>
<property>
<name>hive.metastore.event.db.notification.api.auth</name>
<value>false</value>
</property>
<property>
<name>hive.cli.print.current.db</name>
<value>true</value>
</property>
<property>
<name>hive.cli.print.header</name>
<value>true</value>
</property>
<property>
<name>hive.server2.thrift.bind.host</name>
<value>ip</value>
</property>
<property>
<name>hive.server2.thrift.port</name>
<value>10000</value>
</property>
</configuration>
CREATE EXTERNAL TABLE tweets
COMMENT "A table backed by Avro data with the Avro schema embedded in the CREATE TABLE statement"
ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.avro.AvroSerDe'
STORED AS
INPUTFORMAT 'org.apache.hadoop.hive.ql.io.avro.AvroContainerInputFormat'
OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.avro.AvroContainerOutputFormat'
LOCATION '/user/hive/warehouse'
TBLPROPERTIES (
'avro.schema.literal'='{
"type": "record",
"name": "Tweet",
"namespace": "com.miguno.avro",
"fields": [
{ "name":"username", "type":"string"},
{ "name":"tweet", "type":"string"},
{ "name":"timestamp", "type":"long"}
]
}'
);

insert into tweets values('zhaoliu','Hello word',13800000000);
select * from tweets;

//建立外部 schema
CREATE EXTERNAL TABLE avro_test1
ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.avro.AvroSerDe'
STORED AS
INPUTFORMAT 'org.apache.hadoop.hive.ql.io.avro.AvroContainerInputFormat'
OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.avro.AvroContainerOutputFormat'
LOCATION '/user/tmp'
TBLPROPERTIES (
'avro.schema.url'='hdfs:///user/hive/warehouse/student.avsc'
);
{
"type":"record",
"name":"student",
"namespace":"com.tiejia.avro",
"fields":[
{
"name":"SID",
"type":"string",
"default":""
},
{
"name":"Name",
"type":"string",
"default":""
},
{
"name":"Dept",
"type":"string",
"default":""
},
{
"name":"Phone",
"type":"string",
"default":""
},
{
"name":"Age",
"type":"string",
"default":""
},
{
"name":"Date",
"type":"string",
"default":""
}
]
}

"type": "record",
"name": "Tweet",
"namespace": "com.miguno.avro",
"fields": [
{
"name": "username",
"type": "string"
},
{
"name": "tweet",
"type": "string"
},
{
"name": "timestamp",
"type": "long"
}
]
}

CREATE EXTERNAL TABLE tweets
ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.avro.AvroSerDe'
STORED AS
INPUTFORMAT 'org.apache.hadoop.hive.ql.io.avro.AvroContainerInputFormat'
OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.avro.AvroContainerOutputFormat'
LOCATION '/user/tmp'
TBLPROPERTIES (
'avro.schema.url'='hdfs:///user/hive/warehouse/tweets.avsc'
);


标签:yarn,name,avro,Hadoop,hive,hadoop,Yarn,日志,type
From: https://blog.51cto.com/u_15646271/6065294

相关文章

  • Linux 日志查找常用命令
    1.1cat、zcatcat-napp.log|grep"error":查询日志中含有某个关键字error的信息,显示行号。cat-napp.log|grep"error"--color:查询日志中含有某个关键字error......
  • 【MySQL】事务日志 undo log 详解
    Redolog是事务持久性的保证,Undolog是事务原子性的保证。在事务中更新数据的前置操作其实就是要写入Undolog。1.Undo日志引入:事务需要保证原子性,也就是事务中的操作要么......
  • 【Android逆向】滚动的天空中插入smali日志
    1.编写一个MyLog.java放到一个android工程下,编译打包,然后反编译拿到MyLog的smali代码packagecom.example.logapplication;importandroid.util.Log;publicclassM......
  • hadoop组件面试常见问题
    1、谈谈对HDFS的理解?HDFS这种存储适合哪些场景?HDFS即HadoopDistributedFileSystem,Hadoop分布式文件系统。它为的是解决海量数据的存储与分析的问题,它本身是源于Goole在......
  • Hadoop
    HadoopHDFS、Yarn、MapReduceHadoop集群环境搭建完全分布式环境,伪分布式将其中的多台服务器改为一台,并将配置文件中的相关内容更改即可1、安装Linux系统模型机关闭......
  • Hadoop数据存储及管理
    一、分布式文件存储面临的挑战1.海量数据存储问题采用多台服务器,支持横向扩展2.海量数据问题查询便捷问题使用元数据记录文件和机器的位置信息3.大文件传输效率慢......
  • 关于net core 开发服务时,使用Serilog根据appsettings.json输出日志错误的问题。
    使用Serilog输出日志时,配置内容如下,"Serilog":{"Using":["Serilog.Sinks.Console","Serilog.Sinks.File"],"MinimumLevel":"Debug","WriteTo":[......
  • k8s日志收集方案
    节点系统日志            节点应用日志        节点Pod日志      通过边车容器机制共享Pod卷采集主容器的日志 ......
  • 蓝桥杯备战日志(Python)16-玩具蛇&序列个数-(DFS&枚举、递归)
    玩具蛇原题小蓝有一条玩具蛇,一共有16节,上面标着数字1至16。每一节都是一个正方形的形状。相邻的两节可以成直线或者成90度角。小蓝还有一个4×4的方格盒子,用于存放......
  • adb日志文件
    一、获取日志文件一般情况下,我们在做app测试时,其实并不需要经常使用adb去抓取我们的日志,通常情况下都是有预期结果和实际结果做对比的。真正需要adb抓取日志的时候,是......