首页 > 其他分享 >问题排查org

问题排查org

时间:2023-08-13 10:12:13浏览次数:44  
标签:attempt 000000 AM 问题 排查 job org 日志

问题排查org.apache.hadoop.ipc.Client

背景是在三台云服务器上部署Hadoop集群,当提交job到yarn上执行时,一直处在map阶段,记录一下排查问题的过程。

排查思路

  1. 都已经到map阶段了,说明ApplicationMaster(AM)已经起了,所以我打算查看AM的日志。

如何知道AM起在哪台机器呢?appllicationID是知道的,在web端就可以看到。因为AM的container是由ResourceManager分配的,因此RM的log一定知道起在哪台机器。

所以我查看了RM的日志,用applicationID搜到了那段日志;

less查看日志

less log.log
shift + G 命令到文件尾部 然后输入 ?加上你要搜索的关键字例如 ?1213
按 n 向上查找关键字
shift+n 反向查找关键字

ok,知道在nanguaHost6这台机器起的AM了。

  1. 查看AM log

    在{Hadoop_HOME}/logs/userlogs/下就有application日志目录,一直进到里面,可以看到如下文件:

  • stderr:输出System.err输出信息;

  • stdout:输出System.out输出信息;

  • syslog:输出日志工具(log4j)输出的信息。

    查看syslog

`截取三句主要的信息`
2023-08-12 20:15:48,266 INFO [AsyncDispatcher event handler] org.apache.hadoop.mapreduce.v2.app.job.impl.TaskAttemptImpl: Diagnostics repo attempt_1691840218748_0001_m_000000_2: AttemptID:attempt_1691840218748_0001_m_000000_2 Timed out after 600 secs
`这里是说有task_attempt attempt_1691840218748_0001_m_000000_2超时了`

2023-08-12 20:15:48,267 INFO [AsyncDispatcher event handler] org.apache.hadoop.mapreduce.v2.app.job.impl.TaskAttemptImpl: attempt_16918402001_m_000000_2 TaskAttempt Transitioned from RUNNING to FAIL_CONTAINER_CLEANUP
`这里说将这个attempt_1691840218748_0001_m_000000_2的状态从运行转为失败容器cleanup,也就是说这个attempt失败了`

2023-08-12 20:15:48,316 INFO [AsyncDispatcher event handler] org.apache.hadoop.mapreduce.v2.app.job.impl.TaskAttemptImpl: attempt_16918402001_m_000000_2 transitioned from state FAIL_TASK_CLEANUP to FAILED, event type is TA_CLEANUP_DONE and nodeId=nanguaHost5:33492
`这里可以看出这个attempt是跑在nanguaHost5上面的`
  1. 查看nanguaHost5的syslog。

发现nanguaHost5一直向nanguaHost6的私网地址发送信号,这肯定是连不通的。

解决方案

我查了一些资料,发现可能是/etc/hosts的配置问题。

将全部节点的127.0.1.1 xxxxxx的行数据全部注释掉后,重启yarn集群。

重新跑job,发现问题解决,nanguaHost5已经通过公网地址连接nanguaHost6了。

参考资料:

  1. https://www.cnblogs.com/dyllove98/archive/2013/06/20/3147024.html
  2. https://www.cnblogs.com/TiestoRay/p/6113248.html

标签:attempt,000000,AM,问题,排查,job,org,日志
From: https://www.cnblogs.com/nanguahh/p/17626199.html

相关文章

  • 背包问题基础模型全解
    01背包Acwing2.01背包问题状态表示:二维集合:只从前\(i\)个物品里面选择总体积\(\leqj\)选法的集合属性:选法价值的最大值状态计算分为放\(i\)和不放\(i\)(要不要把当前物品放进背包):不放\(i\)意味着在前\(i-1\)个物品里面选,且总体积不超过\(j\)放\(i\)......
  • uniapp中连接数据库问题
    教程中的代码//获取数据库内容router.get('/api/goods/search',function(req,res,next){connection.query("select*fromgoods_search",function(error,results,fields){if(error)throwerror;con......
  • kylin v10 安装 Oracle 19c/12c遇到问题汇总
    适用范围麒麟_v10_sp1_20200711Oracle19c/12c银河麒麟V10sp1内核版本redhat8.6内核版本遇到问题19c问题1PRVG-0282:failedtoretrievetheoperatingsystemdistributionIDOracle是不支持在银河麒麟上安装的,但由于银河麒麟也属于redhat系,我们就能伪装自己是redhat系统,从......
  • 堆排序(topk 问题)(NB)
    博客地址:https://www.cnblogs.com/zylyehuo/#_*_coding:utf-8_*_#比较排序importrandomdefsift(li,low,high):#堆的向下调整(小根堆)i=lowj=2*i+1tmp=li[low]whilej<=high:ifj+1<=highandli[j+1]<li[j]:......
  • 华为OD机试-路灯照明问题
      importjava.util.stream.IntStream;publicclassMain{publicstaticvoidmain(String[]args){int[]lights=newint[]{50,70,20,70};inttotal=IntStream.range(0,lights.length-1).map(idx->100-lights[idx]-lights......
  • 如何用随机方法求解组合优化问题(一)
    什么是组合优化问题定义优化问题设\(x\)是决策变量,\(D\)是\(x\)的定义域,\(f(x)\)是指标函数,\(g(x)\)是约束条件。则优化问题可以表示为求解满足\(g(x)\)的\(f(x)\)最小值问题。即:\[\min_{x\inD}(f(x)|g(x))\]组合优化问题如果在定义域\(D\)上,满足约束条件......
  • C# ComboBox 使用 DataSource SelectedIndex无法设置的问题
    在C#中如下代码varcbo=newComboBox();cbo.DropDownStyle=ComboBoxStyle.DropDownList;varcbo.DataSource=newint[]{1,2,3};cbo.SelectedIndex=0;cbo.SelectedIndex=1;cbo.SelectedIndex仍然等于-1并不会变成1甚至有可能抛出ArgumentOutOfRange异常ComboBox的......
  • 解决zabbix乱码问题
    上述的图标数据,下面的小白框表示乱码含义,是因为我们改了zabbix的语言为中文服务器需要安装字体[root@zabbix-server~]#yuminstall-ywqy-microhei-fonts[root@zabbix-server~]#cp/usr/share/fonts/wqy-microhei/wqy-microhei.ttc/usr/share/fonts/dejavu/DejaVuSans......
  • IDEA/Android Studio的gradle控制台输出中文乱码问题解决
    原文地址:IDEA/AndroidStudio的gradle控制台输出中文乱码问题解决-Stars-One的杂货小窝在项目中,有使用到Gradle自定义脚本,会有些输出日志,但是输出中文就变成乱码了..本篇就介绍下解决方法乱码效果如下图所示步骤我是window系统,不知道其他系统会不会出现这个问题乱......
  • 服务器常见问题答疑
    前篇#为什么要写这篇文章呢 现在属于网络时代,服务器的使用越来越广泛,网站搭建、软件开发、游戏开发和区块链等都是需要在服务器里操作搭建的,花时间写这篇文章是希望能有更多的人对服务器有更好的认识 一、##检查哪些尝试入侵服务器的ip命令ubuntu查看尝试登录服务器的ip,一般用......