问题排查org.apache.hadoop.ipc.Client

背景是在三台云服务器上部署Hadoop集群，当提交job到yarn上执行时，一直处在map阶段，记录一下排查问题的过程。

排查思路

都已经到map阶段了，说明ApplicationMaster(AM)已经起了，所以我打算查看AM的日志。

如何知道AM起在哪台机器呢？appllicationID是知道的，在web端就可以看到。因为AM的container是由ResourceManager分配的，因此RM的log一定知道起在哪台机器。

所以我查看了RM的日志，用applicationID搜到了那段日志；

less查看日志

less log.log
shift + G 命令到文件尾部 然后输入 ？加上你要搜索的关键字例如 ？1213
按 n 向上查找关键字
shift+n 反向查找关键字

ok，知道在nanguaHost6这台机器起的AM了。

查看AM log

在{Hadoop_HOME}/logs/userlogs/下就有application日志目录，一直进到里面，可以看到如下文件：

stderr：输出System.err输出信息；
stdout：输出System.out输出信息；
syslog：输出日志工具（log4j）输出的信息。

查看syslog

`截取三句主要的信息`
2023-08-12 20:15:48,266 INFO [AsyncDispatcher event handler] org.apache.hadoop.mapreduce.v2.app.job.impl.TaskAttemptImpl: Diagnostics repo attempt_1691840218748_0001_m_000000_2: AttemptID:attempt_1691840218748_0001_m_000000_2 Timed out after 600 secs
`这里是说有task_attempt attempt_1691840218748_0001_m_000000_2超时了`

2023-08-12 20:15:48,267 INFO [AsyncDispatcher event handler] org.apache.hadoop.mapreduce.v2.app.job.impl.TaskAttemptImpl: attempt_16918402001_m_000000_2 TaskAttempt Transitioned from RUNNING to FAIL_CONTAINER_CLEANUP
`这里说将这个attempt_1691840218748_0001_m_000000_2的状态从运行转为失败容器cleanup,也就是说这个attempt失败了`

2023-08-12 20:15:48,316 INFO [AsyncDispatcher event handler] org.apache.hadoop.mapreduce.v2.app.job.impl.TaskAttemptImpl: attempt_16918402001_m_000000_2 transitioned from state FAIL_TASK_CLEANUP to FAILED, event type is TA_CLEANUP_DONE and nodeId=nanguaHost5:33492
`这里可以看出这个attempt是跑在nanguaHost5上面的`

查看nanguaHost5的syslog。

发现nanguaHost5一直向nanguaHost6的私网地址发送信号，这肯定是连不通的。

解决方案

我查了一些资料，发现可能是/etc/hosts的配置问题。

将全部节点的127.0.1.1 xxxxxx的行数据全部注释掉后，重启yarn集群。

重新跑job，发现问题解决，nanguaHost5已经通过公网地址连接nanguaHost6了。

参考资料：

标签：attempt,000000,AM,问题,排查,job,org,日志
From： https://www.cnblogs.com/nanguahh/p/17626199.html

背包问题基础模型全解
01背包Acwing2.01背包问题状态表示：二维集合：只从前\(i\)个物品里面选择总体积\(\leqj\)选法的集合属性：选法价值的最大值状态计算分为放\(i\)和不放\(i\)（要不要把当前物品放进背包）:不放\(i\)意味着在前\(i-1\)个物品里面选，且总体积不超过\(j\)放\(i\)......
uniapp中连接数据库问题
教程中的代码//获取数据库内容router.get('/api/goods/search',function(req,res,next){connection.query("select*fromgoods_search",function(error,results,fields){if(error)throwerror;con......
kylin v10 安装 Oracle 19c/12c遇到问题汇总
适用范围麒麟_v10_sp1_20200711Oracle19c/12c银河麒麟V10sp1内核版本redhat8.6内核版本遇到问题19c问题1PRVG-0282:failedtoretrievetheoperatingsystemdistributionIDOracle是不支持在银河麒麟上安装的，但由于银河麒麟也属于redhat系，我们就能伪装自己是redhat系统，从......
堆排序（topk 问题）（NB）
博客地址：https://www.cnblogs.com/zylyehuo/#_*_coding:utf-8_*_#比较排序importrandomdefsift(li,low,high):#堆的向下调整（小根堆）i=lowj=2*i+1tmp=li[low]whilej<=high:ifj+1<=highandli[j+1]<li[j]:......
华为OD机试-路灯照明问题
importjava.util.stream.IntStream;publicclassMain{publicstaticvoidmain(String[]args){int[]lights=newint[]{50,70,20,70};inttotal=IntStream.range(0,lights.length-1).map(idx->100-lights[idx]-lights......
如何用随机方法求解组合优化问题（一）
什么是组合优化问题定义优化问题设\(x\)是决策变量，\(D\)是\(x\)的定义域，\(f(x)\)是指标函数，\(g(x)\)是约束条件。则优化问题可以表示为求解满足\(g(x)\)的\(f(x)\)最小值问题。即：\[\min_{x\inD}(f(x)|g(x))\]组合优化问题如果在定义域\(D\)上，满足约束条件......
C# ComboBox 使用 DataSource SelectedIndex无法设置的问题
在C#中如下代码varcbo=newComboBox();cbo.DropDownStyle=ComboBoxStyle.DropDownList;varcbo.DataSource=newint[]{1,2,3};cbo.SelectedIndex=0;cbo.SelectedIndex=1;cbo.SelectedIndex仍然等于-1并不会变成1甚至有可能抛出ArgumentOutOfRange异常ComboBox的......
解决zabbix乱码问题
上述的图标数据，下面的小白框表示乱码含义，是因为我们改了zabbix的语言为中文服务器需要安装字体[root@zabbix-server~]#yuminstall-ywqy-microhei-fonts[root@zabbix-server~]#cp/usr/share/fonts/wqy-microhei/wqy-microhei.ttc/usr/share/fonts/dejavu/DejaVuSans......
IDEA/Android Studio的gradle控制台输出中文乱码问题解决
原文地址:IDEA/AndroidStudio的gradle控制台输出中文乱码问题解决-Stars-One的杂货小窝在项目中,有使用到Gradle自定义脚本,会有些输出日志,但是输出中文就变成乱码了..本篇就介绍下解决方法乱码效果如下图所示步骤我是window系统,不知道其他系统会不会出现这个问题乱......
服务器常见问题答疑
前篇#为什么要写这篇文章呢现在属于网络时代，服务器的使用越来越广泛，网站搭建、软件开发、游戏开发和区块链等都是需要在服务器里操作搭建的，花时间写这篇文章是希望能有更多的人对服务器有更好的认识一、##检查哪些尝试入侵服务器的ip命令ubuntu查看尝试登录服务器的ip，一般用......

问题排查org

问题排查org.apache.hadoop.ipc.Client

排查思路

解决方案

参考资料：

相关文章

赞助商

阅读排行