首页 > 其他分享 >OpenMLDB v0.8.4 诊断工具全面升级

OpenMLDB v0.8.4 诊断工具全面升级

时间:2023-11-24 11:46:24浏览次数:31  
标签:状态 修复 Detail OpenMLDB 诊断 v0.8 集群

新的v0.8.4版本中,我们对于诊断工具进行了全面系统化的升级,以提供更加完整和智能化的诊断报告,有助于高效排查 OpenMLDB 集群问题,大幅提升运维效率。

相比于之前的版本,新的诊断工具增添一键诊断功能,使用openmldb_tool inspect就可以一键诊断集群的健康状态。提供的信息包括XX DetailSummary & Hint两个部分。XX Detail部分提供集群现状信息;Summary & Hint部分总结了重点需要关注的信息点,并且智能提示可能有问题的地方及相应的对策,帮助用户进行集群修复。 一般情况下,Summary & Hint部分的信息足够用户对集群进行对应的修复;对于更棘手的情况,用户可参照XX Detail里的现状信息进行处理,或者向我们提供报告,我们可以更快速地定位集群问题、进行修复指导。诊断工具的具体详情可以参见文档(https://openmldb.ai/docs/zh/main/maintain/diagnose.html)。 接下来我们简单演示如何使用一键诊断功能来查看集群状态以及如何快速解决常见问题。

报告讲解与演示

以OpenMLDB Demo镜像为例,启动OpenMLDB集群。一键诊断后,用户可以直接检查末尾的Summary & Hint报告总结章,它将总结整个集群的状态,包括Server是否在线,和Table是否健康。

健康状态

绿色提示Server均在线和Table均健康,是正常的状态。
file

异常状态

如果某台Tablet Server掉线了,总结将提示:
file

Server异常状态

报告中,我们首先看到“offline servers”,报告提示我们需要先重启它们。除非该节点是无数据的,其他任何情况,请优先恢复下线server节点,再对表的健康情况进行诊断。

Table异常状态

我们已经将下线server恢复,再次诊断集群,报告如下图所示。此时仍存在不健康的表。状态有两种:

  • 红色Fatal状态,说明此时表处于危险状态,可能会读写失败,需要立即处理。
  • 黄色Warn状态,说明表的主分片都在活动中,读写是可以的,但也请及时处理,只是没有Fatal紧急。

file
请注意这些表虽然仍然不健康,但它们有一些关联的后台OP正在执行。它们是集群自动发起的修复,用户此时不需要手动修复,需要等待后台OP完成。一般情况下,集群自动修复完成后,一键诊断会显示集群已健康。

Table特别异常状态

在实际的运维过程中,可能因为一些意外情况,导致类似下图的情况。Table处于异常状态且并没有后台OP正在运行,它意味着集群并未触发自动修复或修复已经失败。
file
这时候,就需要用户手动操作了,根据报告末尾的提示链接进行recoverdata。如果recoverdata提示成功,可再次一键诊断,确认集群已恢复健康。

详细报告

对于更棘手的情况,我们可以通过报告中的Detail部分来对当前集群进行分析。

Table Partition Detail

Table Partition Detail部分可以让我们直观地了解各个表现在处于什么样的状态。每个Partition分片的主从副本位于哪台Tablet,副本本身是什么状态,都有清晰的展示。结合Example,我们可以看到,一个分片pX代表其分片id,各个副本在Tablet Server上是元信息丢失,还是信息异常等。
file

Ops Detail

Ops Detail可以提示我们集群当前的后台情况,是否自动修复失败等。我们可以通过最后一个OP的时间和最后10个非完成OP的详细状态,来判断集群是未触发自动修复,还是正在修复,或者是修复已失败,或者是部分表修复失败。

提供报告

用户如果通过以上流程,仍无法修复集群,请向我们提供Detail部分的信息,我们可以更快速地定位集群问题、进行修复指导。

相关阅读

标签:状态,修复,Detail,OpenMLDB,诊断,v0.8,集群
From: https://www.cnblogs.com/4paradigm-opensource/p/17853391.html

相关文章

  • OpenMLDB SQL 开发调试神器 - OpenMLDB SQL Emulator
    今天为大家介绍一款来自OpenMLDB社区的优秀独立工具-OpenMLDBSQLSimulator(https://github.com/vagetablechicken/OpenMLDBSQLEmulator),可以让你更加高效方便的开发、调试OpenMLDBSQL。为了高效的实现时序特征计算,OpenMLDBSQL对标准SQL做了改进和扩展,因此初学者在使用......
  • PHM案例 | 发动机故障诊断、健康状态评估
    背景该型号发动机是V型6缸柴油发动机,是某装备量较大的履带车辆发动机,该型装备应用地域较广、环境比较恶劣,因此发动机损耗较大,为提高装备的完好率、降低维护费用必须引入健康管理系统为视情维护提供充分的数据支撑。根据对用户和维修单位的走访,我们了解到该型发动机的故障主要集......
  • PHM对复杂控制系统的状态监控及故障诊断
    背景该型号复杂控制系统是由7台各种车辆组成的复杂电子、机械复合系统,这些系统通过数据总线连接在一起,总线数据中既有控制指令数据也有执行响应数据或BIT数据,这些数据可以作为系统健康状态评估或故障诊断的依据,然而在以往类似型号中这些数据并未得到有效的利用,系统维护效率一直停......
  • 视频质量AI检测算法与LiteCVR视频质量诊断方案介绍
    LiteCVR视频质量诊断方案可以实现对监控设备常见的异常抖动、画面条纹、画面模糊、偏色、亮度异常、对比度异常、冻结、丢失、噪声等机器故障及恶意遮挡、恶意变化监控场景的行为做出准确判断,还可以对监控设备因为网络异常等原因导致的设备断线、取流异常、码率是否达标等问题进行......
  • 使用 dotnet-monitor 诊断.NET应用程序
    生产环境中收集诊断信息在生产环境中,收集诊断信息(如跟踪、日志、度量和转储)可能具有挑战性。通常,必须访问环境,安装一些工具,然后收集信息。dotnet-monitor简化并统一了收集诊断信息的方式,通过暴露一个RESTAPI,无论您的应用程序在哪里执行(在您的本地机器上,内部服务器上,或在Kuber......
  • 医院诊断证明一键生成器,画板+透明标签+取快照即可实现
    画板+透明标签+取快照就能实现一个自动生成诊断截图的工具,图片还是从网上随便找的,这个你可以自己随便换,但是我这里因为写教程所以加了水印,当然仅仅只是为了把自己的开发经验和思路以及代码逻辑分享一下而已,就是通过快照取画板截图,输出通过写到文件()命令即可实现,图片字节集信息通过......
  • POSTGRESQL 如何用系统函数来诊断权限问题
    开发人员很少关注于数据库系统的权限,而POSTGRESQL相对于MYSQL来说,他的权限是复杂的,尤其在一些规范的企业,对于权限的要求很高,而随时掌握账号对于数据库OBJECTS的权限的状态,在很多项目中是乙方需要知道该怎么做的。我们从上到下,一一给大家进行演示,你的用户组需要针对PG中不同的数据......
  • 常见诊断网络连接是否正确的命令
    背景经常我们需要确认我们使用的主机与目标主机是否连通,若不连通的话,其中在哪里断开测试是否连通:pingip,可选参数-n(定义发送数据包的个数),-t(不间断向目标地址发送数据包,直到我们强迫其停止),-l(设置数据包的大小,一般默认32字节)测试连通路径上有哪些ip:windows使用命令tracert......
  • 皮肤病诊断系统
    batchsize小批量(mini-batch):通常是指batchsize在1-32之间。这种情况下训练速度较慢,但对于一些小数据集或者资源有限的情况下可以选择这种方式。中等批量(medium-batch):通常是指batchsize在32-128之间。这种情况下训练速度比小批量快一些,同时可以更好地利用GPU加速计算,适用......
  • Java虚拟机的监控及诊断工具(命令行)
    对于普通的开发人员来说,可以阅读帮助文档或者源码来对JDK的设计以及JVM的内存管理获取一定的了解,但对于线上运行的程序,如何对程序进行监控和诊断呢?比如一个程序挂了,怎么通过分析堆栈信息、GC日志、线程快照等信息来快速定位问题?JDK的大佬早就为我们考虑到这一点,所以在JDK中包含了......