在记录相关文档的过程中发现监控中关于该节点的clickhouse数据异常,随后在node节点监控中也不见该节点信息
于是找到相关机器进行检查,堡垒机发现无法连接clickhouse的节点,随后找同网段的机器尝试ping一下测试连通性,
随后发现无法ping通
错误信息:
From 172.21.0.1 icmp_seq=1 Destination Host Unreachable
From 172.21.0.1 icmp_seq=2 Destination Host Unreachable
随后找到云平台,发现该机器状态是正常的,但是为啥无法ping通呢?
只能通过云平台登录到机器中进行排查
1、网络相关验证
直接执行命令验证ip的问题
ip a
或者ipconfig
进去之后直接验证,果然ip没了,因为之前有出现过这个节点的clickhouse崩了的情况,但是没有出现现在这个情况
无法判断具体情况的原因下,本着先解决当前的情况为主,就排查一下ip的问题了
验证网卡是否出现问题,
验证/etc/sysconfig/network-scripts/ifcfg-eth0
发现内容没有什么异常
随后直接尝试重启网络服务能否恢复
执行
service network restart
执行完成之后执行ip a发现ip恢复
随后回到堡垒机中进行排查
首先通过同网段机器发现当前节点机器已经可以ping通,随后进入该节点进行排查
能够发现确实是clickhouse这边的服务内存打满导致的异常(至少目前看到的情况是clickhouse是异常的)
进入clickhouse-client
报错:
Cannot load data for command line suggestions: Code: 241. DB::Exception: Received from localhost:9000. DB::Exception: Memory limit (total) exceeded: would use 45.52 GiB (attempt to allocate chunk of 4665408 bytes), current RSS 1.60 GiB, maximum: 23.27 GiB. OvercommitTracker decision: Query was selected to stop by OvercommitTracker.. (MEMORY_LIMIT_EXCEEDED) (version 24.9.2.42 (official build))
然后找相关异常的文章进行调整,
然后重启clickhouse之后服务恢复
随后各个指标也恢复正常
记录调整配置以适应内存不至于clickhouse崩溃(待观察)
<clickhouse>
<!-- See also the files in users.d directory where the settings can be overridden. -->
<!-- Profiles of settings. -->
<profiles>
<!-- Default settings. -->
<default>
<max_memory_usage>50000000000</max_memory_usage>
<max_memory_usage_for_user>60000000000</max_memory_usage_for_user>
<max_memory_usage_for_all_queries>100000000000</max_memory_usage_for_all_queries>
<max_bytes_before_external_group_by>50000000000</max_bytes_before_external_group_by>
<memory_overcommit_ratio_denominator>536870912</memory_overcommit_ratio_denominator>
</default>
<!-- Profile that allows only read queries. -->
虽然当前已经正常,但是后续还需要对这个节点进行关注一下
标签:随后,mem,ip,ping,网卡,节点,clickhouse From: https://www.cnblogs.com/queryH/p/18561092