PG数据库导致断电/重启无法正常启动问题排查

时间：2024-08-24 15:38:04浏览次数：13

标签：11 postgresql lib 数据库断电排查 PG var pg

PG数据库导致断电/重启无法正常启动问题排查

一、问题

数据库断电后，启动PG数据库后无法正常启动，报”psql: could not connect to server: No such file or directory”的错误，错误图片如下：

二、背景分析

数据库是单机版，使用k8s进行部署运行在指定节点，数据目录挂服务器的指定目录。在数据中心机房部署了两套k8s集群，但是pod网络未规划好，两个集群pod网段有重复导致两个集群之间的pod概率性的发生地址冲突。在发生ip重复了后修改了我方使用的k8s集群的pod网段，并对所有pod进行了重启，在执行重启操作后我方部署pg数据库无法正常提供服务，经过查询容器日志发现了上述问题。

三、解决过程

① 根据日志进入容器查看文件是否存在

kubectl exec -it -n namespace contairnerId /bin/sh

进入容器后发现/var/run/postgresql/.s.PGSQL.5432文件不存在，然后进入一个正常的pg数据库容器，发现该文件是存在的，因此确认pg数据库的进程不正常。

② 查看pg数据库进程是否存在

cat /var/lib/postgresql/11/main/master.pid

查看后结果和含义如下：

1）154->数据库的主进程号，可以通过ps -ef | grep postgres来查询，同时与/var/run/postgresql/11-main.pid里的值一致。

2）/var/lib/postgresql/11/main->数据库的数据目录

3）1724468744->数据库的启动时间，需要进行转换

4）5432->数据库端口号

5）/var/run/postgresql->PostgreSQL 的 Unix 域套接字目录

然后通过执行top命令，发现pg数据库的进程并未启动，因此进一步确认pg数据库未正常启动。

③ 重新启动pg数据库进程，发现问题原因

执行以下命令启动数据库：

./usr/lib/postgresql/11/bin/pg_ctl /var/lib/postgresql/11/main start

执行完以后在当前屏幕输出有“invalid primary checkpoint record”等字样，翻译之后就是检查点损坏的意思。

④ 修复检查点

使用数据库自带工具对检查点进行修复，进入数据库容器，切换到postgres用户，使用PG自带工具修复，执行命令如下：

./usr/lib/postgresql/11/bin/pg_resetwal –D /var/lib/postgresql/11/main

修复完后启动数据库进程:

/usr/lib/postgresql/11/bin/pg_ctl -D /var/lib/postgresql/11/main start

再通过navicat工具连可正常访问数据库了。

四、总结

原因定位：异常重启或断电异常了数据文件损坏，pg数据重启后在加载数据文件时发现检查点损坏，无法正常启动。

解决方法：使用pg自带工具进行检查点修复：

1）进入数据库容器，切换到postgres用户；

2）找到pg_resetwal工具，对指定数据文件进行修改，以下是本次修改的命令

./usr/lib/postgresql/11/bin/pg_resetwal –D /var/lib/postgresql/11/main

3）启动数据库

./usr/lib/postgresql/11/bin/pg_ctl -D /var/lib/postgresql/11/main start

标签：11,postgresql,lib,数据库,断电,排查,PG,var,pg
From： https://www.cnblogs.com/runnerjack/p/18377822

微软RDL远程代码执行超高危漏洞（CVE-2024-38077）漏洞检测排查方式
漏洞名称：微软RDL远程代码执行超高危漏洞（CVE-2024-38077）CVSScore: 9.8漏洞描述：CVE-2024-38077是微软近期披露的一个极其严重的远程代码执行漏洞。该漏洞存在于Windows远程桌面许可管理服务（RDL）中，攻击者无需任何权限即可实现远程代码执行，获取服务器最高权限。由于在解码用......
usbserver某某达频繁掉狗问题排查（针对加密狗类型Elite5 3.X）
近期反复收到客户反映加密狗频繁掉狗问题，这个掉狗并不是在盛讯美恒客户端usbovernetwork上频繁掉，在客户端显示稳如老狗，但是在工程软件使用端总是犹如跳梁小丑跳出未检测到加密狗，让人甚是苦恼！下面给出一个案例，提供大家参考，定位一下问题本着有病看医生的原则，咱们需要用自带的加......
core dump如何解决排查的过程
**Coredump**是指程序在运行过程中发生严重错误，通常是由于非法操作（如访问无效内存地址）导致程序崩溃，操作系统生成了一个包含程序状态的内存映像文件（coredump）。这个文件可以用于调试，帮助开发者找到问题的根源。解决和排查coredump的过程通常涉及以下几个步骤：###1.**启用Co......
FPGA开发——verilog的运算符以及相关优先级的介绍
一、简介在我们学习任何一门编程语言时，不可避免的都会遇见运算符和相关的运算优先级的问题，只有掌握了各个运算符的优先级关系我们才能进行更好的代码编写。在前面的时候因为我没有遇到因为优先级而导致的工程结果错误，所以没有过多注意，但是遇到之后才发现运算......
FPGA开发——DS18B20读取温度并且在数码管上显示
一、简介在上一篇文章中我们对于DS18B20的相关理论进行了详细的解释，同时也对怎样使用DS18B20进行了一个简单的叙述。在这篇文章我们通过工程来实现DS18B20的温度读取并且实现在数码管伤显示。1、基本实现思路根据不同时刻的操作，我们可以使用一个状态机来实......
安防视频监控EasyCVR视频汇聚平台出现代码层面报错“panic:runtime error”的原因排查
安防视频监控/视频集中存储/云存储/磁盘阵列EasyCVR平台基于云边端一体化架构，兼容性强、支持多协议接入，包括国标GB/T28181协议、部标JT808、GA/T1400协议、RTMP、RTSP/Onvif协议、海康Ehome、海康SDK、大华SDK、华为SDK、宇视SDK、乐橙SDK、萤石云SDK等。有用户反馈，启动EasyCVR......
【AD9361 数字基带】多片基带内FPGA补偿 I/Q Rotation
I/Q旋转Rotation在许多多通道射频系统中，如AD-FMCOMMS5，甚至在AD-FMCOMMS2、AD-FMCOMMS3上，都需要测量或校正两个复数（I/Q）RF信号之间的相位差。从纯粹的数学描述来看，单个正弦波没有相位，一个相位只能在两个不同的正弦波之间发展。增加复杂性的是，我们没有一个单一的真实......
AD7606芯片驱动-FPGA实现
简介 AD7606是一款16位ADC芯片，可实现8通道并行采集，每通道最大速度可达1M，可实现多种模式数据采集。介绍本次FPGA使用的是8通道串行采样模式，设计中所用到的AD7606引脚说明如下：名称定义CONVST同步采集转换开始信号BUS......
基于FPGA的图像拼接融合算法
基于FPGA的图像拼接融合算法一、图像拼接1.0拼接算法设计预处理（图像矫正）图像矫正通过计算图像灰度值，赋值给目标像素，将目标像素与源数据比较，然后将图像边缘的值插入到目标点；对图像消除彩色分量（对提取特征无影响），只提取亮度分量；得到的灰度图像噪声更小，细节更明显。特征点检......
MYSQL长事务排查
查看造成等待的事务执行SQLSELECTtmp.waiting_thread'等待线程ID',tmp.waiting_trx_id'等待事务ID',tmp.wating_trx_state等待事务状态,tmp.waiting_query等待语句,case when(tmp.waiting_time-28800)>0then(tmp.waiting_time-28800) elsetmp......

PG数据库导致断电/重启无法正常启动问题排查

相关文章

赞助商

阅读排行