首页 > 数据库 >【故障公告】数据库服务器今年第七次 CPU 100% 故障

【故障公告】数据库服务器今年第七次 CPU 100% 故障

时间:2023-12-07 16:56:16浏览次数:35  
标签:100% 故障 切换 SQL 服务器 CPU

自11月9日第六次数据库服务器 CPU 100% 故障之后,今天下午又出现数据库服务器 CPU 100% 故障,是今年的第七次。

今天的故障发生于 16:01~16:07 期间,发现故障后我们立即重启阿里云RDS实例,重启后恢复正常。

正准备发布这篇故障公告时,数据库服务器又出现 CPU 100%,我们立即改用主备切换,切换后恢复正常。

这次故障给大家带来了麻烦,请大家谅解。

我们使用的阿里云 RDS 实例规格是「SQL Server 2016 标准版-高可用系列-16核32G」,这个 CPU 100% 问题很奇怪,可能是因为参数嗅探问题造成 SQL Server 缓存了性能极差的执行计划,我们会对照上次故障期间性能最差的 SQL 进一步排查。

更新:

  • 在主备切换时,以为第一次切换没成功,切换了2次,所以切换后用的还是原来的 SQL Server 实例,即使这样也恢复了正常。
  • 本想看一下故障期间性能差的 SQL,但阿里云 RDS 控制台似乎出了问题,“性能优化”中数据不能正常显示

标签:100%,故障,切换,SQL,服务器,CPU
From: https://www.cnblogs.com/cmt/p/17882309.html

相关文章

  • 架构师的知行合一(内容由AI的全文生成,满分100分我打99分)
    大型架构是怎么来的随着科技的不断发展,越来越多的企业和组织开始意识到数字化转型的重要性。为了更好地适应市场的变化,满足客户的需求,提高企业的竞争力,大型架构成为了企业和组织不可或缺的一部分。那么,大型架构到底是怎么来的呢?本文将为您深入剖析。一、业务需求推动架构演进......
  • 使用funcgraph-retval和bpftrace/kprobe快速定位并解决cpu控制器无法使能的问题
    版本Linux6.5背景在学习cgroupv2的时候,想给子cgroup开启cpu控制器结果失败了:#查看可以开启哪些控制器root@ubuntu-vm:/sys/fs/cgroup#catcgroup.controllerscpusetcpuiomemoryhugetlbpidsrdmamisc#上面看到,是支持cpu控制器的,通过下面命令查看目前子cgroup开启......
  • Javake可视化故障处理工具-VisualVM
    VisualVM(All-in-OneJavaTroubleshootingTool)是功能最强大的运行监视和故障处理程序之一,曾经在很长一段时间内是Oracle官方主力发展的虚拟机故障处理工具。Oracle曾在VisualVM的软件说明中写上了“All-in-One”的字样,预示着它除了常规的运行监视、故障处理外,还将提供其他方面......
  • 初中英语优秀范文100篇-019A Meaningful Activity-一次有意义的活动
    PDF格式公众号回复关键字:SHCZFW019记忆树1I'malwayshappywhenImemorizethatmeaningfulactivity.翻译我总是很高兴,当我记住那些有意义的活动。简化记忆高兴句子结构这个句子的结构如下:主语:I(我)谓语:am(是)表语:alwayshappy(总是快乐)状语从句:whenIm......
  • 100G大表Alter更改表结构技术方案探讨
    JAVA研发需求:需要对A表的XXX字段扩容至varchar(500)目前的现状:线上A表有100G+的数据,如果直接modifyXXXvarchar(500),会锁全表,即使用pt-osc工具凌晨搞,预估一宿加不完,并且从库会出现大面积延迟,读取的数据将不准确。https://dev.mysql.com/doc/refman/8.0/en/innodb-online-ddl-opera......
  • 打印1-100之间素数及其个数 点赞
    6-1打印1-100之间素数及其个数打印出1-100之间的全部素数及其个数,其中判断一个数是否为素数用函数实现。函数接口定义:intprime(intx)其中x是用户传入的参数,如果x是素数则函数返回1,否则函数返回0。裁判测试程序样例:#include<stdio.h>intprime(intx);intmain()......
  • 过去 100 天,发生了啥?丨 RTE 开发者日报 Vol.100
      开发者朋友们大家好:这里是发布了100期的「RTE开发者日报」,和大家一起看了100天的新闻、聊了100天的八卦。老规矩,我们整理了一下过去100期发表的内容——720则新闻、340个观点、119篇文章以及若干条数据以及活动推荐。我们的小伙伴也将日报中的内容关键词整......
  • C2 CompilerThread9 长时间占用CPU解决方案
    一、问题描述近期在进行日常巡检时发现,线上部分应用服务器的CPU突然比以往高出很多,经过登录机器排查确认是C2CompilerThread9线程始终长时间运行消耗了CPU。排查步骤在上篇博文有记录总结,地址:排查CPU异常步骤_u012538947的专栏-CSDN博客_cpu异常异常线程的堆栈如下:"C2Compile......
  • 100. 相同的树
    目录题目题解题目给你两棵二叉树的根节点p和q,编写一个函数来检验这两棵树是否相同。如果两个树在结构上相同,并且节点具有相同的值,则认为它们是相同的。题解#Definitionforabinarytreenode.#classTreeNode:#def__init__(self,val=0,left=None,rig......
  • 故障发现、定位提效超 70%,去哪儿可观测体系做了哪些优化?
    一分钟精华速览去哪儿网的原有监控系统在指标数量上展现出了强大实力——上亿指标量和百万级的告警量,但在故障数据方面却稍显不足——订单类故障平均发现时间长达4分钟,仅有20%的订单类故障能在1分钟内被发现,近半数的故障处理时长超过30分钟。为了解决这些问题,去哪儿网决定从......