首页 > 其他分享 >【YashanDB知识库】EXP导致主机卡死问题

【YashanDB知识库】EXP导致主机卡死问题

时间:2024-07-23 14:54:05浏览次数:15  
标签:core YashanDB EXP BUFFER yasdb sys swap exp 卡死

问题现象

问题单:exp导出全库1主2备主节点执行,DMP文件30G左右系统卡死,发生主备切换

现象:

  • exp sys/Cod-2022 file=bim20240402.dmp full=y 服务器卡死,ssh连接不上服务器。

  • 等待一两个小时后,可以重新连接上。

  • 备用节点升主正常,查看run.log,心跳发送不到主节点。

  • 重连后,yasdb不在,查看run.log没有问题。未生成core文件,yasagent进程等正常。

问题风险及影响

不能exp数据,数据迁移失败

问题影响的版本

客户测试环境版本:23.1.4.101

问题发生原因

exp导出数据时,大量数据从磁盘放到data buff,导致实际使用内存增长,超过系统限定后,触发oom导致yasdb被杀。

问题分析和处理过程

分析:

  • 因为磁盘是nfs,初步怀疑是否是nfs导致网络问题。但换其它磁盘后,也出现同样问题。

  • 因为数据是从22.2.7.2使用exp导出,imp导入23.1。现在exp导出出问题,怀疑是否是兼容性问题。本地同样方式操作,未复现成功。pstack查看堆栈空间,gdb调试显示正常,也没有core文件生成。

  • 查看服务器message信息,发现yasdb都是被killed。怀疑是yasdb使用太多内存资源导致的问题,最终确认是这个原因。

查看服务器内存资源

free -h

查看yasd buff情况

测试

在10.34.70.91节点:

尝试如下:

● 开启swap空间为20G,DATA_BUFFER_SIZE由23528M 改到10240M

exp sys/Cod-2022 file=bim20240402.dmp full=y 导出成功,没有异常状态

● SWAP空间关闭。DATA_BUFFER_SIZE由23528M 改到10240M

exp sys/Cod-2022 file=bim20240402.dmp full=y 导出成功,没有异常状态

● 开启swap空间为40G。DATA_BUFFER_SIZE为23528M

exp sys/Cod-2022 file=bim20240402.dmp full=y 导出成功,没有异常状态

● swap不开,DATA_BUFFER_SIZE为23528M

exp sys/Cod-2022 file=bim20240402.dmp full=y 服务器卡死,直到yasdb被killed,才能重新连接上去

在10.34.70.78节点:

尝试如下:

● swap空间为30G,

exp sys/Cod-2022 file=bim20240402.dmp full=y 导出成功,没有异常状态

解决方法和规避

规避方法

有两种,可以单独配置,也可以两个同时做:

  • 开启swap空间
swapoff -a
dd if=/dev/zero of=/swap bs=1M count=30720
mkswap /swap
chmod 600 /swap
swapon /swap
sysctl -w vm.swappiness=60
 
永久开启swap:
vi /etc/fstab添加如下:
/swap swap swap defaults 0 0
  • 把DATA_BUFFER_SIZE调低,不要超过总内存的60%。
alter system set DATA_BUFFER_SIZE=xxx SCOPE=SPFILE;
  • core文件配置
echo "ulimit -c unlimited" >> /etc/profile
source /etc/profile
mkdir -p /data/corefile
chmod 777 /data/corefile/
echo "/data/corefile/core-%e-%p-%t" >> /proc/sys/kernel/core_pattern
echo "kernel.core_pattern=/data/corefile/core-%e-%p-%t" >> /etc/sysctl.conf
sysctl -p /etc/sysctl.conf

经验总结

  • yasdb数据内存使用一般设定在系统的60%左右较好,data buff一般设置为yasdb内存的80%。

  • 遇上yasdb不存在了,但是没有生成core。很有可能就是被系统kill掉了,这时可以先去看/var/log/message信息,核实改问题。

标签:core,YashanDB,EXP,BUFFER,yasdb,sys,swap,exp,卡死
From: https://www.cnblogs.com/YashanDB/p/18317582

相关文章

  • 无法在 python 中安装 pip install expliot - bluepy 的 Building Wheel (pyproject.t
    在此处输入图像描述当我尝试在Windows计算机中通过cmd安装pipinstallexpliot包时,我收到2个错误名称×Buildingwheelforbluepy(pyproject.toml)didnotrunsuccessfully.│exitcode:1**AND**opt=self.warn_dash_deprecation......
  • 第8章 Express的模板引擎
    在Express应用中,模板引擎是一个重要的工具,它允许你使用静态模板文件生成动态的HTML。模板文件通常包含占位符变量和表达式,这些变量和表达式在渲染时会被实际数据替换。使用模板引擎可以使得前端代码和后端逻辑分离,提升开发效率和代码维护性。本章节将详细介绍如何在Express......
  • 大表关联 not exists 卡死问题
    检查是否有适当的索引:确保用于NOTEXISTS子查询的列上有索引,这样数据库可以快速确定是否存在符合条件的记录。 优化查询:减少返回的数据量:使用WHERE子句来限制需要检查的数据范围。分批处理:如果可能,将大的NOTEXISTS查询分解为多个小的查询,并且在可接受的时......
  • DevExpress中文教程 - 如何在.NET MAUI应用中实现Material Design 3?
    DevExpress .NETMAUI多平台应用UI组件库提供了用于Android和iOS移动开发的高性能UI组件,该组件库包括数据网格、图表、调度程序、数据编辑器、CollectionView和选项卡组件等。获取DevExpressv24.1正式版下载DevExpress技术交流群10:532598169      欢迎一起进群讨论Mate......
  • Nexpose v6.6.261 for Linux & Windows - 漏洞扫描
    Nexposev6.6.261forLinux&Windows-漏洞扫描Rapid7VulnerabilityManagement,releaseJul17,2024请访问原文链接:https://sysin.org/blog/nexpose-6/,查看最新版。原创作品,转载请保留出处。作者主页:sysin.org您的本地漏洞扫描程序搜集通过实时覆盖整个网络,随......
  • CS50P: 7. Regular Expressions
    RegularExpressions/Regexes判断用户是否输入邮箱地址......
  • 如何修复导入 Numexpr Python 时的错误
    在Windows10Python3.7.9(IDLE)上,我成功安装了“pipinstallnumexpr”,但在“importnumexprasne”时出现错误:Traceback(最近一次调用):文件“<pyshell#21>”,第267行,位于将numexpr导入为ne文件“C:\Python379\lib\site-packages\numexpr_init_.py”......
  • ABC 363 F - Palindromic Expression 题解
    下文中提到的数字都不包含0,注意把含0的数字特判掉。反转指各个数位倒过来,比如114514反转过后就是415411。注意到,答案一定是这样:数列\(a\)的各个数字相乘,乘以一个回文,再把数列\(a\)倒过来,每个数反转,再相乘。比如:2*57*184481*75*2,其中的数列\(a\)就是:257,中间的回文......
  • SciTech-Theory-Phenomeon(Process and its Outcomes)->Experience(Sensation+Cogniti
    SciTech-Theory:Objective:Phenomeon:aobjectiveProcessanditsOutcomesSubjective:->Experience:Sensation+Cognition->Concept(Natural+Commonpartofexperiences)->Principle(research+invest)->Interpretations->Definition->Theo......
  • 大模型环境配置,包括多机多卡 conda env export > qwen_environment.yml同步环境
    多机一致环境:pipfreeze>requirements.txt装特定的torch,--extra-index-urlhttps://download.pytorch.org/whl/cu118pipinstalltorch==2.2.0+cu118--extra-index-urlhttps://download.pytorch.org/whl/cu118要将Conda/Mamba环境从一台机器同步到另一台机器,最好的......