【YashanDB知识库】EXP导致主机卡死问题

时间：2024-07-23 14:54:05浏览次数：17

标签：core YashanDB EXP BUFFER yasdb sys swap exp 卡死

问题现象

问题单：exp导出全库1主2备主节点执行，DMP文件30G左右系统卡死，发生主备切换

现象：

exp sys/Cod-2022 file=bim20240402.dmp full=y 服务器卡死，ssh连接不上服务器。
等待一两个小时后，可以重新连接上。
备用节点升主正常，查看run.log，心跳发送不到主节点。
重连后，yasdb不在，查看run.log没有问题。未生成core文件，yasagent进程等正常。

问题风险及影响

不能exp数据，数据迁移失败

问题影响的版本

客户测试环境版本：23.1.4.101

问题发生原因

exp导出数据时，大量数据从磁盘放到data buff，导致实际使用内存增长，超过系统限定后，触发oom导致yasdb被杀。

问题分析和处理过程

分析：

因为磁盘是nfs，初步怀疑是否是nfs导致网络问题。但换其它磁盘后，也出现同样问题。
因为数据是从22.2.7.2使用exp导出，imp导入23.1。现在exp导出出问题，怀疑是否是兼容性问题。本地同样方式操作，未复现成功。pstack查看堆栈空间，gdb调试显示正常，也没有core文件生成。
查看服务器message信息，发现yasdb都是被killed。怀疑是yasdb使用太多内存资源导致的问题，最终确认是这个原因。

查看服务器内存资源

free -h

查看yasd buff情况

测试

在10.34.70.91节点：

尝试如下：

● 开启swap空间为20G，DATA_BUFFER_SIZE由23528M 改到10240M

exp sys/Cod-2022 file=bim20240402.dmp full=y 导出成功，没有异常状态

● SWAP空间关闭。DATA_BUFFER_SIZE由23528M 改到10240M

exp sys/Cod-2022 file=bim20240402.dmp full=y 导出成功，没有异常状态

● 开启swap空间为40G。DATA_BUFFER_SIZE为23528M

exp sys/Cod-2022 file=bim20240402.dmp full=y 导出成功，没有异常状态

● swap不开，DATA_BUFFER_SIZE为23528M

exp sys/Cod-2022 file=bim20240402.dmp full=y 服务器卡死，直到yasdb被killed，才能重新连接上去

在10.34.70.78节点：

尝试如下：

● swap空间为30G，

exp sys/Cod-2022 file=bim20240402.dmp full=y 导出成功，没有异常状态

解决方法和规避

规避方法

有两种，可以单独配置，也可以两个同时做：

开启swap空间

swapoff -a
dd if=/dev/zero of=/swap bs=1M count=30720
mkswap /swap
chmod 600 /swap
swapon /swap
sysctl -w vm.swappiness=60
 
永久开启swap：
vi /etc/fstab添加如下：
/swap swap swap defaults 0 0

把DATA_BUFFER_SIZE调低，不要超过总内存的60%。

alter system set DATA_BUFFER_SIZE=xxx SCOPE=SPFILE;

core文件配置

echo "ulimit -c unlimited" >> /etc/profile
source /etc/profile
mkdir -p /data/corefile
chmod 777 /data/corefile/
echo "/data/corefile/core-%e-%p-%t" >> /proc/sys/kernel/core_pattern
echo "kernel.core_pattern=/data/corefile/core-%e-%p-%t" >> /etc/sysctl.conf
sysctl -p /etc/sysctl.conf

经验总结

yasdb数据内存使用一般设定在系统的60%左右较好，data buff一般设置为yasdb内存的80%。
遇上yasdb不存在了，但是没有生成core。很有可能就是被系统kill掉了，这时可以先去看/var/log/message信息，核实改问题。

标签：core,YashanDB,EXP,BUFFER,yasdb,sys,swap,exp,卡死
From： https://www.cnblogs.com/YashanDB/p/18317582

无法在 python 中安装 pip install expliot - bluepy 的 Building Wheel (pyproject.t
在此处输入图像描述当我尝试在Windows计算机中通过cmd安装pipinstallexpliot包时，我收到2个错误名称×Buildingwheelforbluepy(pyproject.toml)didnotrunsuccessfully.│exitcode:1**AND**opt=self.warn_dash_deprecation......
第8章 Express的模板引擎
在Express应用中，模板引擎是一个重要的工具，它允许你使用静态模板文件生成动态的HTML。模板文件通常包含占位符变量和表达式，这些变量和表达式在渲染时会被实际数据替换。使用模板引擎可以使得前端代码和后端逻辑分离，提升开发效率和代码维护性。本章节将详细介绍如何在Express......
大表关联 not exists 卡死问题
检查是否有适当的索引：确保用于NOTEXISTS子查询的列上有索引，这样数据库可以快速确定是否存在符合条件的记录。优化查询：减少返回的数据量：使用WHERE子句来限制需要检查的数据范围。分批处理：如果可能，将大的NOTEXISTS查询分解为多个小的查询，并且在可接受的时......
DevExpress中文教程 - 如何在.NET MAUI应用中实现Material Design 3？
DevExpress .NETMAUI多平台应用UI组件库提供了用于Android和iOS移动开发的高性能UI组件，该组件库包括数据网格、图表、调度程序、数据编辑器、CollectionView和选项卡组件等。获取DevExpressv24.1正式版下载DevExpress技术交流群10：532598169 欢迎一起进群讨论Mate......
Nexpose v6.6.261 for Linux & Windows - 漏洞扫描
Nexposev6.6.261forLinux&Windows-漏洞扫描Rapid7VulnerabilityManagement,releaseJul17,2024请访问原文链接：https://sysin.org/blog/nexpose-6/，查看最新版。原创作品，转载请保留出处。作者主页：sysin.org您的本地漏洞扫描程序搜集通过实时覆盖整个网络，随......
CS50P: 7. Regular Expressions
RegularExpressions/Regexes判断用户是否输入邮箱地址......
如何修复导入 Numexpr Python 时的错误
在Windows10Python3.7.9（IDLE）上，我成功安装了“pipinstallnumexpr”，但在“importnumexprasne”时出现错误：Traceback（最近一次调用）：文件“<pyshell#21>”，第267行，位于将numexpr导入为ne文件“C:\Python379\lib\site-packages\numexpr_init_.py”......
ABC 363 F - Palindromic Expression 题解
下文中提到的数字都不包含0，注意把含0的数字特判掉。反转指各个数位倒过来，比如114514反转过后就是415411。注意到，答案一定是这样：数列\(a\)的各个数字相乘，乘以一个回文，再把数列\(a\)倒过来，每个数反转，再相乘。比如：2*57*184481*75*2，其中的数列\(a\)就是：257，中间的回文......
SciTech-Theory-Phenomeon(Process and its Outcomes)->Experience(Sensation+Cogniti
SciTech-Theory:Objective:Phenomeon:aobjectiveProcessanditsOutcomesSubjective:->Experience:Sensation+Cognition->Concept(Natural+Commonpartofexperiences)->Principle(research+invest)->Interpretations->Definition->Theo......
大模型环境配置，包括多机多卡 conda env export ＞ qwen_environment.yml同步环境
多机一致环境：pipfreeze>requirements.txt装特定的torch，--extra-index-urlhttps://download.pytorch.org/whl/cu118pipinstalltorch==2.2.0+cu118--extra-index-urlhttps://download.pytorch.org/whl/cu118要将Conda/Mamba环境从一台机器同步到另一台机器，最好的......

【YashanDB知识库】EXP导致主机卡死问题

问题现象

问题风险及影响

问题影响的版本

问题发生原因

问题分析和处理过程

分析：

查看服务器内存资源

查看yasd buff情况

测试

解决方法和规避

经验总结

相关文章

赞助商

阅读排行