论文名称 | 发表时间 | 发表期刊 | 期刊等级 | 研究单位 |
Nebula: Self-Attention for Dynamic Malware Analysis | 2024年 | IEEE TIFS | CCF A | 热那亚大学 |
1. 引言
研究背景与现存问题:动态恶意软件分析是一项至关重要的任务,不仅对于检测而且对于了解整个互联网上广泛传播的威胁而言。 收集样本后,分析人员会在隔离环境(沙箱或模拟器)内执行恶意软件,并列出程序执行的所有操作,例如网络和文件系统访问、注册表修改、API 调用和内核系统调用。 然后,这些操作被汇总成文本报告,由专家手动分析,以提炼所分析样本的恶意背后的基本原理。 这项任务既乏味又占用资源,因为它涉及领域专家参与流程和手动标记。
机器学习 (ML) 技术,特别是卷积神经网络 (CNN) 和长短期记忆 (LSTM) 模型,现已广泛用于简化这一过程。 这些模型经过大量文本报告的训练,可以更快地对新输入进行分类并减少人为干预。 CNN 捕获报告中的局部模式,为神经架构提供有价值的特征,而 LSTM 模型则学习全局标记关系。 然而,这些提出的方案受到三个主要缺点的阻碍:(i)卷积仅捕获局部信息,丢弃了动作之间的报告中包含的全局相关性,而 LSTM 模型在基于延长的令牌序列(如 API 链)对样本行为进行建模方面遇到了困难带参数的调用; (ii) 大多数提出的技术仅依赖于同质输入数据,如 API 调用,而不是利用代表恶意软件样本行为的更完整和异构信息; (iii) 源代码、数据和预训练模型通常不适用于大多数提出的技术,从而阻碍了可重复性。
研究内容:为了克服这些问题,论文提出了 Nebula,这是一种基于 Transformer 架构的 ML 模型,经过不同性质和格式的报告训练。 与传统模型不同,Nebula 利用 Transformer 神经网络固有的自注意力机制,使 Nebula 能够识别报告中的局部和全局关系。
论文将 Nebula 设计为能够正确处理沙箱提供的所有输出,而不是仅仅关注报告的少数部分,从而使 Nebula 能够关联不同来源的 token。为了构建 Nebula,论文考虑了几种数据清理方法和特征提取器,并通过广泛的消融研究深入研究了它们的效果。 通过这一分析,论文强调一些标准的 NLP 技术,例如通过字节对编码 (BPE) 的标记化,可以“按原样”应用,而有必要通过领域知识的视角来预处理数据,通过替换大多数独特的标记,例如特定标记 IP 地址、哈希值和互联网域。
实验结果:论文针对利用 CNN 和 LSTM 的不同最先进方法测试 Nebula,并在从不同沙箱环境获取的三个不同数据集上对它们在恶
标签:Malware,Nebula,标记,Self,论文,沙箱,LSTM,模型 From: https://blog.csdn.net/kitsch0x97/article/details/139950725