Neural Network-based Graph Embedding for Cross-Platform Binary Code Similarity Detection(基于神经网络的跨平台二进制码相似性检测图嵌入)
-
Gemini之前Genius图嵌入生成方法:嵌入之前把CFG转换为ACFG,使用二部图匹配算法和密码本作为基础去计算ACFG的嵌入,使用位置敏感哈希LSH将其存储到哈希表中,识别一组与查询函数相似的二进制函数,只需要找到查询函数的相应嵌入,在目标语料库中找到相似的嵌入。
-
Gemini模型:一种基于神经网络的方法(Structure2vec算法)来生成二进制函数的嵌入ACFG,表示成数字特征向量后可以计算两个向量之间的距离函数,代价比图匹配算法小。
- 利用机器学习社区的先前图嵌入网络previous graph embedding networks。(为分类问题设计,需要标签信息来训练模型)
- 设计了一个暹罗结构(好像用不上,这个用来判断代码相似性),将structure2vec嵌入进去。生成图嵌入向量的方法可用。
Discriminative Embeddings of Latent Variable Models for Structured Data(结构化数据潜在变量模型的鉴别嵌入)
- structure2vec,通过类似于图形模型推理过程的方式执行一系列函数映射来提取特征。
科恩Order Matters: Semantic-Aware Neural Networks for Binary Code Similarity Detection(顺序问题:用于二进制代码相似性检测的语义感知神经网络)
- 认为节点的顺序很重要。