首页 > 其他分享 >LLM4Decompile——专门用于反编译的大规模语言模型

LLM4Decompile——专门用于反编译的大规模语言模型

时间:2024-07-06 10:27:35浏览次数:22  
标签:反编译 模型 编译 LLM4Decompile 源代码 代码

概述

论文地址:https://arxiv.org/abs/2403.05286

反编译是一种将已编译的机器语言或字节码转换回原始高级编程语言的技术。该技术用于分析软件的内部工作原理,尤其是在没有源代码的情况下;Ghidra 和 IDA Pro 等专用工具已经开发出来,但这些工具很难生成人类可读格式的代码。反编译的最大挑战是完全再现代码的基本结构,如变量名、循环和条件语句,这些在编译过程中往往会丢失。

为解决这一问题,大规模语言模型(LLM)的最新进展备受瞩目。这些模型将编程语言视为一种语言系统,并使用预先训练好的模型来处理各种编码任务。与传统方法相比,这种方法取得了显著的进步,并表明在反编译领域也可以采用类似的方法。

然而,到目前为止,很少有标准基准或公开可用的数据集来评估和比较反编译技术。研究人员使用不同的数据集,因此很难对结果进行直接比较。因此,在本文中,我们开发了一个专门用于反编译的开源大规模语言模型,并建立了第一个侧重于可重编译性和可重执行性的反编译基准。这有望统一反编译领域的评估标准,促进进一步的研究。下图显示了本文的反编译评估步骤。

什么是 LLM4Decompile?

LLM4Decompile 是一项致力于反编译程序的开创性举措。首先,在构建预训练数据时,它以一百万个名为 Anghabench 的公开可编译 C 文件为基础。利用这一丰富的数据集创建汇编代码和源代码对。具体来说,首先将源代码转换为二进制对象文件,然后将其反汇编为汇编代码,并与 x86 Linux 平台上的源代码配对。它还考虑了程序员为优化执行性能而使用的各种编译器优化标志。优化过程是一种将源代码转换为更快、更高效的机器代码的技术。优化级别在不同阶段对源代码进行编译,从默认的 O0(无优化)到 O3(积极优化)。在整个过程中,都会使用独特的提示来让模型了解优化阶段。

这是具有 [优化状态] 优化功能的汇编代码:[汇编代码]。源代码是什么?

通过这种方式,LLM4Decompile 可以更深入地了解编程世界,并为更精确的反编译奠定基础。

接下来,LLM4Decompile 模型设置使用与 LDeepSeek-Coder 相同的架构,并使用相应的 DeepSeek-Coder 检查点初始化模型。学习目标分为两类

第一个目标是下一个标记预测(NTP)。它根据给定的输入预测下一个标记。这种方法在许多大规模语言模型的预训练中发挥着核心作用,其目的是最大限度地降低真实标记的负对数概率。这一过程包括改进模型参数,以便根据输入序列做出更准确的预测。

第二个目标是序列到序列(S2S)。它预测输入序列的预期输出。这是一种专门用于神经机器翻译模型的方法,其重点是尽量减少 C 代码中标记的负对数概率。以此为目标,只计算输出序列的损失,从而实现更准确的翻译。

这两种学习目标的主要区别在于输入序列和汇编代码如何影响学习损失的计算:在 NTP 中,所有输入都被考虑在内,而在 S2S 中,只强调输出序列。本文进行了各种消融研究,以确定这些目标如何影响反编译的准确性。

实验结果

下表总结了有趣的研究结果。最初,即使是基本版本的 DeepSeek-Coder 也很难反编译二进制文件,在某些情况下可以编译,但在其他情况下却无法准确捕捉原始程序的含义。不过,经过微调后,LLM4Decompile 模型在反编译二进制文件的能力上有了显著提高。事实上,90% 的代码都可以编译,这表明我们对代码的结构和语法有了更深入的理解。

值得注意的是,6B 版本的 LLM4Decompile 在执行代码的能力方面比 1B 版本有明显优势:6B 版本反编译出的代码中有 21% 准确地抓住了程序的本质并通过了所有测试用例。而 1B 版本只有 10%。这一改进凸显了扩大模型规模对捕捉程序含义的益处。另一方面,将模型规模增大到 33B 也会导致可再运行性的小幅改善,改善幅度不到一个百分点。这可能说明了调整到 33B 模型的难度。

下表总结了 AnghaBench 中的结果,显示 LLM4Decompile 取得了特别高的 BLEU 和 ES 分数;6B 模型的 BLEU 分数为 0.82,与源代码非常接近。这一令人印象深刻的表现表明,测试集中可能存在严重的数据泄漏。实际上,带有规范化变量的反编译代码不可能达到如此高的 N-gram/ES 分数。这一反常现象,以及之前研究中报告的高 BLEU 和 ES 分数,凸显了建立独立可靠的反编译评估基准的重要性。

序列到序列(S2S)预测方法也因其特点而显示出领先于其他学习方法的性能。其中的奥秘可以说在于汇编代码被排除在损失函数的计算之外,从而使模型能够专注于源代码的生成。这种集中可以让模型更好地理解反编译代码背后的模式和结构。

但是,在训练过程中加入汇编代码会使性能降低约 4 个百分点,这在下一个标记预测 (NTP)任务中尤为明显(下表)。汇编代码固有的复杂性和低级特性使模型难以学习有意义的模式;S2S 方法避免了这种复杂性,使模型能够专注于高级源代码模式。

还有另一种策略,即在涉及汇编和 C 代码的初始训练之后,尝试以翻译任务为重点进行微调(NTP+S2S),但这种方法不如 S2S 方法有效。这项消融研究强调了 LLM4Decompile 在反编译过程中的演变过程,以及某些方法更胜一筹的原因。

总结

本文提供了首个开源的、以反编译为重点的大规模语言模型和标准化的可重编译性/可重执行性基准。对这组不同的 C 代码编译数据集的分析表明,LLM4Decompile-6B 的可重编译性和可重执行性分别达到了 87% 和 21%,前者表明了语法理解,后者表明了语义保护。作为对数据驱动反编译的初步探索,本文建立了一个开放的基准,以激励未来的努力。已发布的数据集、模型和分析都体现了通过新技术提高反编译能力的巨大潜力。

标签:反编译,模型,编译,LLM4Decompile,源代码,代码
From: https://blog.csdn.net/matt45m/article/details/140177812

相关文章

  • 深度学习项目,代码改进,模型优化
    深度学习项目代码改进 预测模型模型优化,增加模块,python,预测,微调,融合,强化学习,深度学习,机器学习程序,环境调试,代码调通,模型优化,模型修改,时间序列,机器学习数据处理等开发工程,项目主攻:Pytorch,Tensorflow,Yolo,Unet,DNN,CNN,GAN,Transformer,matlab,训练模型,优化,price增加模......
  • 《详细指南:本地部署Ollama大型模型的完整步骤》
    《详细指南:本地部署Ollama大型模型的完整步骤》引言Ollama是一个高性能的AI模型部署平台,支持在本地轻松部署大型语言模型。本指南将详细介绍如何在本地环境中部署Ollama,并运行一个大型模型。环境要求操作系统:Windows/Mac/Linux硬件:具备足够计算能力的CPU或InteliGPU软......
  • Python基于卷积神经网络分类模型(CNN分类算法)实现时装类别识别项目实战
    说明:这是一个机器学习实战项目(附带数据+代码+文档+视频讲解),如需数据+代码+文档+视频讲解可以直接到文章最后获取。1.项目背景在深度学习领域,卷积神经网络(ConvolutionalNeuralNetworks,CNNs)因其在图像识别和分类任务上的卓越表现而备受关注。CNNs能够自动检测图像中的特......
  • Python实现ABC人工蜂群优化算法优化循环神经网络分类模型(LSTM分类算法)项目实战
    说明:这是一个机器学习实战项目(附带数据+代码+文档+视频讲解),如需数据+代码+文档+视频讲解可以直接到文章最后获取。1.项目背景人工蜂群算法(ArtificialBeeColony,ABC)是由Karaboga于2005年提出的一种新颖的基于群智能的全局优化算法,其直观背景来源于蜂群的采蜜行为,蜜蜂根......
  • 企业升级利器:如何选择契合的大模型架构
    在现代企业中,大模型业务的应用越来越广泛,主要体现在AIEmbedded模式、AICopilot模式和AIAgent模式这三种架构。本文将详细探讨这三种模式,分析它们的特点和适用场景,并对如何选择合适的大模型业务架构提出建议。一、AIEmbedded模式1.概念与特点AIEmbedded模式指的是......
  • 时间序列分析专题——指数平滑模型
    指数平滑法模型,分为季节性模型和非季节性模型。季节性模型只有在为活动数据集定义了周期时才可用。本章只理论性地介绍这六种指数平滑法模型,让学习者在论文的应用中有话可写。在具体实现中,SPSS会自动识别并给定一种最好的模型。目录一、简单指数平滑法1.模型介绍2.关于平滑系数......
  • 垂直领域大模型的机遇与挑战:从构建到应用
     在人工智能技术的浪潮中,大模型以其强大的数据处理和学习能力,成为推动科技进步的重要力量。然而,这种跨领域应用的过程并非一帆风顺,既面临挑战也蕴含机遇。本文从复旦大学的研究工作出发,详细分析大模型的机遇与挑战。 背景GPT4技术报告指出,GPT4仍处于通用人工智能(AGI)的初......
  • 使用中专API实现AI模型调用与部署
    在AI技术领域,如何调用和部署大语言模型(LLM)是一个常见的需求。本文将详细介绍如何通过中专API地址http://api.wlai.vip,实现对OpenAI大模型的调用与部署,并提供一个详细的demo代码示例。引言随着人工智能技术的飞速发展,大语言模型在自然语言处理任务中的表现尤为突出。然而,由......
  • R语言、SAS潜类别(分类)轨迹模型LCTM分析体重指数 (BMI)数据可视化|附代码数据
    全文下载链接: http://tecdat.cn/?p=26105 最近我们被客户要求撰写关于LCTM的研究报告,包括一些图形和统计输出。在本文中,潜类别轨迹建模(LCTM)是流行病学中一种相对较新的方法,用于描述生命过程中的暴露,它将异质人群简化为同质模式或类别。然而,对于给定的数据集,可以根据类的数......
  • 为何现在的大模型大部分是Decoder only结构
    现代大型语言模型,如GPT-3、GPT-J、和GPT-Neo等,主要采用Decoder-only结构,这是由于几个关键原因:并行计算:Decoder-only模型在训练时可以采用单向注意力机制,这意味着每个token只关注它之前的token。这种单向性使得模型可以在训练时更容易地并行处理数据,从而提高训练效率。......