首页 > 其他分享 >StarCoder 2:GitHub Copilot本地开源LLM替代方案

StarCoder 2:GitHub Copilot本地开源LLM替代方案

时间:2024-03-08 11:01:05浏览次数:14  
标签:GitHub 模型 StarCoder2 StarCoder 15B LLM NVIDIA 3B

GitHub CoPilot拥有超过130万付费用户,部署在5万多个组织中,是世界上部署最广泛的人工智能开发工具。使用LLM进行编程辅助工作不仅提高了生产力,而且正在永久性地改变数字原住民开发软件的方式,我也是它的付费用户之一。

低代码/无代码平台将使应用程序创建、工作流自动化和数据分析更加广泛的应用,这种变革潜力支撑着人们对开源替代方案的极大兴趣,我们今天将要介绍的这个令人兴奋的发展。最近BigCode与NVIDIA合作推出了StarCoder2,这是一系列专为编码而设计的开放式LLM,我认为在大小和性能方面是目前最好的开源LLM。

在本文中,我们将介绍StarCoder2的一些基本信息,然后建立一个本地环境,搭建StarCoder2-15B模型并用Python, JavaScript, SQL, c++和Java测试其编码能力。

StarCoder2简介

StarCoder2模型有三种不同大小可供选择,包括3B、7B和15B参数,并且支持广泛的编程语言。每个模型都是在The Stack v2上进行训练的,这是当前最广泛的用于LLM预训练的开源代码数据集。模型的主要特点如下:

  • 3B(由ServiceNow提供)、7B(由Hugging Face提供)和15B参数版本(由NVIDIA使用NVIDIA NeMo)
  • 所有模型使用分组查询注意力(Grouped Query Attention)
  • 上下文窗口为16,384个标记,滑动窗口注意力为4,096个标记
  • 模型是使用填空目标(Fill-in-the-Middle objective)进行训练的
  • 训练时使用了3+ T(3B)、3.5+ T(7B)、4+ T(15B)标记以及600多种编程语言
  • StarCoder2–15B在StarCoder2模型中是最佳的,并在许多评估中与其他33B+模型相匹配。StarCoder2–3B的性能与StarCoder1–15B相当
  • 训练时使用了1024 x H100 NVIDIA GPU
  • 所有模型均具有商业友好的许可证

StarCoder2的能力(特别是15B模型)在性能指标中明显优于其他相同尺寸的模型,并且与CodeLlama-34B相匹配。

在具有16K标记的上下文长度下,模型处理广泛的代码库和指令,确保了全面的代码理解和生成能力。

 

https://avoid.overfit.cn/post/c6c8a0130c934a4da024ebdb8108ae8d

标签:GitHub,模型,StarCoder2,StarCoder,15B,LLM,NVIDIA,3B
From: https://www.cnblogs.com/deephub/p/18060522

相关文章

  • PokéLLMon 源码解析(二)
    .\PokeLLMon\poke_env\environment\double_battle.py#从logging模块中导入Logger类fromloggingimportLogger#从typing模块中导入Any,Dict,List,Optional,Union类型fromtypingimportAny,Dict,List,Optional,Union#从poke_env.environment.abstract......
  • PokéLLMon 源码解析(三)
    .\PokeLLMon\poke_env\environment\move_category.py#导入需要的模块fromenumimportEnum,auto,unique#定义一个枚举类MoveCategory,表示一个移动类别@uniqueclassMoveCategory(Enum):"""Enumeration,representamovecategory."""#定......
  • PokéLLMon 源码解析(四)
    .\PokeLLMon\poke_env\exceptions.py"""Thismodulecontainsexceptions."""#定义一个自定义异常类ShowdownException,继承自内置异常类ExceptionclassShowdownException(Exception):"""Thisexceptionisraisedwhena......
  • PokéLLMon 源码解析(五)
    .\PokeLLMon\poke_env\player\player.py"""Thismoduledefinesabaseclassforplayers."""importasyncioimportrandomfromabcimportABC,abstractmethodfromasyncioimportCondition,Event,Queue,Semaphorefromlogg......
  • PokéLLMon 源码解析(六)
    .\PokeLLMon\poke_env\teambuilder\teambuilder_pokemon.py"""ThismoduledefinestheTeambuilderPokemonclass,whichisusedasanintermediateformattospecifypokemonbuildsinteambuilderscustomclasses."""#导入必要的模块......
  • PokéLLMon 源码解析(一)
    .\PokeLLMon\poke_env\concurrency.py#导入必要的模块importasyncioimportatexitimportsysfromloggingimportCRITICAL,disablefromthreadingimportThreadfromtypingimportAny,List#在新线程中运行事件循环def__run_loop(loop:asyncio.AbstractEventLo......
  • LLM 加速技巧:Muti Query Attention
    MQA是19年提出的一种新的Attention机制,其能够在保证模型效果的同时加快decoder生成token的速度。在大语言模型时代被广泛使用,很多LLM都采用了MQA,如Falcon、PaLM、StarCoder等。在介绍MQA之前,我们先回顾一下传统的多头注意力Multi-HeadAttention(MHA)多头注意力是tra......
  • 论文阅读1--llm对于因果方向的影响
    论文1:CausalReasoningandLargeLanguageModels:  OpeningaNewFrontierforCausality文章根据LLM在因果发现、反事实推理和实际因果关系方面的评估结果表明,它们可以取得很好的效果,这是通过大量的文本训练模仿该领域知识模式的结果。虽然它也会产生错误,但是错误的次数极少......
  • RNN又行了!DeepMind新发布的Griffin可以与同级别的LLM性能相当
    Hawk和Griffin是DeepMind推出的新型循环神经网络(RNNs),2月刚刚发布在arxiv上。Hawk通过使用门控线性递归(gatedlinearrecurrences)超越了Mamba的性能,而Griffin则是一种混合型模型,结合了门控线性递归和局部注意力(localattention),与Llama-2的性能相当,但使用的训练数据明显较少。Griffi......
  • 大语言模型(LLM)安全性测试SecBench平台洞察分析
     摘要业界首个网络安全大模型评测平台SecBench正式发布(2024-1-19),主要解决开源大模型在网络安全应用中安全能力的评估难题,旨在为大模型在安全领域的落地应用选择基座模型提供参考,加速大模型落地进程。同时,通过建设安全大模型评测基准,为安全大模型研发提供公平、公正、客观、全......