StarCoder 2：GitHub Copilot本地开源LLM替代方案

时间：2024-03-08 11:01:05浏览次数：22

标签：GitHub 模型 StarCoder2 StarCoder 15B LLM NVIDIA 3B

GitHub CoPilot拥有超过130万付费用户，部署在5万多个组织中，是世界上部署最广泛的人工智能开发工具。使用LLM进行编程辅助工作不仅提高了生产力，而且正在永久性地改变数字原住民开发软件的方式，我也是它的付费用户之一。

低代码/无代码平台将使应用程序创建、工作流自动化和数据分析更加广泛的应用，这种变革潜力支撑着人们对开源替代方案的极大兴趣，我们今天将要介绍的这个令人兴奋的发展。最近BigCode与NVIDIA合作推出了StarCoder2，这是一系列专为编码而设计的开放式LLM，我认为在大小和性能方面是目前最好的开源LLM。

在本文中，我们将介绍StarCoder2的一些基本信息，然后建立一个本地环境，搭建StarCoder2-15B模型并用Python, JavaScript, SQL, c++和Java测试其编码能力。

StarCoder2简介

StarCoder2模型有三种不同大小可供选择，包括3B、7B和15B参数，并且支持广泛的编程语言。每个模型都是在The Stack v2上进行训练的，这是当前最广泛的用于LLM预训练的开源代码数据集。模型的主要特点如下：

3B（由ServiceNow提供）、7B（由Hugging Face提供）和15B参数版本（由NVIDIA使用NVIDIA NeMo）
所有模型使用分组查询注意力（Grouped Query Attention）
上下文窗口为16,384个标记，滑动窗口注意力为4,096个标记
模型是使用填空目标（Fill-in-the-Middle objective）进行训练的
训练时使用了3+ T（3B）、3.5+ T（7B）、4+ T（15B）标记以及600多种编程语言
StarCoder2–15B在StarCoder2模型中是最佳的，并在许多评估中与其他33B+模型相匹配。StarCoder2–3B的性能与StarCoder1–15B相当
训练时使用了1024 x H100 NVIDIA GPU
所有模型均具有商业友好的许可证

StarCoder2的能力（特别是15B模型）在性能指标中明显优于其他相同尺寸的模型，并且与CodeLlama-34B相匹配。

在具有16K标记的上下文长度下，模型处理广泛的代码库和指令，确保了全面的代码理解和生成能力。

https://avoid.overfit.cn/post/c6c8a0130c934a4da024ebdb8108ae8d

标签：GitHub,模型,StarCoder2,StarCoder,15B,LLM,NVIDIA,3B
From： https://www.cnblogs.com/deephub/p/18060522

PokéLLMon 源码解析（二）
.\PokeLLMon\poke_env\environment\double_battle.py#从logging模块中导入Logger类fromloggingimportLogger#从typing模块中导入Any,Dict,List,Optional,Union类型fromtypingimportAny,Dict,List,Optional,Union#从poke_env.environment.abstract......
PokéLLMon 源码解析（三）
.\PokeLLMon\poke_env\environment\move_category.py#导入需要的模块fromenumimportEnum,auto,unique#定义一个枚举类MoveCategory，表示一个移动类别@uniqueclassMoveCategory(Enum):"""Enumeration,representamovecategory."""#定......
PokéLLMon 源码解析（四）
.\PokeLLMon\poke_env\exceptions.py"""Thismodulecontainsexceptions."""#定义一个自定义异常类ShowdownException，继承自内置异常类ExceptionclassShowdownException(Exception):"""Thisexceptionisraisedwhena......
PokéLLMon 源码解析（五）
.\PokeLLMon\poke_env\player\player.py"""Thismoduledefinesabaseclassforplayers."""importasyncioimportrandomfromabcimportABC,abstractmethodfromasyncioimportCondition,Event,Queue,Semaphorefromlogg......
PokéLLMon 源码解析（六）
.\PokeLLMon\poke_env\teambuilder\teambuilder_pokemon.py"""ThismoduledefinestheTeambuilderPokemonclass,whichisusedasanintermediateformattospecifypokemonbuildsinteambuilderscustomclasses."""#导入必要的模块......
PokéLLMon 源码解析（一）
.\PokeLLMon\poke_env\concurrency.py#导入必要的模块importasyncioimportatexitimportsysfromloggingimportCRITICAL,disablefromthreadingimportThreadfromtypingimportAny,List#在新线程中运行事件循环def__run_loop(loop:asyncio.AbstractEventLo......
LLM 加速技巧：Muti Query Attention
MQA是19年提出的一种新的Attention机制，其能够在保证模型效果的同时加快decoder生成token的速度。在大语言模型时代被广泛使用，很多LLM都采用了MQA，如Falcon、PaLM、StarCoder等。在介绍MQA之前，我们先回顾一下传统的多头注意力Multi-HeadAttention(MHA)多头注意力是tra......
论文阅读1--llm对于因果方向的影响
论文1：CausalReasoningandLargeLanguageModels: OpeningaNewFrontierforCausality文章根据LLM在因果发现、反事实推理和实际因果关系方面的评估结果表明，它们可以取得很好的效果，这是通过大量的文本训练模仿该领域知识模式的结果。虽然它也会产生错误，但是错误的次数极少......
RNN又行了！DeepMind新发布的Griffin可以与同级别的LLM性能相当
Hawk和Griffin是DeepMind推出的新型循环神经网络（RNNs），2月刚刚发布在arxiv上。Hawk通过使用门控线性递归（gatedlinearrecurrences）超越了Mamba的性能，而Griffin则是一种混合型模型，结合了门控线性递归和局部注意力（localattention），与Llama-2的性能相当，但使用的训练数据明显较少。Griffi......
大语言模型(LLM)安全性测试SecBench平台洞察分析
摘要业界首个网络安全大模型评测平台SecBench正式发布(2024-1-19)，主要解决开源大模型在网络安全应用中安全能力的评估难题，旨在为大模型在安全领域的落地应用选择基座模型提供参考，加速大模型落地进程。同时，通过建设安全大模型评测基准，为安全大模型研发提供公平、公正、客观、全......

StarCoder 2：GitHub Copilot本地开源LLM替代方案

StarCoder2简介

相关文章

赞助商

阅读排行