首页 > 其他分享 >开源大模型 | Open LLM集中爆发,卷疯了!

开源大模型 | Open LLM集中爆发,卷疯了!

时间:2024-09-18 15:52:00浏览次数:3  
标签:Yi Coder LLM 模型 开源 https Open DeepSeek


开源大模型领域热闹非凡,各种开源,PaperAgent进行了概括:端侧、Code、RAG、Agent、Reflection(反思纠正)、MoE,你关注的都在这里了。

一、Reflection Llama-3.1-70B 开源

Reflection Llama-3.1 70B是世界上顶尖的Open LLM,通过反思微调技术(Reflection-Tuning)训练,能够检测并纠正推理错误,具有很高的热度,Hugging Face热门排行Top1。

Agent中需要LLM具有很强的推理规划能力,这种反思技术训练的模型是否很契合Agent尼?有待进一步验证

开源大模型 | Open LLM集中爆发,卷疯了!_AI大模型

  1. 该模型使用Glaive生成的合成数据进行训练,Glaive是一个强大的模型训练工具。
  2. 模型可以通过特定的代码和管道进行采样,使用与标准Llama3.1相同的聊天模板格式。
  3. 采样时,模型会先在标签内输出推理过程,然后使用标签修正错误,最后在标签内提供最终答案。
  4. 这种设计使得模型能够区分内部思考和最终答案,提升用户体验。

从实验对结果看,是击败GPT-4o、Claude 3.5 Sonnet,遥遥领先的,更强405B版本

开源大模型 | Open LLM集中爆发,卷疯了!_ai_02

https://hf-mirror.com/mattshumer/Reflection-Llama-3.1-70B

二、面壁小钢炮MiniCPM 3.0开源

面壁智能开源新一代全面开挂的小钢炮,4B规模达到ChatGPT级能力:

  • 长文本方向:无限长文本,榜单性能超Kimi,超长文本也不崩。
  • Function Calling方向:性能比肩GPT-4o ,端侧最强,超越 GLM-4-9B-Chat、Qwen2-7B-Instruct。
  • RAG 方向:超强 RAG 外挂三件套,基于 MiniCPM 系列模型的 MiniCPM-Embedding、MiniCPM-Reranker 在中文、中英跨语言检索测试中取得 SOTA 表现;针对 RAG 场景的 MiniCPM3-RAG-LoRA 在开放域问答等多项任务上超越 Llama3-8B、Baichuan2-13B 等模型。

开源大模型 | Open LLM集中爆发,卷疯了!_人工智能_03

https://github.com/OpenBMB/MiniCPM``https://huggingface.co/openbmb/MiniCPM3-4B

三、零一万物Yi-Coder系列模型开源

Yi-Coder 有两种规模——15亿和90亿参数——提供基础版和聊天版,旨在实现高效的推理和灵活的训练。值得注意的是,Yi-Coder-9B 在 Yi-9B 的基础上,额外增加了2.4万亿高质量的标记,这些标记精心挑选自 GitHub 上的代码库级别的代码语料库,以及从 CommonCrawl 筛选出的与代码相关的数据。

开源大模型 | Open LLM集中爆发,卷疯了!_LLM_04

Yi-Coder 的关键特性包括:

  • 在52种主要编程语言上的2.4万亿高质量标记上继续预训练。
  • 长上下文建模:最大上下文窗口为128K标记,能够实现项目级别的代码理解和生成。
  • 小巧但强大:Yi-Coder-9B 在性能上超越了其他参数少于100亿的模型,如 CodeQwen1.5 7B 和 CodeGeex4 9B,甚至达到了与 DeepSeek-Coder 33B 相当的性能水平。
https://hf-mirror.com/01-ai/Yi-Coder-9B-Chat
https://hf-mirror.com/01-ai/Yi-Coder-1.5B-Chat
https://01-ai.github.io/blog.html?post=en/2024-09-05-A-Small-but-Mighty-LLM-for-Code.md

四、DeepSeek-V2.5版本发布

DeepSeek-V2.5 是一个升级版本,它结合了 DeepSeek-V2-Chat 和 DeepSeek-Coder-V2-Instruct。这个新模型整合了前两个版本的通用和编码能力。

开源大模型 | Open LLM集中爆发,卷疯了!_人工智能_05

DeepSeek-V2.5 更好地符合人类的偏好,并在多个方面进行了优化,包括写作和指令遵循:

开源大模型 | Open LLM集中爆发,卷疯了!_大模型_06

https://hf-mirror.com/deepseek-ai/DeepSeek-V2.5

五、首个完全开源MoE大模型:OLMoE

OLMoE-1B-7B 是一个具有10亿活跃参数和70亿总参数的专家混合(Mixture-of-Experts)大型语言模型(LLM),于2024年9月(0924)发布。它在成本相似(10亿)的模型中提供了最先进的性能,并且与像 Llama2-13B 这样的更大模型具有竞争力。OLMoE 是100%开源的

开放 MoE 和密集型语言模型(LMs)的性能、成本和开放程度

开源大模型 | Open LLM集中爆发,卷疯了!_AI大模型_07

checkpoints: https://huggingface.co/allenai/OLMoE-1B-7B-0924
paper: https://arxiv.org/pdf/2409.02060
code:https://github.com/allenai/OLMoE
data:https://huggingface.co/datasets/allenai/OLMoE-mix-0924
logs:https://wandb.ai/ai2-llm/olmoe/reports/OLMoE-1B-7B-0924--Vmlldzo4OTcyMjU3



标签:Yi,Coder,LLM,模型,开源,https,Open,DeepSeek
From: https://blog.51cto.com/u_16163510/12046926

相关文章

  • 思通数科开源产品:免费的AI视频监控卫士安装指南
    准备运行环境:确保您的服务器或计算机安装了Ubuntu18.04LTS操作系统。按照产品要求,安装以下软件:Python3.9JavaJDK1.8MySQL5.5Redis2.7Elasticsearch8.14FFmpeg4.1.1RabbitMQ3.13.2Minio(2024-07-26T20版本)接着,下载开源软件,并运行Python端、Java端和前端。下......
  • OpenAI以1500亿美元公司估值向投资者筹集65亿美元!安卓版谷歌Gemini Live免费上线|AI日
    文章推荐突发!OpenAI「Her」领头人离职!字节硬件与豆包联动,预推出AI耳机、眼镜等产品|AI日报今日热点安卓版谷歌GeminiLive免费上线据科技媒体9to5Google报道,谷歌在1个月前面向Advanced订阅用户推出后,正逐步面向所有安卓用户免费开放GeminiLive。GeminiLive采用了增强型语音引擎,可......
  • Paper Digest|OpenSPG 超大规模知识仓储 KGFabric 论文解读
    本文作者:祝锦烨,蚂蚁集团开发工程师,主要研究方向是图谱存储与计算。过去一年在团队的主要工作是蚂蚁知识图谱平台和KGFabric相关研发,研究成果收录于VLDB'24。2024年8月26日,数据管理与数据库领域顶级国际会议VLDB2024在广州举办,蚂蚁集团知识引擎团队的论文《KGFabric:A......
  • MOE vs MOT 让LLM更加有效
    知乎:北方的郎链接:https://zhuanlan.zhihu.com/p/691070810翻译自:https://www.superannotate.com/blog/mixture-of-experts-vs-mixture-of-tokens事实证明,LLM的表现与模型大小和可扩展性呈正相关。这种扩展伴随着计算资源的扩展,也就是说,模型越大,成本就越高。基于参数计......
  • 基于OpenHarmony(开源鸿蒙)的智慧医疗综合应用系统
    基于【OpenHarmony的智慧医疗综合应用系统】一.了解OpenHarmony(开源鸿蒙)进行应用开发1.了解OpenHarmony架构2.获取开发环境和工具3.创建项目4.开发应用5.调试和测试6.发布应用7.学习和社区支持二.基于开源鸿蒙(OpenHarmony)的智慧医疗综合应用系统业务场景设计......
  • FFmpeg开发笔记(五十一)适合学习研究的几个音视频开源框架
    很多程序员想学习音视频的编程开发,却不知从何学习,因为音视频技术的体系庞大、知识杂糅,一眼望去就令人生怯。那么学习音视频建议站在前人的肩膀上,从优秀的音视频开源框架开始钻研,先熟悉这些开源工具的具体用法,再深入了解这些开源框架的实现代码。有鉴于此,博主整理了几个流行的音视频......
  • 开源网安多城联动、多形式开展网安周公益活动,传播网络安全知识
    9月9日至15日,以“网络安全为人民,网络安全靠人民”为主题的2024年国家网络安全宣传周将在全国范围内统一开展,通过多样的形式、丰富的内容,助力全社会网络安全意识和防护技能提升。开源网安今年继续为各地企业、群众带来了丰富的网安周活动,兼具互动性与趣味性,帮助大家了解网络安全新技......
  • 推荐一款开源的API开放平台,5分钟就可以搭建企业专属的API开放门户!
    前言在过去的十年中,企业API治理并未受到广泛关注。然而,随着时间的推进,特别是在近几年,企业技术管理者对API治理的重视程度显著提高,开始将API视为企业资产的重要组成部分。API不再仅仅是技术层面的概念,而是成为了企业内部数据和服务传输的核心,深入融入业务流程之中。由于其全球性和......
  • 从小白到入门,写给程序员的LLM学习指南
    年初的时候,我第一次接触了ChatGPT,在被深深震撼之后,我意识到一个新的时代正在来临,作为程序员的我有了从未有过的危机感,经过过去几个月的学习,我逐渐度过了不知所措的阶段,慢慢地对以ChatGPT为代表的LLM有了一些感觉,这篇文章就把过去这段时间的学习整理成一个学习路线图,希望能对......
  • OpenCV_图像旋转超详细讲解
    图像转置transpose(src, dst);transpose()可以实现像素下标的x和y轴坐标进行对调:dst(i,j)=src(j,i),接口形式transpose(InputArraysrc,//输入图像OutputArraydst,//输出)图像翻转flip(src,dst,1);flip()函数可以实现对图像的水平翻转、垂直翻转和双向......