开源大模型 | Open LLM集中爆发，卷疯了！

时间：2024-09-18 15:52:00浏览次数：12

标签：Yi Coder LLM 模型开源 https Open DeepSeek

开源大模型领域热闹非凡，各种开源，PaperAgent进行了概括：端侧、Code、RAG、Agent、Reflection（反思纠正）、MoE，你关注的都在这里了。

一、Reflection Llama-3.1-70B 开源

Reflection Llama-3.1 70B是世界上顶尖的Open LLM，通过反思微调技术（Reflection-Tuning）训练，能够检测并纠正推理错误，具有很高的热度，Hugging Face热门排行Top1。

Agent中需要LLM具有很强的推理规划能力，这种反思技术训练的模型是否很契合Agent尼？有待进一步验证

开源大模型 | Open LLM集中爆发，卷疯了！_AI大模型

该模型使用Glaive生成的合成数据进行训练，Glaive是一个强大的模型训练工具。
模型可以通过特定的代码和管道进行采样，使用与标准Llama3.1相同的聊天模板格式。
采样时，模型会先在标签内输出推理过程，然后使用标签修正错误，最后在标签内提供最终答案。
这种设计使得模型能够区分内部思考和最终答案，提升用户体验。

从实验对结果看，是击败GPT-4o、Claude 3.5 Sonnet，遥遥领先的，更强405B版本

开源大模型 | Open LLM集中爆发，卷疯了！_ai_02

https://hf-mirror.com/mattshumer/Reflection-Llama-3.1-70B

二、面壁小钢炮MiniCPM 3.0开源

面壁智能开源新一代全面开挂的小钢炮，4B规模达到ChatGPT级能力：

长文本方向：无限长文本，榜单性能超Kimi，超长文本也不崩。
Function Calling方向：性能比肩GPT-4o ，端侧最强，超越 GLM-4-9B-Chat、Qwen2-7B-Instruct。
RAG 方向：超强 RAG 外挂三件套，基于 MiniCPM 系列模型的 MiniCPM-Embedding、MiniCPM-Reranker 在中文、中英跨语言检索测试中取得 SOTA 表现；针对 RAG 场景的 MiniCPM3-RAG-LoRA 在开放域问答等多项任务上超越 Llama3-8B、Baichuan2-13B 等模型。

开源大模型 | Open LLM集中爆发，卷疯了！_人工智能_03

https://github.com/OpenBMB/MiniCPM``https://huggingface.co/openbmb/MiniCPM3-4B

三、零一万物Yi-Coder系列模型开源

Yi-Coder 有两种规模——15亿和90亿参数——提供基础版和聊天版，旨在实现高效的推理和灵活的训练。值得注意的是，Yi-Coder-9B 在 Yi-9B 的基础上，额外增加了2.4万亿高质量的标记，这些标记精心挑选自 GitHub 上的代码库级别的代码语料库，以及从 CommonCrawl 筛选出的与代码相关的数据。

开源大模型 | Open LLM集中爆发，卷疯了！_LLM_04

Yi-Coder 的关键特性包括：

在52种主要编程语言上的2.4万亿高质量标记上继续预训练。
长上下文建模：最大上下文窗口为128K标记，能够实现项目级别的代码理解和生成。
小巧但强大：Yi-Coder-9B 在性能上超越了其他参数少于100亿的模型，如 CodeQwen1.5 7B 和 CodeGeex4 9B，甚至达到了与 DeepSeek-Coder 33B 相当的性能水平。

https://hf-mirror.com/01-ai/Yi-Coder-9B-Chat
https://hf-mirror.com/01-ai/Yi-Coder-1.5B-Chat
https://01-ai.github.io/blog.html?post=en/2024-09-05-A-Small-but-Mighty-LLM-for-Code.md

四、DeepSeek-V2.5版本发布

DeepSeek-V2.5 是一个升级版本，它结合了 DeepSeek-V2-Chat 和 DeepSeek-Coder-V2-Instruct。这个新模型整合了前两个版本的通用和编码能力。

开源大模型 | Open LLM集中爆发，卷疯了！_人工智能_05

DeepSeek-V2.5 更好地符合人类的偏好，并在多个方面进行了优化，包括写作和指令遵循：

开源大模型 | Open LLM集中爆发，卷疯了！_大模型_06

https://hf-mirror.com/deepseek-ai/DeepSeek-V2.5

五、首个完全开源MoE大模型：OLMoE

OLMoE-1B-7B 是一个具有10亿活跃参数和70亿总参数的专家混合（Mixture-of-Experts）大型语言模型（LLM），于2024年9月（0924）发布。它在成本相似（10亿）的模型中提供了最先进的性能，并且与像 Llama2-13B 这样的更大模型具有竞争力。OLMoE 是100%开源的。

开放 MoE 和密集型语言模型（LMs）的性能、成本和开放程度

开源大模型 | Open LLM集中爆发，卷疯了！_AI大模型_07

checkpoints: https://huggingface.co/allenai/OLMoE-1B-7B-0924
paper: https://arxiv.org/pdf/2409.02060
code：https://github.com/allenai/OLMoE
data：https://huggingface.co/datasets/allenai/OLMoE-mix-0924
logs：https://wandb.ai/ai2-llm/olmoe/reports/OLMoE-1B-7B-0924--Vmlldzo4OTcyMjU3

标签：Yi,Coder,LLM,模型,开源,https,Open,DeepSeek
From： https://blog.51cto.com/u_16163510/12046926

思通数科开源产品：免费的AI视频监控卫士安装指南
准备运行环境：确保您的服务器或计算机安装了Ubuntu18.04LTS操作系统。按照产品要求，安装以下软件：Python3.9JavaJDK1.8MySQL5.5Redis2.7Elasticsearch8.14FFmpeg4.1.1RabbitMQ3.13.2Minio（2024-07-26T20版本）接着，下载开源软件，并运行Python端、Java端和前端。下......
OpenAI以1500亿美元公司估值向投资者筹集65亿美元！安卓版谷歌Gemini Live免费上线｜AI日
文章推荐突发！OpenAI「Her」领头人离职！字节硬件与豆包联动，预推出AI耳机、眼镜等产品｜AI日报今日热点安卓版谷歌GeminiLive免费上线据科技媒体9to5Google报道，谷歌在1个月前面向Advanced订阅用户推出后，正逐步面向所有安卓用户免费开放GeminiLive。GeminiLive采用了增强型语音引擎，可......
Paper Digest｜OpenSPG 超大规模知识仓储 KGFabric 论文解读
本文作者：祝锦烨，蚂蚁集团开发工程师，主要研究方向是图谱存储与计算。过去一年在团队的主要工作是蚂蚁知识图谱平台和KGFabric相关研发，研究成果收录于VLDB'24。2024年8月26日，数据管理与数据库领域顶级国际会议VLDB2024在广州举办，蚂蚁集团知识引擎团队的论文《KGFabric:A......
MOE vs MOT 让LLM更加有效
知乎：北方的郎链接：https://zhuanlan.zhihu.com/p/691070810翻译自：https://www.superannotate.com/blog/mixture-of-experts-vs-mixture-of-tokens事实证明，LLM的表现与模型大小和可扩展性呈正相关。这种扩展伴随着计算资源的扩展，也就是说，模型越大，成本就越高。基于参数计......
基于OpenHarmony(开源鸿蒙)的智慧医疗综合应用系统
基于【OpenHarmony的智慧医疗综合应用系统】一.了解OpenHarmony(开源鸿蒙)进行应用开发1.了解OpenHarmony架构2.获取开发环境和工具3.创建项目4.开发应用5.调试和测试6.发布应用7.学习和社区支持二.基于开源鸿蒙(OpenHarmony)的智慧医疗综合应用系统业务场景设计......
FFmpeg开发笔记（五十一）适合学习研究的几个音视频开源框架
很多程序员想学习音视频的编程开发，却不知从何学习，因为音视频技术的体系庞大、知识杂糅，一眼望去就令人生怯。那么学习音视频建议站在前人的肩膀上，从优秀的音视频开源框架开始钻研，先熟悉这些开源工具的具体用法，再深入了解这些开源框架的实现代码。有鉴于此，博主整理了几个流行的音视频......
开源网安多城联动、多形式开展网安周公益活动，传播网络安全知识
9月9日至15日，以“网络安全为人民，网络安全靠人民”为主题的2024年国家网络安全宣传周将在全国范围内统一开展，通过多样的形式、丰富的内容，助力全社会网络安全意识和防护技能提升。开源网安今年继续为各地企业、群众带来了丰富的网安周活动，兼具互动性与趣味性，帮助大家了解网络安全新技......
推荐一款开源的API开放平台，5分钟就可以搭建企业专属的API开放门户！
前言在过去的十年中，企业API治理并未受到广泛关注。然而，随着时间的推进，特别是在近几年，企业技术管理者对API治理的重视程度显著提高，开始将API视为企业资产的重要组成部分。API不再仅仅是技术层面的概念，而是成为了企业内部数据和服务传输的核心，深入融入业务流程之中。由于其全球性和......
从小白到入门，写给程序员的LLM学习指南
年初的时候，我第一次接触了ChatGPT，在被深深震撼之后，我意识到一个新的时代正在来临，作为程序员的我有了从未有过的危机感，经过过去几个月的学习，我逐渐度过了不知所措的阶段，慢慢地对以ChatGPT为代表的LLM有了一些感觉，这篇文章就把过去这段时间的学习整理成一个学习路线图，希望能对......
OpenCV_图像旋转超详细讲解
图像转置transpose(src, dst);transpose()可以实现像素下标的x和y轴坐标进行对调：dst(i,j)=src(j,i)，接口形式transpose(InputArraysrc,//输入图像OutputArraydst,//输出)图像翻转flip(src,dst,1);flip()函数可以实现对图像的水平翻转、垂直翻转和双向......