首页 > 其他分享 >国产670亿参数的DeepSeek:超越Llama2,全面开源

国产670亿参数的DeepSeek:超越Llama2,全面开源

时间:2023-12-20 18:06:11浏览次数:42  
标签:模型 deepseek 670 Llama2 https GPT DeepSeek

模型概述

DeepSeek,一款国产大型语言模型(LLM),凭借其670亿参数的规模,正引领着人工智能领域的新浪潮。这款模型不仅在多项中英文公开评测榜单上超越了700亿参数的Llama 2,而且在推理、数学和编程能力方面表现突出。最引人注目的是,DeepSeek在匈牙利最新高中数学考试中获得了65分的高分,显示出其卓越的数学解题能力。

  • Huggingface模型下载: https://huggingface.co/deepseek-ai
  • AI快站模型免费加速下载: https://aifasthub.com/models/deepseek-ai

国产670亿参数的DeepSeek:超越Llama2,全面开源_Google

技术创新

DeepSeek的核心架构借鉴了Llama模型,采用自回归Transformer解码器架构。它具有两个版本,分别是70亿和670亿参数。重要的是,该模型使用多头注意力(MHA)和分组查询注意力(GQA)技术,这些技术有效提高了模型的性能和效率。此外,它在2万亿个中英文token的数据集上进行了预训练,展现出了强大的双语处理能力。

性能展示

在标准基准测试中,DeepSeek展示了其强大的能力。在多种语言任务,如TriviaQA、MMLU、GSM8K、HumanEval等方面,DeepSeek都显示出了卓越的性能。特别是在中文QA测试中,DeepSeek的表现超越了GPT-3.5,验证了其在处理中文内容上的优势。

国产670亿参数的DeepSeek:超越Llama2,全面开源_编程能力_02

指令跟随能力

DeepSeek还通过了Google发布的指令跟随评测集的测试,得分59.1分,领先于众多开源模型。尽管与GPT-4还有一定差距,但这一成绩充分证明了其在理解和执行复杂指令方面的能力。

国产670亿参数的DeepSeek:超越Llama2,全面开源_编程能力_03

编码能力测试

DeepSeek在LeetCode最新真题的测试中也表现出色,其性能优于国内常见的大模型,并显著超越了GPT 3.5。这一结果证明了DeepSeek在编程领域的应用潜力。

国产670亿参数的DeepSeek:超越Llama2,全面开源_Google_04

训练细节

DeepSeek的训练过程着重于多步学习率计划,从2000个预测步骤开始,然后在大量token的基础上逐步达到最大学习率的一定比例。这种独特的学习率调整策略与Llama的传统余弦学习率衰减法截然不同,显示出其独特的训练效率。

国产670亿参数的DeepSeek:超越Llama2,全面开源_编程能力_05

开放和可访问性

值得一提的是,DeepSeek提供了70亿和670亿两个参数版本的基础模型和指令微调模型,均已开源并可免费商用。这一举措极大地促进了AI社区的发展和创新。

结论

DeepSeek的出现标志着国产大模型技术的一大进步。它不仅在性能上超越了国际同类产品,还在开放性和可用性方面树立了新的标准。无疑,DeepSeek将在促进AI技术的广泛应用和创新方面发挥重要作用。

模型下载

Huggingface模型下载

https://huggingface.co/deepseek-ai

AI快站模型免费加速下载

https://aifasthub.com/models/deepseek-ai

标签:模型,deepseek,670,Llama2,https,GPT,DeepSeek
From: https://blog.51cto.com/u_16323307/8909340

相关文章

  • 使用双卡/8卡3090微调llama2-70B/13B模型
    写在前面本篇博文将会教大家如何在消费级的设备(或者各种超级便宜的洋垃圾上)实现13B/70B等无法在单张消费级显卡上加载(但可以在一台机器上的多张卡上加载)的模型的微调。由于绝大部分做实验,仅要求实现推理,或者在微调时没有资源上到全量/13B+级别的真·大模型的微调,没有涉及到将一......
  • 使用8卡3090微调llama2-70B模型
    写在前面很多问题尚未弄清,还在进一步调整目前已知我用8卡的3090采用deepspeedZeRO3进行运行,下面是deepspeed3的配置1{2"fp16":{3"enabled":"auto",4"loss_scale":0,5"loss_scale_window":1000,6......
  • 【洛谷 P2670】[NOIP2015 普及组] 扫雷游戏 题解(模拟)
    [NOIP2015普及组]扫雷游戏题目背景NOIP2015普及组T2题目描述扫雷游戏是一款十分经典的单机小游戏。在行列的雷区中有一些格子含有地雷(称之为地雷格),其他格子不含地雷(称之为非地雷格)。玩家翻开一个非地雷格时,该格将会出现一个数字——提示周围格子中有多少个是地雷格。游戏的......
  • Linux 内核参数调整解析:深度优化数据库性能 转载:https://www.toutiao.com/article/73
    系统内核参数配置文件:/etc/sysctl.conf一、参数说明1、关闭IPv6支持net.ipv6.conf.all.disable_ipv6=1net.ipv6.conf.default.disable_ipv6=1作用:关闭对IPv6的支持,减轻系统负担,提高安全性。解析:net.ipv6.conf.all.disable_ipv6:禁用系统中所有网络接口的IPv6。net......
  • medical custom dataset for fine-tuning llama2
    datapreparationweusehuggingfaceshibin6624/medical tofine-tuningllama2,pleasenotethatthisdatasetisconsistofenandcndata,herewejustuseendata.datasetstructure nowwedownloadandloaddataset,thensavethemintotrain.csv,valida......
  • 快速上手llama2.c
    title:快速上手llama2.cbanner_img:https://github.com/karpathy/llama2.c/blob/master/assets/llama_cute.jpgdate:2023-7-2516:19:00tags:-踩坑快速上手llama2.cllama2.c一个完整的解决方案,可以使用PyTorch从头开始训练的Llama2LLM(LightweightLanguageModel)模型......
  • 快速上手llama2.c(更新版)
    title:快速上手llama2.c(更新版)banner_img:https://github.com/karpathy/llama2.c/blob/master/assets/llama_cute.jpgdate:2023-7-2816:31:00tags:-踩坑快速上手llama2.c(更新版)在上一次我同时在我的博客和知乎发布了快速上手llama2.c之后,我一个小透明也收获了不......
  • 全新Self-RAG框架亮相,自适应检索增强助力超越ChatGPT与Llama2,提升事实性与引用准确性
    全新Self-RAG框架亮相,自适应检索增强助力超越ChatGPT与Llama2,提升事实性与引用准确性1.基本思想大型语言模型(LLMs)具有出色的能力,但由于完全依赖其内部的参数化知识,它们经常产生包含事实错误的回答,尤其在长尾知识中。为了解决这一问题,之前的研究人员提出了检索增强生成(RAG),它通......
  • ECSE 4670 计算机通信网络
    在这个由多部分组成的任务中,我们最终将构建一个简单但可靠的文件传输UDP上的应用程序。然而,为了实现这一目标,我们将首先实施在分配的A部分中,通过UDP“ping”应用程序。此UDPPing器应用程序将帮助您熟悉UDP套接字并开发一个简单的请求￾超时的响应协议。在作业的B部分,我们将使用这......
  • intel ssd 670P 更新固件的方法
    笔者笔记本感觉莫名其妙的慢,有一块2T的nvme670P的ssd,以前的更新工具INTELTOOLBOX不能更新这个ssd,看了国外的贴子说INTELssd被一个公司收购了,工具也变了,变更后的工具是Solidigm(TM)StorageTool,https://www.solidigm.com/content/solidigm/us/en/support-page/drivers-downl......