首页 > 其他分享 >11.22

11.22

时间:2025-01-01 22:41:27浏览次数:1  
标签:AI 11.22 DeepSeek V3 集群 LLM GPU

令技术圈为之振奋的 DeepSeek-V3

这让很多人感到惊喜。时下 DeepSeek-V3 已在国内外各大科技板块刷屏,同时引发了不少 AI 大佬的关注。

OpenAI 前研究科学家、特斯拉前人工智能主管、AI 大神 Andrej Karpathy 评价道:

“DeepSeek(中国一家AI公司)今天再次展现出令人惊叹的实力,其开源的顶尖大语言模型以极低的预算完成训练(2048 块 GPU 训练2个月,总成本仅为 600 万美元)。

对比之下,通常这种能力水平的模型需要接近 16K GPU 的集群,而目前一些正在部署的集群规模已接近 10 万块 GPU。例如,Llama 3 405B 耗费了 3080 万 GPU 小时,而 DeepSeek-V3 仅耗费 280 万 GPU 小时(算力需求减少约 11 倍),但表现似乎更为强劲。如果该模型在各种测试中(如 LLM arena 排行榜测试,目前仍在进行中,我的几次简单测试结果不错)表现良好,那将是资源受限情况下研究与工程能力的一次极为令人印象深刻的展示。

这是否意味着训练前沿级 LLM 不再需要大规模 GPU 集群?并不是。但关键在于如何高效利用现有资源。这次成果表明,在数据和算法方面仍有大量潜力可以挖掘。

标签:AI,11.22,DeepSeek,V3,集群,LLM,GPU
From: https://www.cnblogs.com/liyize/p/18646437

相关文章

  • 11.22
    请假条管理系统1、项目需求:本项目所开发的学生请假条管理系统,完成个人请假信息的增删改查。2.系统要求与功能设计2.1页面要求(1)能够在Tomcat服务器中正确部署,并通过浏览器查看;(2)网站页面整体风格统一;(3)主页面包括要求新增请假申请、修改申请、删除申请、查询申请四个子菜单。......
  • 11.22
    软件设计                 石家庄铁道大学信息学院 实验21:观察者模式本次实验属于模仿型实验,通过本次实验学生将掌握以下内容:1、理解观察者模式的动机,掌握该模式的结构;2、能够利用观察者模式解决实际问题。 [实验任务一]:股票提醒当股票的价格上涨或......
  • 11.22 每日总结(单例模式)
    今天学习单例模式单例模式定义:确保一个类最多只有一个实例,并提供一个全局访问点单例模式可以分为两种:预加载和懒加载 预加载顾名思义,就是预先加载。再进一步解释就是还没有使用该单例对象,但是,该单例对象就已经被加载到内存了。publicclassPreloadSingleton{publi......
  • 11.22
    4 . 阿姆达尔定律阿姆达尔定律是由计算机工程先锋基恩 • 阿姆达尔(GeneAmdahl)提出并用他的名字命名的,它定义了优化一部分代码对整体性能有多大改善。阿姆达尔定律有多种表达方式,不过就优化而言,可以表示为下面的等式:(1 )S(t)=1/(1-P)+P/S(p)其中 S(t) 是因优化而导致程序......
  • 11.22实验 21:观察者模式
    [实验任务一]:股票提醒当股票的价格上涨或下降5%时,会通知持有该股票的股民,当股民听到价格上涨的消息时会买股票,当价格下降时会大哭一场。实验要求:1. 画出对应类图;  2. 提交源代码;packageobserver; importjava.util.ArrayList; publicabstractclassSubject{......
  • 11.22日报
    今天完成人机交互实验,以及软件构造实验。人机交互实验内容,完成了统计的界面,以下为代码:namespacetest1{partialclasscountForm{///<summary>///Requireddesignervariable.///</summary>privateSystem.ComponentModel.I......
  • 代码随想录之滑动窗口、螺旋矩阵、区间和、开发商土地;Java之数据结构、集合源码、File
    代码随想录滑动窗口1、如果给两个字符串s和t,判断t是否为s的子串或是否s包含t的排列,用t的长度固定滑动窗口的大小,初始化将s的前t.length()个长度的字符情况存储在int数组中,int数组的大小由字符串中字符的类型决定,最大为ascii表的长度,为128。  每次循环滑动窗口向前移一位,即lef......
  • 总结本学期阅读的三本书(2024.11.22)
    作为一名软件工程系的学生,在深入研读《代码大全》《人件集》和《用户故事与敏捷方法》这三本书后,我收获了极为丰富且系统的知识与深刻感悟,对于在专业领域的成长起到了的推动作用。《代码大全》是软件构建领域的核心指南。它全面而细致地涵盖了从代码规范的精准界定到设计原则的......
  • 2024.11.22(周五)
    当股票的价格上涨或下降5%时,会通知持有该股票的股民,当股民听到价格上涨的消息时会买股票,当价格下降时会大哭一场。实验要求:1.    画出对应类图;2.    提交源代码;3.    注意编程规范。  1、类图  2、源代码#include<iostream>#include<list>using......
  • 11.22判断是否存在
    <%@pagecontentType="text/html;charset=UTF-8"language="java"%><%@pageimport="java.sql.*"%><%@pageimport="javax.naming.*"%><%@pageimport="javax.*"%><html><body&g......