首页 > 其他分享 >大语言模型: 新的摩尔定律?

大语言模型: 新的摩尔定律?

时间:2023-02-20 21:56:27浏览次数:47  
标签:语言 训练 摩尔定律 Hugging Face 学习 LLM 模型

译者按: 最近一段时间,ChatGPT 作为一个现象级应用迅速蹿红,也带动了对其背后的大语言模型 (LLM) 的讨论,这些讨论甚至出了 AI 技术圈,颇有些到了街谈巷议的程度。在 AI 技术圈,关于 LLM 和小模型的讨论在此之前已经持续了不短的时间,处于不同生态位置和产业环节的人都有表达自己的观点,其中不少是有冲突的。

大模型的研究者和大公司出于不同的动机站位 LLM,研究者出于对 LLM 的突现能力 (emergent ability) 的好奇和对 LLM 对 NLP 领域能力边界的拓展、而大公司可能更多出自于商业利益考量;而社区和中小公司犹犹豫豫在小模型的站位上徘徊,一方面是由于对 LLM 最终训练、推理和数据成本的望而却步,一方面也是对大模型可能加强大公司数据霸权的隐隐担忧。但讨论,尤其是公开透明的讨论,总是好事,让大家能够听到不同的声音,才有可能最终收敛至更合理的方案。

我们选译的这篇文章来自于 2021 年 10 月的 Hugging Face 博客,作者在那个时间点站位的是小模型,一年多以后的 2023 年作者的观点有没有改变我们不得而知,但开卷有益,了解作者当时考虑的那些点,把那些合理的点纳入自己的思考体系,并结合新的进展最终作出自己的判断可能才是最终目的。

不久前,微软和 Nvidia 推出 了 Megatron-Turing NLG 530B,一种基于 Transformer 的模型,被誉为是 “世界上最大且最强的生成语言模型”。

毫无疑问,此项成果对于机器学习工程来讲是一场令人印象深刻的能力展示,表明我们的工程能力已经能够训练如此巨大的模型。然而,我们应该为这种超级模型的趋势感到兴奋吗?我个人倾向于否定的回答。我将在通过本文阐述我的理由。

这是你的深度学习大脑

研究人员估计,人脑平均包含 860 亿个神经元和 100 万亿个突触。可以肯定的是,这里面并非所有的神经元和突触都用于语言。有趣的是,GPT-4 预计 有大约 100 万亿个参数...... 虽然这个类比很粗略,但难道我们不应该怀疑一下构建与人脑大小相当的语言模型长期来讲是否是最佳方案?

当然,我们的大脑是一个了不起的器官,它经过数百万年的进化而产生,而深度学习模型仅有几十年的历史。不过,我们的直觉告诉我们: 有些东西无法计算 (这是个双关语,

标签:语言,训练,摩尔定律,Hugging,Face,学习,LLM,模型
From: https://www.cnblogs.com/huggingface/p/17139085.html

相关文章

  • 地理图形标记语言GML的架构及范例
    一、前言在信息高速公路的时代,如何能在不同的GIS系统间实时分享资料,是刻不容缓的问题,现在该问题已经有了一个很好解决案,那就是以XML为基础的GIS编码标准,称为地理图形标记......
  • IMX平台I2C总线驱动模型
    i2cadapter——I2C适配器在i2c总线结构中,i2cadapter对应着真实的物理设备i2c适配器。i2c-imx.c是I2C适配器的平台总线驱动,文件中包含了对I2C适配器注册和操作的函数,第......
  • C语言语法大纲
    ......
  • c语言程序填空项目
    1.头文件引用2变量的定义和初始化 3常用库函数的使用 4运算符和表达式的使用5实现顺序结构程序设计6用if语句switch语句实现分支结构的程序设计 7用whil......
  • 打卡c语言
    只要是整数,内存中储存的都是二进制的补码正数--原码,反码,补码 相同负数:原码    ---》 反码    --> 补码-2100000000000000000000000000000010......
  • C语言学习中比较奇怪的问题(1)int a = 1 ; int sum = (++a) + (++a) + (++a) ;
    题目:inta=1;  intsum=(++a)+(++a)+(++a); 当前想法:sum=2+3+4= 9 结果:   sum=10 原因:key——寄存器第①个++a......
  • Intel汇编语言程序设计笔记
    ⦁2^8=2562^10=10242^16=65536[二进制]1111=F[16进制]⦁ 有符号二进制整数的最高有效位[MSB]表示数的符号,0=正数1=负数⦁ 数据的意义,由其数据类型决定,单纯的数字没......
  • C语言:任意输入三行四列12个整数,如果某行第1个数 2个数都大于等于55,并且第3 4个数都大
    #include<stdio.h>//任意输入三行四列12个整数,如果某行第1个数2个数都大于等于55,并且第34个数都大于等于90,并且该行四个数的和大于等于310则输出"YES"//否则输出"NO......
  • Django模型 存列表
    在Django中存储列表的一个简单方法是将其转换为JSON字符串,然后将其保存为模型中的文本。然后,您可以通过将(json)字符串转换回python列表来检索该列表 ......
  • 隐马尔科夫模型
    马尔科夫模型二阶马尔科夫模型案例初始概率分布状态转移概率分布状态集合状态集合S={sunny,cloudy,rainy}。观测序列观测状态序列可以是X=x1,...,xt,...,xT,其中xt......