首页 > 其他分享 >GTC大会干货:8位大佬对Transformer起源和未来发展的探讨

GTC大会干货:8位大佬对Transformer起源和未来发展的探讨

时间:2024-03-22 17:44:38浏览次数:24  
标签:Transformer GTC AI 模型 干货 Ashish 我们 Vaswani


    添加图片注释,不超过 140 字(可选)   在2024年的GTC大会上,黄仁勋特邀Transformer机器语言模型的七位创造者,共同探讨Transformer模型的过去、现在与未来。他们一致认为,尽管Transformer已经成为现代自然语言处理领域的基石,但这个世界仍然需要超越Transformer的新颖架构,能够引领我们到达新的性能高度。 Transformer 8位创造者

  • Ashish Vaswani,EssentialAI 联合创始人兼 CEO
  • Noam Shazeer,Character.AI 首席执行官兼联合创始人
  • Jakob Uszkoreit,Inceptive 联合创始人兼首席执行官
  • Llion Jones,SakanaAI 联合创始人兼首席技术官
  • Aidan Gomez,Cohere 联合创始人兼首席执行官
  • Lukasz Kaiser,OpenAI 技术人员
  • Illia Polosukhin,NEAR Protocol 联合创始人
  • Niki Parmar,EssentialAI 联合创始人(因家庭原因未出席)
  •  
黄仁勋表示在过去20年,PC变革使计算成本降低了1万倍,但目前趋势已趋向平缓,我们开始追求加速计算,在计算机图形和游戏领域不断推动者技术创新,如果我们能够加速代表 99% 运行时间的 1% 代码,那么在某些应用领域,我们将获得巨大的好处,实现巨大的差异。GPU加速计算和人工智能的结合,让生成式AI展示出巨大能力,生成式 AI 不仅可以识别图像,还可以根据文本描述生成相应的图像,这也将带来新的工业革命,能够创造一些从未存在过的东西。        

01 Transformer诞生与价值

Noam Shazeer:早在 2015 年,我们就看到了这个规模效应。让模型变得更大,它就变得更聪明。你只需要扩大规模,模型能够执行数百万种不同的任务。 Ashish Vaswani:Transformer出现时,我就意识到梯度下降训练的模型是一个很好的老师。而且可扩展的通用架构终将赢得长期胜利。今天是tokens,明天可能是我们在计算机上执行的动作,它会开始模仿我们的活动,自动化我们大量的工作。      

 

02Transformer进步空间

Aidan Gomez:我认为在推理方面,人们已经做了大量工作来加速这些模型,提高效率。但我仍然觉得有些不安,现在还是离我们最初的形式太相近了。我觉得世界需要比transformer更强的东西。 Llion Jones:现在的计算量太大了。我想人们处于大量的计算量浪费。我认为,计算是接下来必须解决的问题之一。我们需要知道针对特定问题应该投入多少计算资源。 Ashish Vaswani:我们最初的目标是模拟 token 的演变,实现线性生成。现在这个过程也适用于图像,扩散模型会迭代地进行改进和完善。根本的问题是,哪些知识应该存在于模型内部,哪些应该存在于模型外部?例如,推理应该在外部使用符号系统进行,这是一个效率的论点。     Jensen 向 Ashish Vaswani 赠送了签名的 DGX-1 封面  

03创业的理念

Ashish Vaswani:一个超级智能AI是无法诞生在学术实验室的。我们必须要走出去,接触社会,让世界与这些模型互动,从中获取反馈,并让它们变得更聪明。做到这一点的方式就是走出去,创建新的学习体验。 Jakob Uszkoreit:AI真的可以帮助我们在实际生活生产中做很多有效率的事情,Alphafold2(DeepMind旗下研发蛋白质设计的人工智能公司)研发结果公布,Alphafold2和Alphafold1最关键的区别使用了Transformer架构,提升了算法模型效率。 Llion Jones:我们想做的是以自然界为灵感的AI公司,也会做开源,将现在所有可用模型放在了Huggng Face上,然后使用了大量的计算量进行进化计算(evolutionary computation)来探索合并、堆叠图层的方法。 Aidan. Gomez:我创办的Cohere是面向企业的AI公司。我们创建了一个平台,让每个企业都可以采用和集成这项技术到他们的产品中,而不是直接面向消费者。我们想用这种方式让社会接触AI的手段更加简便、成本更低。      

04未来的AI模型发展的方向

Lllia Polosukhin:下一代模型更看重与用户的交互,需要来自大规模用户互动的数据。 Llion Jones:下一个更重要的方向是训练AI的推理和自主决策能力,现在大部分的机器训练和人机交互还是人工手动输入指令的,我们现在需要做的是训练机器强大的推理能力。 Jakob Uszkoreit:另一个方向是模型应该生产出人类世界的商品,也就是人们想要消费的东西,而在这之前机器必须接受所有刺激人类消费欲望的训练和指令。在那时,所有音视频等三维世界观察世界的信息都由AI自动化完成。 Lukasz Kaiser:是的,就像是用人的思维方式进行思考。只需要小规模的数据就可以得到像样的AI系统。因为AI的推理能力越强,所需要的数据训练量就越少,因为那时的AI更加智能了,可以自己检索信息、生成信息、进行规划。扫码加入沟通群          

标签:Transformer,GTC,AI,模型,干货,Ashish,我们,Vaswani
From: https://www.cnblogs.com/ai2nv/p/18090167

相关文章

  • 【论文阅读】SpectFormer: Frequency and Attention is what you need in a Vision Tr
    SpectFormer:FrequencyandAttentioniswhatyouneedinaVisionTransformer引用:PatroBN,NamboodiriVP,AgneeswaranVS.SpectFormer:FrequencyandAttentioniswhatyouneedinaVisionTransformer[J].arXivpreprintarXiv:2304.06446,2023.论文......
  • 良心干货,常见的MySQL索引类型枚举!!!
    在MySQL中,索引是一种用于快速查询和检索数据的数据结构。它们类似于书籍的目录,可以帮助数据库系统更快地定位到特定的数据行,而不需要扫描整个数据表。索引可以显著提高查询性能,特别是在处理大量数据时。MySQL支持多种类型的索引,每种索引都有其特定的使用场景和优势。以下是......
  • [基础] DiT: Scalable Diffusion Models with Transformers
    名称DiT:ScalableDiffusionModelswithTransformers时间:23/03机构:UCBerkeley&&NYUTL;DR提出首个基于Transformer的DiffusionModel,效果打败SD,并且DiT在图像生成任务上随着Flops增加效果会降低,比较符合scalinglaw。后续sora的DM也使用该网络架构。Method网络结构整......
  • Transformer
    建议大家看一下李宏毅老师讲解的Transformer,非常简单易懂(个人觉得史上最强transformer讲解):https://www.youtube.com/watch?前言Transformer由论文《AttentionisAllYouNeed》提出,现在是谷歌云TPU推荐的参考模型。论文相关的Tensorflow的代码可以从GitHub获取,其作为Tensor2T......
  • 英伟达GTC大会看点:Blackwell芯片、推理微服务NIM、人形机器人
    北京时间3月19日,英伟达创始人兼首席执行官黄仁勋在美国加州圣何塞SAP中心拉开了GTC大会帷幕,这是时隔5年重回线下的会议,现场吸引了11000多名与会者。大会上黄仁勋演讲了长达120分钟的主题分享《见证AI的变革时刻》,并发布了最新技术Blackwell架构、NIM微服务、OmniverseCloudAPI......
  • 【干货】Java开发者快速上手.NET指南
    前言前几天有小伙伴在技术群里发了一个微软官方出的:适用于Java开发人员的.NET快速入门免费电子书,今天大姚来分享一下Java开发者想要快速上手.NET有哪些教程和优质资料。微软适用于Java开发人员的.NET快速入门指南下载阅读地址:https://dotnet.microsoft.com/zh-cn/campaigns/do......
  • 【英伟达】GTC 2024|黄仁勋2小时演讲精华版|六大亮点| Blackwell GPU | DGX B200 | NV
    视频地址:https://www.youtube.com/watch?v=zBIddyiMXsU......
  • 单片机干货-IIC上拉电阻有什么用?
    简短不看版:1.I2C要加上拉电阻,阻值一般为3-10K(通常选4.7k)2. 不仅要加上拉电阻,并且同时SCL,SDA要配置成开漏输出模式。3.目的一方面是为了防止出现如图所示的短路问题,另外一方面是为了总线仲裁(看谁能往总线写数据)另一方面是因为I2C是一种多主机协议,而SDA只有一根线,因此传......
  • 英伟达GTC2024大会开幕,发布机器人003计划,引领具身智能新时代
    一、背景在全球科技创新的前沿阵地,2024年3月的英伟达GPU技术大会(GTC)再次成为全球瞩目的焦点。在此次盛会上,英伟达公司创始人兼首席执行官黄仁勋先生不仅展示了其公司在加速计算和生成式AI领域的最新突破,更震撼发布了具有里程碑意义的“通用机器人003计划”,预示着人工智能与人......
  • GTC 2024 开幕,英伟达发布新一代 GPU 架构;Apple ID 或将淘汰丨 RTE 开发者日报 Vol.168
       开发者朋友们大家好: 这里是「RTE开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享RTE(RealTimeEngagement)领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」,但内容仅代表编辑的个人......