首页 > 其他分享 >每日一看大模型新闻(2024.1.20-1.21)英伟达新对话QA模型准确度超GPT-4,却遭吐槽:无权重代码意义不大;Llama 2打败GPT-4!Meta让大模型自我奖励自迭代,再证合成数据是LL

每日一看大模型新闻(2024.1.20-1.21)英伟达新对话QA模型准确度超GPT-4,却遭吐槽:无权重代码意义不大;Llama 2打败GPT-4!Meta让大模型自我奖励自迭代,再证合成数据是LL

时间:2024-03-20 19:29:39浏览次数:44  
标签:伟达 2024.1 AI 模型 QA LLM GPT

1.产品发布

1.1韩国Kakao:推出多模态大模型Honeybee

发布日期:2024.1.20

Kakao unveils multimodal large language model Honeybee - The Korea Times

主要内容:韩国科技巨头Kakao今天宣布他们已经开发了一种名为“蜜蜂”(Honeybee)的多模态大语言模型。据Kakao称,“蜜蜂”能够同时理解图像和文本,回复与图像和文本内容混合相关的咨询。该模型代码已在开源社区GitHub上发布。

2.技术更新

2.1英伟达新对话QA模型准确度超GPT-4,却遭吐槽:无权重代码意义不大

发布日期:2024.1.21

英伟达新对话QA模型准确度超GPT-4,却遭吐槽:无权重代码意义不大

主要内容:一年多来,ChatGPT及后续产品引领了问答(QA)模型的范式转变。它们能以对话方式交互、提出后续问题,并能在开放域或长文档中集成检索到的证据块。然而,构建一个与SOTA黑箱模型如GPT-4等效的对话QA模型仍是挑战。最近,英伟达的研究提出了具有GPT-4水平准确度的白箱对话QA模型ChatQA 70B。该模型采用了两阶段指令调优方法和用于对话QA的RAG增强检索器,以及严格的数据管理过程。研究显示,ChatQA-70B在10个对话QA数据集上的表现优于或接近GPT-3.5-turbo和GPT-4,且不依赖OpenAI的合成数据。尽管有这些成就,社区对英伟达不公开模型权重和代码持批评态度。

论文地址https://huggingface.co/papers/2401.10225

2.2 AI看视频自动找“高能时刻”

发布日期:2024.1.21

AI看视频自动找“高能时刻”|字节&中科院自动化所@AAAI 2024

主要内容:字节跳动与中科院自动化研究所合作,开发了一种AI技术,能快速识别视频中的高光片段。这项研究的成果被AAAI 2024收录。他们创建了一个名为LiveFood的美食视频数据集用于训练,并提出了一种叫GPE的方法。GPE能够灵活地检测不同长度视频中的亮点部分,克服了传统方法的一些限制。通过在图像帧级别打分,GPE可以有效地定位到视频中的精彩瞬间。该技术在美食制作、展示和享用等场景中特别有用。研究人员收集了大量美食视频,并对高光时刻进行了标注以训练模型。GPE减少了深度学习中的遗忘问题,并在基准测试中展现了优异的性能。

2.3 Stability AI杀回来了:视频生成新Demo效果惊人

发布日期:2024.1.21

Stability AI杀回来了:视频生成新Demo效果惊人,网友:一致性超群

主要内容:Stability AI的CEO Emad Mostaque发布了一些视频,引发了网友对其新版本Stable Video Diffusion的猜测。这些视频展示了惊人的画面清晰度、一致性和流畅度:如一个毛绒熊在潜水,动作流畅,甚至还眨眼。此外,还有丰富的海水细节和一个动漫风格的夜晚街道。现在的Demo显示,机器人、杯子、灯盏和床被枕头的细节都更为丰富,机器人脸上也有光影映射。同时,Stability AI还发布了一个只有16亿参数的小语言模型StableLM2 1.6B,经过多语种训练。频繁的进展让人们怀疑Stability AI是否要翻身。

体验地址Runway - Advancing creativity with artificial intelligence.

2.4 GPT-4V惨败!CV大神谢赛宁新作:V*重磅「视觉搜索」算法让LLM理解力逼近人类

发布日期:2024.1.20

GPT-4V惨败!CV大神谢赛宁新作:V*重磅「视觉搜索」算法让LLM理解力逼近人类

主要内容:Sam Altman在世界经济论坛上表示,人类级别的AI即将到来。然而,目前的AI模型在图像理解方面还存在问题,比如无法准确识别复杂场景中的特定物体。为此,研究人员提出了V*模型和SEAL框架,通过引导视觉搜索机制来提高多模态LLM的图像理解能力。实验结果显示,这些方法在处理高分辨率图像中具有优势,有助于推动AI向人类智能迈进。

参考资料https://arxiv.org/abs/2312.14135

3.商业动态

3.1清华、小米、华为、 vivo、理想等多机构联合综述,首提个人LLM智能体、划分5级智能水平

发布日期:2024.1.21

清华、小米、华为、 vivo、理想等多机构联合综述,首提个人LLM智能体、划分5级智能水平

主要内容:该文总结了对常见问题的专家意见,包括部署个人LLM智能体的设计选择和潜在挑战。专家认为将LLM在边缘-云协同部署是首选,而纯云并不是一个被广泛接受的解决方案。在定制化方面,人们最接受的方法是组合使用微调和上下文学习对于个人LLM智能体,最重要的能力是语言理解,而最不重要的能力是处理长上下文的能力。基于语音的交互是最受欢迎的方式,而理想智能体应具备高效的数据管理和搜索、工作和生活辅助、个性化服务和推荐、自动化任务规划和完成、情感支持和社交互动等关键功能。最紧迫的技术挑战包括智能、性能、安全和隐私、个性化和存储、传统操作系统支持等方面。个人LLM智能体需要具备任务执行、情境感知和记忆等基本能力,并需要针对效率进行优化

论文地址https://arxiv.org/abs/2401.05459

文献库GitHub - MobileLLM/Personal_LLM_Agents_Survey: Paper list for Personal LLM Agents

3.2 Llama 2打败GPT-4!Meta让大模型自我奖励自迭代,再证合成数据是LLM终局

发布日期:2024.1.21

Llama 2打败GPT-4!Meta让大模型自我奖励自迭代,再证合成数据是LLM终局

主要内容:Meta和纽约大学的研究团队提出了一种自我奖励语言模型,通过让模型生成训练数据并评估这些数据的质量,然后用这些数据来自己训练自己。这种方法可以让LLM在迭代训练过程中不断自我改进。实验结果显示,经过3次迭代,Llama 2-70B模型在AlpacaEval 2.0基准测试中战胜了GPT-4、Claude 2、Gemini Pro等模型。这表明,自我奖励语言模型是一种有效的方法,可以推动AI自我迭代大模型的发展。

论文https://arxiv.org/pdf/2401.10020.pdf

4.其他资讯

4.1普林斯顿博士生高天宇指令微调进展速览:数据、算法和评估

发布日期:2024.1.21

普林斯顿博士生高天宇指令微调进展速览:数据、算法和评估

主要内容:这篇文章总结了大型语言模型(LLM)在指令微调方面的研究进展。LLM虽然强大,但要应用于真实世界和通用任务求解,需要学会遵从用户指令并给出有意义的响应,而不是仅仅学舌互联网语言。因此,指令微调成为一种有潜力的方法,旨在让LLM遵从用户指令并以有益、诚实且无害的方式给出响应。文章介绍了指令微调的两个阶段:基于用户指令和标准响应对模型进行监督式微调(SFT)和将模型与人类偏好对齐。开源项目和数据构建方法的出现降低了成本,促进了指令微调的发展。最后,作者还介绍了他们在指令遵从评估方面的最新研究成果,强调设置正确的评估器的重要性。

博客地址https://nlpnewsletter.substack.com/p/instruction-tuning-vol-1

4.2月入过万只需用ChatGPT建个网站?AI创业博主在线教学

发布日期:2024.1.20

月入过万只需用ChatGPT建个网站?AI创业博主在线教学

主要内容:Paul Couvert利用ChatGPT创建了一个网站,之后并未进行任何操作,该网站却在搜索引擎上获得了很高的排名,给他带来了约1.33万人民币的月收入。他的成功秘诀在于利用AI生成营销文案,提高网站排名和关注度。他的网站主要收入来源包括AI课程、广告和一对一咨询服务。除此之外,他还做了一个AI客服工具,帮助商家快速回复邮件和客户问题。Paul的成功经验表明,利用AI技术可以大大提高网站的流量和关注度,为网站带来更多的收入。

标签:伟达,2024.1,AI,模型,QA,LLM,GPT
From: https://blog.csdn.net/liuxiuxiu3/article/details/136884334

相关文章

  • Pytorch | Tutorial-04 构建神经网络模型
    这是对Pytorch官网的Tutorial教程的中文翻译。神经网络由对数据执行操作的层/模块组成。torch.nn命名空间提供了构建您自己的神经网络所需的所有构建块。PyTorch中的每个模块都是nn.Module的子类。神经网络本身就是一个模块,由其他模块(层)组成。这种嵌套结构允许轻松构......
  • GPT-4与Claude3、Gemini、Sora:AI领域的技术创新与突破
    【最新增加Claude3、Gemini、Sora、GPTs讲解及AI领域中的集中大模型的最新技术】2023年随着OpenAI开发者大会的召开,最重磅更新当属GPTs,多模态API,未来自定义专属的GPT。微软创始人比尔盖茨称ChatGPT的出现有着重大历史意义,不亚于互联网和个人电脑的问世。360创始人周鸿祎认......
  • 大模型主流微调训练方法总结 LoRA、Adapter、Prefix-tuning、P-tuning、Prompt-tuning
    大模型主流微调训练方法总结LoRA、Adapter、Prefix-tuning、P-tuning、Prompt-tuning概述大模型微调(finetuning)以适应特定任务是一个复杂且计算密集型的过程。本文训练测试主要是基于主流的的微调方法:LoRA、Adapter、Prefix-tuning、P-tuning和Prompt-tuning,并对它们进行......
  • 常见物联网模型优缺点简介
    物联网模型多种多样,每种模型都有其独特的优点和局限性。以下是一些常见的物联网模型及其优缺点概述:集中式模型:优点:数据管理和处理集中化,便于统一监控和维护。安全性较高,数据在中心节点进行统一加密和处理。缺点:中心节点可能成为单点故障,一旦故障整个系统将受影响。随......
  • python coding with ChatGPT 打卡第23天| 回溯算法:理论基础
    文章目录视频讲解回溯法的效率解决的问题如何理解回溯法回溯框架视频讲解回溯算法理论篇回溯是递归的副产品,只要有递归就会有回溯。回溯法的效率回溯的本质是穷举,穷举所有可能,然后选出我们想要的答案,如果想让回溯法高效一些,可以加一些剪枝的操作,但也改不了回溯法......
  • 几个ChatGPT软件和网站推荐
    在接下来的内容中,我将为您介绍几个使用ChatGPT的软件和网站。无论您是想体验与ChatGPT的实时对话,还是希望在自己的应用程序中集成ChatGPT,这些资源都将为您提供便利和启发。通义千问各个领域基本都能用,手机操作更方便,还增加了智能体,可以进行不同的场景对话,后续功能待发现;点击......
  • 流畅的 Python 第二版(GPT 重译)(九)
    第四部分:控制流第十七章:迭代器、生成器和经典协程当我在我的程序中看到模式时,我认为这是一个麻烦的迹象。程序的形状应该只反映它需要解决的问题。代码中的任何其他规律性对我来说都是一个迹象,至少对我来说,这表明我使用的抽象不够强大——通常是我手动生成我需要编写的某个宏的......
  • 流畅的 Python 第二版(GPT 重译)(十三)
    第二十四章:类元编程每个人都知道调试比一开始编写程序要困难两倍。所以如果你在编写时尽可能聪明,那么你将如何调试呢?BrianW.Kernighan和P.J.Plauger,《编程风格的要素》¹类元编程是在运行时创建或自定义类的艺术。在Python中,类是一等对象,因此可以使用函数在任何时候......
  • 流畅的 Python 第二版(GPT 重译)(三)
    第五章:数据类构建器数据类就像孩子一样。它们作为一个起点是可以的,但要作为一个成熟的对象参与,它们需要承担一些责任。马丁·福勒和肯特·贝克¹Python提供了几种构建简单类的方法,这些类只是一组字段,几乎没有额外功能。这种模式被称为“数据类”,而dataclasses是支持这种模式......