首页 > 其他分享 >字节豆包发布新模型,AI 一句话 P 图;Google 正式推出 Vids,简单提示即可生成视频演示丨 RTE 开发者日报

字节豆包发布新模型,AI 一句话 P 图;Google 正式推出 Vids,简单提示即可生成视频演示丨 RTE 开发者日报

时间:2024-11-12 12:18:33浏览次数:1  
标签:视频 Google AI 模型 用户 生成 SeedEdit Vids

 

 

 

开发者朋友们大家好:

 

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的会议」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

 

本期编辑:@SSN,@鲍勃

01有话题的新闻

1、字节新模型 SeedEdit 开启测试:一句话轻松 P 图

 

 

 

字节跳动于 11 月 11 日推出了其最新图像编辑模型 SeedEdit,成为国内首个产品化的通用图像编辑工具。用户只需输入一句简单的自然语言指令,即可实现对图片的背景更换、风格转换以及元素的增删替换,无需繁琐的描边和涂抹。

 

SeedEdit 在识别指令方面表现出色,能够精准理解中文和英文提示,包括成语及专有名词。例如,用户只需输入 「把西瓜换成葡萄」,SeedEdit 便能快速完成上个与水果替换。

 

此外,模型在处理细节时也保持了原图的完整性,例如移除玻璃裂纹或改变图像中的特定元素。

 

作为一款通用图像编辑模型,SeedEdit 不仅支持单次编辑,还允许多轮创意操作。用户可以对同一图像进行连续编辑,创造出多样化的效果。

 

报告显示,SeedEdit 依然采用了 Diffusion 架构,但在不引入新参数的情况下将图像生成模型转换成了图像编辑模型。其秘诀是在保持原始图像和生成新内容之间寻找平衡,最终得以在图像编辑的通用性、可控性和高质量上实现新的突破。解决了传统 AI 图像编辑中存在的多个痛点。

 

据了解,SeedEdit 已在豆包 PC 端和即梦 AI 上线网页端开始测试,用户可以通过简单的指令实现高效的图像编辑。与 Dall・E3 和 Midjourney 等竞争对手相比,SeedEdit 在编辑的便捷性和响应精准度上更具优势。(@AIbase 基地)

 

2、Suno 发布 V4 音乐生成模型音频演示视频,音质和风格大提升

 

近日,Suno 公司发布了其最新的 v4 音乐生成模型的音频样本。这些演示音频展现了与之前版本相比,音质、音色多样性和一致性都有了显著提升。

 

Suno 的 v4 模型通过深度学习技术对大量音乐数据进行训练,旨在生成更自然、更丰富的音乐作品。与以往版本相比,v4 模型在音频合成方面的表现更为出色,能产生更具表现力的乐曲,增强了音乐的情感表达。听众在试听样本时,能够明显感受到音质的细腻程度和旋律的流畅性,给人以耳目一新的体验。

 

为了使这一新模型的功能更为全面,Suno 还对音乐的多样性进行了优化。通过对不同风格和流派的音乐数据进行学习,v4 模型能够生成多种风格的音乐,满足不同听众的需求。

 

此外,模型在保持音乐一致性方面也有所改进,无论是在旋律、节奏还是和声方面,v4 都能够保持高度的协调性。

 

这一系列的改进使得 Suno 的 v4 音乐生成模型不仅适用于个人创作,还可以被广泛应用于商业音乐制作、游戏音乐及其他需要背景音乐的场合。Suno 希望通过这一创新,能够推动 AI 音乐生成技术的进一步普及和应用。(@AIbase 基地)

 

3、X 正在测试 AI 聊天机器人 Grok 的免费版本

 

据 TechCruch 报道, X 一直将其 AI 聊天机器人 Grok 限制给高级付费用户使用。

 

不过,X 似乎正准备向免费用户开放聊天机器人。

 

上个周末,有部分应用研究人员和用户发布了有关聊天机器人 Grok 免费版将向特定地区用户开放的消息。据研究人员表示,目前免费的使用次数有限制:Grok-2 模型每两小时 10 次查询,Grok-2 mini 模型每两小时 20 次查询,每天三个图像分析问题。

 

报道指出,要免费使用 Grok,用户的帐户必须至少有七天的历史并且与其关联的电话号码。(@APPSO)

 

4、Google 正式推出 Gemini AI 驱动的视频演示应用 Vids, 通过简单提示即可生成视频演示

 

Google 正式推出了其 Gemini AI 驱动的视频演示应用程序 Vids,用户可以通过简单的提示生成视频演示。

 

Vids 集成了 Gemini 的生成式 AI 功能,用户只需提供提示或 Google Drive 中的文档,系统即可生成一个初始视频故事板,包括推荐的场景、脚本、背景音乐等。用户可以通过「Help me create」功能快速获取一个编辑草稿,大大简化了视频制作过程。

 

Vids 还支持语音旁白,可以选择 Gemini 的预设 AI 语音或录制自己的语音。系统还包含滚动式提词器,帮助用户在录制过程中自然流畅地呈现信息。此外,用户可以添加自己的视频、屏幕录制和音频录制,以便制作多样化的视频内容。

 

Vids 的主要功能包括自动插入素材视频、生成脚本、以及创建 AI 语音旁白,用户无需亲自录音。Google 表示该工具可用于将客户支持文章转化为视频、制作培训视频、发布公司公告、生成会议回顾等。(@小互 AI)

 

5、月之暗面创始人被前公司投资人提起仲裁,受理律师回应将提出抗辩

 

月之暗面创始人杨植麟、联合创始人兼 CTO 张宇韬被前公司循环智能时期的投资人在中国香港提起仲裁,相关电子仲裁申请书也已递交 HKIAC(香港国际仲裁中心)。

 

对此,铭德律师事务所资深合伙人 David Morrison 律师今日回应第一财经称:「本所已接受杨植麟先生、张宇韬先生委托,关注到相关仲裁事项。我们认为该事项既缺乏法律依据,也不具备事实基础,本所将依法提出抗辩。」

 

另据知情人士消息称,本次仲裁的申请方,来自循环智能以及循环智能 7 家投资方中的 5 家:金沙江创投、靖亚资本、博裕资本、华山资本和万物资本。上述知情人士表示,此次仲裁申请可能缘起于,在尚未拿到来自循环智能的几个投资方(金沙江创投、万物资本、靖亚资本、华山资本和博裕资本)的同意豁免书之前,杨植麟和张宇韬等人就已启动融资并创立月之暗面。(@IT 之家)

02有态度的观点

1、OpenAI 产品负责人:现在的模型受限于评估方法

 

OpenAI 的首席产品官 Kevin Weil 和 Anthropic 的首席产品官 Mike Krieger 共同探讨了人工智能领域的多个核心议题。

 

他们讨论了当前 AI 模型的局限性,强调这些局限更多地在于评估方法而非智能水平本身,指出产品经理的角色正在经历转变,从传统的角色向研究型产品经理演进,这要求他们掌握编写评估标准和模型微调等新技能。

 

两位产品负责人还展望了 AI 的未来,提出了「主动性」和「异步」作为 AI 发展的关键词,预测模型将变得更加主动,监控用户邮件、发现趋势、准备会议内容,同时也会更异步,可能需要时间来思考和回答。

 

此外,他们对用户适应 AI 的速度表示惊叹,预计 AI 将模仿人类思维,以指数级速度迭代升级,并以我们人类互动的所有方式进行互动,预示着全新的人机交互范式。(@APPSO)

 

2、OpenAI 联合创始人 Sutskever 预测大模型扩张时代或将终结

 

据路透社报道,主要 AI 实验室正面临困境。开发大型语言模型不仅需要投入数千万美元,还常常遭遇系统崩溃等技术难题,评估一个模型的性能往往需要持续数月之久。

 

这种发展瓶颈已经波及行业巨头。有报道称 OpenAI 的新型 Orion 模型相比 GPT-4 提升有限,谷歌的 Gemini2.0 也遇到类似困境。Anthropic 方面,其首席执行官 Dario Amodei 表示正在重新规划 Opus3.5 的开发路线。

 

OpenAI 前联合创始人、现 Safe Superintelligence (SSI)负责人 Ilya Sutskever 指出:「2010 年代是扩展的时代,现在我们进入了探索与发现的新阶段。」这一表态格外引人注目,因为 Sutskever 曾是「越大越好」理念的倡导者。

 

行业新方向指向「测试时计算」,即赋予 AI 模型更多时间来逐步思考和解决问题。这种方法着重培养 AI 系统的推理能力,使其能够生成多个解决方案并进行评估,而不是简单地快速作答。

 

这一转变也可能影响硬件市场格局。虽然 Nvidia 在传统 AI 训练硬件领域占据主导地位,但新的计算范式为 Groq 等其他芯片制造商带来了机遇。不过,业内预计未来可能会同时采用传统方法和新方法,以实现最优成本效益。

 

多位业内人士认为,虽然传统的语言模型开发仍将持续,但行业重心已经开始转移。这标志着 AI 发展进入了一个更注重质量和思维能力的新阶段。(@AIbase 基地)

 

写在最后:

 

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

 

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

 

 

 

素材来源官方媒体/网络新闻

标签:视频,Google,AI,模型,用户,生成,SeedEdit,Vids
From: https://www.cnblogs.com/Agora/p/18541571

相关文章

  • ssm093基于Java Web的毕业生就业状况管理系统设计与实现+jsp(论文+源码)_kaic
     毕业设计(论文)题目:毕业生就业状况管理系统设计与实现摘 要现代经济快节奏发展以及不断完善升级的信息化技术,让传统数据信息的管理升级为软件存储,归纳,集中处理数据信息的管理方式。本毕业生就业状况管理系统就是在这样的大环境下诞生,其可以帮助管理者在短时间内......
  • 【CAP评测有奖】邀您共探 AI 应用开发新趋势,赢取多重好礼!
    AI被普遍认为是驱动行业革新的核心动力,其在各行各业的应用正在加速推进。然而,在构建AI应用的过程中,企业往往遭遇诸如技术壁垒高筑、试错周期漫长、GPU资源成本高昂且灵活性不足、配套工具缺失、业务与模型开发运维割裂、定制化能力匮乏等难题,这些成为了企业AI应用构建路上的......
  • 如何成为一名AI产品经理?学什么?怎么学?看这一篇就够了!
    要成为一名AI产品经理,需要综合多方面的知识和技能,并在实践中不断学习和提升。一、强化基础教育背景专业选择:拥有计算机科学、数据科学、统计学或相关领域的学士或硕士学位是基础。这些专业提供了理解AI技术和算法的基本知识,是进入这个领域的重要前提。基础知识:即使不是上......
  • 鲜艺AI抠图 v3.0(支持 AI消除+二次编辑,可离线)
    软件特色:1.支持导入格式:JPG/JPEG、PNG、GIF、WEBP、BMP;2.输出:默认PNG无损@透明格式(抠图最佳选择);3.上传方式:点击上传、拖放、粘贴、(图心床)链接、网页拖放;4.内置RMBGAI模型,专为开抠人、物体背景设计;5.现支持二次编辑功能,可修复或擦除不完美部分;6.可直接使用Ph......
  • DeepMind今日发布并开源其最先进AI蛋白质预测工具AlphaFold3程序代码
    “迟来总比没有好”!GoogleDeepMind今日向充满期待的学术界公开了其最新人工智能蛋白质预测软件的源代码。尽管部分科学家对DeepMind耗费六个月时间才公布代码表示不满,但绝大多数科研人员对此表示欢迎。5月8日,DeepMind在《自然》杂志上发表文章,宣布推出了AlphaFold3,该技术......
  • 自定义 LangChain 组件:打造专属 RAG 应用
    引言在构建专业的检索增强生成(RAG)应用时,LangChain提供了丰富的内置组件。然而,有时我们需要根据特定需求定制自己的组件。本文将深入探讨如何自定义LangChain组件,特别是文档加载器、文档分割器和检索器,以打造更加个性化和高效的RAG应用。自定义文档加载器LangChain的文档......
  • 深入理解 LangChain 文档分割技术
    引言随着大语言模型(LLM)的快速发展,检索增强生成(Retrieval-AugmentedGeneration,RAG)技术已成为构建知识密集型AI应用的关键方法。本文将深入介绍RAG应用开发中的核心环节-文档处理,重点讲解LangChain框架中的文档处理组件和工具。RAG应用架构概述在RAG应用中,文档......
  • LangChain 向量存储与检索技术详解
    引言在RAG(检索增强生成)应用中,向量存储和检索是连接文档处理和LLM生成的关键环节。本文将深入探讨LangChain中的向量存储和检索技术,包括常用的向量数据库、嵌入模型以及高效的检索策略。向量存储基础向量存储是将文本转换为高维向量并进行存储和检索的技术。在RAG应用中,......
  • 在华为开发者空间,简单几步带你实现AI风格化编程
    摘要:通过调用ModelArts上的动漫头像制作应用,将头像图片转化为动漫风格的头像图片。本文分享自华为云社区《【开发者空间实践指导】基于FunctionGraph的AI风格化编程》,作者:开发者空间小蜜蜂。一、案例介绍本实验基于FunctionGraph和ModelArts的智能头像动漫化处理应用。......
  • Bootstrap vs TailwindCSS
    在为您的网页设计项目选择Bootstrap和TailwindCSS之间犹豫不决?以下是帮助您做出决定的快速概述:Bootstrap提供了即用型组件,便于快速开发,但定制性有限。TailwindCSS提供了实用类,设计高度可定制,但需要更多的前期工作。性能:TailwindCSS通过删除未使用的样式,可能使您的网......