首页 > 其他分享 >出现了智能涌现效应!Vidu 引领视觉模型迈入上下文时代,无问芯穹Infini-AI异构云平台助力Vidu再次突破“一致性”难题

出现了智能涌现效应!Vidu 引领视觉模型迈入上下文时代,无问芯穹Infini-AI异构云平台助力Vidu再次突破“一致性”难题

时间:2024-11-15 16:47:37浏览次数:3  
标签:模型 生成 芯穹 Infini 一致性 视觉 上下文 Vidu

昨日,在Vidu上线逾百日之际,生数科技宣布Vidu 1.5新版本(www.vidu.studio)问世,该版本实现了世界领先水平的突破:理解多样化的输入,突破“一致性”难题。无问芯穹作为生数科技重要战略产品伙伴,以Infini-AI异构云平台的澎湃算力和训练产品,助力生数科技模型迭代,持续引领视觉模型“一致性”突破。

Vidu 1.5的推出,揭示了一个重要现象:视觉模型与语言模型一样,经过充分的训练,模型能够展现出对上下文的深刻理解、记忆等能力,这是视觉模型智能涌现的显著特征,这也标志着视觉模型进入全新的“上下文”时代,加速AGI的到来。

图片

持续引领“一致性”突破

率先攻克“多主体一致性”难题

在全球上线之初,Vidu便具备了角色一致性生成能力,通过锁定人物面部特征解决了视频生成中的关键痛点,确保了人物面部特征的一致性。此项技术允许用户上传自定义角色图并指定该角色在任何场景中进行特定动作。在9月,Vidu又于全球率先发布了“主体一致性”功能,将面部一致拓展至全身一致,并且将范围由人物形象扩展到动物、物体、虚拟角色等任意主体。用户只需上传任意自定义主体的图片,便可通过描述词轻松实现在连续不同场景中的主体特征保持一致。

目前除了Vidu,其他视频生成模型都无法有效控制面部一致性。少数模型通过大量相似图片的输入进行成本高昂的单点微调,才能实现基本的面部一致性。生数科技相信,随着基础模型的投入和迭代,整体性能将得到大幅度增强,而无需再依赖复杂的单点微调。

今天,Vidu首次展现出上下文学习的能力,彻底告别了单点微调!Vidu直接提升了整体视频模型的可控性,通过灵活的多元输入实现了多角度、多主体、多元素的一致性生成。

具体来说,Vidu的技术突破在以下三个方面得到了直观地呈现:

1. 复杂主体的精准控制:

无论是细节丰富的角色,还是复杂的物体,Vidu都能保证其在多个不同视角下的一致性。举个例子,造型复杂的3D动画风格角色,无论视角如何变化,Vidu始终确保头型、服饰的全角度细节一致,避免了传统视频模型在复杂视角切换时产生的瑕疵。

2. 人物面部特征和动态表情的自然一致:

在人物特写镜头中,Vidu能够自然且流畅地保持人物面部特征和表情的连贯性,避免了面部僵硬或失真的现象。精细的面部控制使Vidu在创作细腻、真实角色时具有显著的优势。

3. 多主体一致性:

Vidu允许用户上传多个主体图像,包括人物角色、道具物体、环境背景等,并在视频生成中实现这些元素的交互。例如,用户可以上传主体、客体和环境的图片,创建定制角色身穿特定服装、在定制空间内自由动作的场景。Vidu还支持多个主体之间的互动,用户可以上传多个自定义角色,让它们在指定空间内进行交互。此外,Vidu还支持融合不同主体特征,例如将角色A的正面与角色B的反面无缝融合,创造出全新的角色或物体。

图片

视觉模型进入“上下文时代”

智能涌现加速AGI到来

在语言模型中,理解上下文不仅仅是处理单一的文本输入信息,而是通过关联前后的文本、识别语句之间的关系,生成连贯且符合情境的回答或内容。过往的视频模型如果想实现诸如一致性生成的能力,均需要针对每一个场景设计相应的模型进行微调,而无法像语言模型一样,通过上下文学习(In-Context Learning)基于少量的示例或提示快速适应新任务。

通过不断扩展上下文长度,Vidu从1.0迭代到1.5后,出现了明显的智能涌现效应,模型能够同时理解“多图的灵活输入”,即能够理解多个输入图像的准确含义和它们之间的关联性,且能根据这些信息生成一致、连贯且有逻辑的输出。通过视觉上下文完成大量新任务的直接生成,Vidu1.5不仅在数量上实现多图的输入,而且图片不局限于特定的特征,这与语言模型的“上下文学习”能力具有显著的相似性。

Vidu 1.5展现了视觉模型全新的“智能涌现”,展示了其强大的上下文学习能力。这意味着视觉模型不仅具备了理解和想象的能力,还能够在生成过程中进行记忆管理。这曾是大语言模型独有的优势,如今已在视觉模型中得以体现。至此,Vidu不再仅仅是高质量、高效的视频生成器,它还能在生成过程中融入上下文信息和记忆,这是视觉模态智能的“大跨越”。视觉模型将具备更强的认知能力,成为AGI的一块重要拼图,加速其到来。

图片

无问芯穹Infini-AI异构云平台

助力Vidu持续引领视觉模型时代

视频生成产品的用户体验对模型推理速度提出较高要求,在产品体验中,该速度体现在用户从提交需求到获得模型生成结果的时间长短,产品推理速度越快,用户越能够更早地调整出理想效果。Vidu1.5在拥有处理更复杂任务能力的同时,延续了其业界领先的生成效率,不到30s即可生成一段视频。

在Vidu大模型飞速迭代的进程中,无问芯穹Infini-AI异构云平台作为生数科技重要战略产品伙伴,为Vidu的训练提供了包括算力资源、性能优化、保障稳定训练、K8S产品化服务在内的支持。其中,无问芯穹的高性能硬件、自研训练框架和K8S产品化服务,可确保模型稳定训练,算力整体有效使用时长超97%,助力生数科技更稳定、快速、低成本迭代Vidu,助力Vidu继成为中国首个长时长、高一致性、高动态性的视频大模型之后,又再次攻克“多主体一致性”难题,引领视觉模型迈入新时代。

未来,无问芯穹Infini-AI异构云平台将继续携手生数科技,推动AI视频生成技术的创新与发展,以更强更快的视觉生成大模型赋能创意世界,加速AGI时代到来。

图片

关于无问芯穹Infini-Al异构云平台

无穹Infini-Al异构云平台提供综合性的云计算解决方案,整合了三大核心板块:PaaS(Platform as a Service)一站式AI平台AI Studio、MaaS(Model as a Service)大模型服务平台GenStudio,以及IaaS(Infrastructure as a Service)跨域异构云管平台。这些平台共同为企业提供从基础设施管理到模型开发、部署和服务化的全方位支持。

官方网址:cloud.infini-ai.com

标签:模型,生成,芯穹,Infini,一致性,视觉,上下文,Vidu
From: https://blog.csdn.net/2401_87329534/article/details/143801659

相关文章