首页 > 其他分享 >每日AIGC最新进展(20):基于树的长视频理解VideoTree、IBM研究院提出AI生成图片生成检测、蚂蚁集团提出AI生成视频检测工具、CMU提出大型视频-语言模型

每日AIGC最新进展(20):基于树的长视频理解VideoTree、IBM研究院提出AI生成图片生成检测、蚂蚁集团提出AI生成视频检测工具、CMU提出大型视频-语言模型

时间:2024-06-06 10:29:20浏览次数:40  
标签:视频 AI 行为 模型 生成 VideoTree

Diffusion Models专栏文章汇总:入门与实战

VideoTree: Adaptive Tree-based Video Representation for LLM Reasoning on Long Videos

本文介绍了一种名为VideoTree的新框架,旨在提高长视频理解任务中的推理能力。VideoTree通过自适应和分层的方法,动态提取与查询相关的视频帧,并构建基于树的视频表示,以供大型语言模型(LLMs)进行推理。这种方法针对以往长视频理解中存在的信息过载、缺乏查询适应性以及无法捕捉粗到细的视频结构等问题,提出了有效的解决方案。

VideoTree的核心在于其自适应宽度扩展、相关性引导的深度扩展和基于LLM的视频推理三个步骤。首先,通过视觉聚类和相关性评分,动态选择与查询相关的帧进行标注。然后,根据评分结果,对最相关的视频段进行更细致的信息提取,构建查询适应的分层树结构。最后,通过遍历树的关键帧,并将它们的标注传递给LLM,生成对每个问题的答复。

实验部分,VideoTree在EgoSchema、NExT-QA和IntentQA三个流行的长视频问答(LVQA)数据集上进行了评估。结果表明,VideoTree在准确性方面相比现有方法取得了显著提升,在EgoSchema上提高了7.0%,在NExT-QA上提高了2.2%,在IntentQA上提高了2.7%。同时,VideoTree在推理时间上减少了40%,证明了其在提高效率方面的优势。这些结果展示了VideoTree在长视频理解任务中的有效性和高效率。

RIGID: A Training-free and Model-Agnostic Framework for Robust AI-Generated Image Detection

本文介绍了一种名为RIGID的新方法,用于检测由人工智能生成的图像。随着生成式AI模型的快速发展,创建逼真图像的能力也不断增强,这引发了关于滥用和潜在危害(如深度伪造)的担忧。现有的研究通常依赖于使用大量生成图像数据集来训练检测器,但这些基于训练的方法计算成本高昂,并且对未见过的生成图像的泛化能力有限。

RIGID是一种无需训练且与模型无关的方法,它基于一个关键观察:真实图像比AI生成的图像在视觉基础模型的表示空间中对微小噪声扰动更为稳健。RIGID通过比较原始图像及其添加噪声后的表示相似性来识别图像是否为AI生成。这种方法简单而有效,不需要任何训练或对生成图像的先验知识。

通过在多种AI生成图像和基准测试上的评估,RIGID在性能上显著超越了现有的基于训练和无需训练的检测器。特别是,RIGID的平均性能超过了当前最佳的无需训练方法25%以上。重要的是,RIGID在不同的图像生成方法上展现出强大的泛化能力,并对图像损坏具有鲁棒性。这些结果证明了RIGID在AI生成图像检测方面的优越性能和泛化能力,超越了现有的基于训练和无需训练的方法。

DeMamba: AI-Generated Video Detection on Million-Scale GenVideo Benchmark

本文介绍了一种名为DeMamba的AI生成视频检测工具,旨在应对社交媒体平台上视频内容激增带来的假信息传播问题。DeMamba的开发基于一个名为GenVideo的大规模AI视频数据集,该数据集包含超过一百万个AI生成和真实视频,覆盖了广泛的视频类别和生成技术。文章提出了两个针对现实世界场景的评估方法:跨生成器视频分类任务和降级视频分类任务,用以评估检测器的泛化能力和对质量下降视频的鲁棒性。

DeMamba是一个插件式模块,通过分析视频在时空维度上的不一致性来识别AI生成的视频。它利用结构化状态空间模型捕捉不同区域之间的时空不一致性,从而辨别视频的真实性。DeMamba的设计允许它作为现有特征提取器的插件,显著提升了模型的泛化能力和鲁棒性。此外,文章还提出了两个与现实世界检测挑战相对应的任务,以确保检测器不仅能识别高质量视频,还能处理在传播过程中质量下降的视频。

通过在GenVideo数据集上进行广泛的实验,结果表明DeMamba在检测AI生成视频方面的性能优于现有检测器。实验包括跨生成器的泛化任务和对不同降级类型(如低分辨率、压缩伪影或高斯模糊)视频的分类任务。DeMamba在多个任务中表现出色,证明了其在识别AI生成视频方面的有效性。作者相信GenVideo数据集和DeMamba模块将显著推动AI生成视频检测领域的发展,并计划公开代码和数据集以供研究社区使用。

Can't make an Omelette without Breaking some Eggs: Plausible Action Anticipation using Large Video-Language Models

本文介绍了PlausiVL,这是一个大型视频-语言模型,旨在预测现实世界中合理的行为序列。与以往研究不同,PlausiVL不仅关注行为预测,还特别强调行为序列的合理性。为了提升模型对行为合理性的理解,研究者设计了两种目标函数:基于反事实的合理行为序列学习损失和长期行为重复损失,通过这些方法使模型能够区分合理与不合理的行为序列,并学习对行为预测至关重要的隐含时间线索。

PlausiVL模型利用时间逻辑约束和动词-名词行为对逻辑约束来创造不合理/反事实的行为序列,并使用这些序列来训练模型。合理行为序列学习损失帮助模型区分合理与不合理的行为序列,而长期行为重复损失则通过对更可能重复的行为施加更高的惩罚来促进模型生成多样化的行为序列。此外,PlausiVL采用了基于Q-former的transformer架构来嵌入视频到时空视觉表示中,确保视觉特征与LLM嵌入空间中所需文本的有效对齐。

研究者在两个大规模数据集Ego4D和EPIC-Kitchens-100上评估了PlausiVL模型,并展示了其在行为预测任务上的性能提升。实验结果表明,PlausiVL能够生成在时间上准确且多样化的合理行为序列。此外,通过消融研究,研究者证明了合理行为序列学习损失和长期行为重复损失对于提高模型性能的重要性。这些发现证实了PlausiVL在理解和预测现实世界合理行为序列方面的有效性。

标签:视频,AI,行为,模型,生成,VideoTree
From: https://blog.csdn.net/qq_41895747/article/details/129621707

相关文章

  • 高效AI出图工具Fooocus
    市面上有几大王牌,sd,comfyui,mj以及Fooocus安装https://github.com/lllyasviel/Fooocus下载后会有3个启动bat,根据自己选择,默认启动会联网下载模型模型下载模型路径为Fooocus\models\checkpoints,也可以用之前其他软件下载好的模型如果使用inpaint,会下载到Fooocus\models\inpai......
  • Android财付通App(完整文件,实验报告,演示视频)
    移动数据库应用开发大作业题目:基于Android平台的理财通软件开发学院:信息工程学院专业:网络工程班号:学生姓名:指导教师:基于android平台的理财通软件开发学生姓名:饶明昌班级:170461指导老师:邬志红摘要:当今我们生活在一个数字信息化的时代,随着GPRS、GSM、CDMA、......
  • 关于AI数字人的几个创作平台及其使用(二)
    文章目录二、创作平台二1、基本信息2、使用方法1、进入创作页面2、开始创作2.1、脚本创作2.1.1、使用文本软件创作2.1.2、AI创作脚本2.2、选择模板2.2.1、选择模板2.2.2、字幕与配音2.3、细节调整2.3.1、数字人2.3.2、音乐2.3.3、背景......
  • 如何解决 Docker Compose文件无法拉取:解决运维技术领域的Bug :Failed to pull Docker C
    如何解决DockerCompose文件无法拉取:解决运维技术领域的Bug:FailedtopullDockerComposeYAMLfilefromGitHubrepository原创作者:猫头虎作者微信号:Libin9iOak作者公众号:猫头虎技术团队更新日期:2024年6月6日博主猫头虎的技术世界......
  • 解锁用Mermaid绘制图表的神奇力量
    在这个快节奏、信息爆炸的时代,我们迫切需要一种简单、高效且美观的方式来表达复杂的思想和流程。幸运的是,Mermaid就是这样一种工具。无论你是开发者、项目经理还是设计师,Mermaid都能帮助你轻松绘制各种类型的图表,让你的文档和报告更加生动有趣。现在,让我们一起探索如何使......
  • 最新OpenAI免费API-openai api key获取方式
    最近又开始准备LLM应用开发,要用到apikey,才发现过我之前免费发放的额度没了!我都没咋用过,痛心......
  • AI工具-万知AI
    目录一、引言二、主要功能三、应用场景四、使用方法五、注意事项六、实操演示一、引言万知AI是由李开复创办的AI公司零一万物推出的一站式AI工作平台,旨在通过智能化工具提升用户在教育、企业、投资分析等领域的工作效率和创作质量。本使用说明书将详细介绍万知AI的......
  • 成员推理攻击(Membership Inference Attacks Against Machine Learning Models)通俗易懂
    成员推理攻击是一种面向AI模型的数据隐私窃取,攻击者以判断==数据是否来源于AI模型的训练集==为目标,本质上是对未知来源的数据进行==二分类==,给出成员数据或者非成员数据的判定。攻击者训练一个二分类器,该分类器将==目标分类器==预测的数据样本的置信度分数向量作为输入,预测该......
  • python 生成uber egg 的几个工具
    有些时候我们为了方便python模块的分发,会有类似javauberjar的需求,社区已经有一些不错的可选工具,以下说明下uberegg这个工具scrapy-client中的deploy就使用了此工具,对于依赖的构建我们制定配置就可以了pythonsetup.pybdist_uberegg-rrequirements.txtpyassembly也是一......
  • UDP实现音频视频流传输
    UDP实现音频视频流传输服务器#include<stdio.h>#include<stdlib.h>#include<string.h>#include<unistd.h>#include<arpa/inet.h>#include<fcntl.h>#include<sys/stat.h>#definePORT8080......