每日AIGC最新进展(20)：基于树的长视频理解VideoTree、IBM研究院提出AI生成图片生成检测、蚂蚁集团提出AI生成视频检测工具、CMU提出大型视频-语言模型

Diffusion Models专栏文章汇总：入门与实战

VideoTree: Adaptive Tree-based Video Representation for LLM Reasoning on Long Videos

本文介绍了一种名为VideoTree的新框架，旨在提高长视频理解任务中的推理能力。VideoTree通过自适应和分层的方法，动态提取与查询相关的视频帧，并构建基于树的视频表示，以供大型语言模型(LLMs)进行推理。这种方法针对以往长视频理解中存在的信息过载、缺乏查询适应性以及无法捕捉粗到细的视频结构等问题，提出了有效的解决方案。

VideoTree的核心在于其自适应宽度扩展、相关性引导的深度扩展和基于LLM的视频推理三个步骤。首先，通过视觉聚类和相关性评分，动态选择与查询相关的帧进行标注。然后，根据评分结果，对最相关的视频段进行更细致的信息提取，构建查询适应的分层树结构。最后，通过遍历树的关键帧，并将它们的标注传递给LLM，生成对每个问题的答复。

实验部分，VideoTree在EgoSchema、NExT-QA和IntentQA三个流行的长视频问答(LVQA)数据集上进行了评估。结果表明，VideoTree在准确性方面相比现有方法取得了显著提升，在EgoSchema上提高了7.0%，在NExT-QA上提高了2.2%，在IntentQA上提高了2.7%。同时，VideoTree在推理时间上减少了40%，证明了其在提高效率方面的优势。这些结果展示了VideoTree在长视频理解任务中的有效性和高效率。

RIGID: A Training-free and Model-Agnostic Framework for Robust AI-Generated Image Detection

本文介绍了一种名为RIGID的新方法，用于检测由人工智能生成的图像。随着生成式AI模型的快速发展，创建逼真图像的能力也不断增强，这引发了关于滥用和潜在危害（如深度伪造）的担忧。现有的研究通常依赖于使用大量生成图像数据集来训练检测器，但这些基于训练的方法计算成本高昂，并且对未见过的生成图像的泛化能力有限。

RIGID是一种无需训练且与模型无关的方法，它基于一个关键观察：真实图像比AI生成的图像在视觉基础模型的表示空间中对微小噪声扰动更为稳健。RIGID通过比较原始图像及其添加噪声后的表示相似性来识别图像是否为AI生成。这种方法简单而有效，不需要任何训练或对生成图像的先验知识。

通过在多种AI生成图像和基准测试上的评估，RIGID在性能上显著超越了现有的基于训练和无需训练的检测器。特别是，RIGID的平均性能超过了当前最佳的无需训练方法25%以上。重要的是，RIGID在不同的图像生成方法上展现出强大的泛化能力，并对图像损坏具有鲁棒性。这些结果证明了RIGID在AI生成图像检测方面的优越性能和泛化能力，超越了现有的基于训练和无需训练的方法。

DeMamba: AI-Generated Video Detection on Million-Scale GenVideo Benchmark

本文介绍了一种名为DeMamba的AI生成视频检测工具，旨在应对社交媒体平台上视频内容激增带来的假信息传播问题。DeMamba的开发基于一个名为GenVideo的大规模AI视频数据集，该数据集包含超过一百万个AI生成和真实视频，覆盖了广泛的视频类别和生成技术。文章提出了两个针对现实世界场景的评估方法：跨生成器视频分类任务和降级视频分类任务，用以评估检测器的泛化能力和对质量下降视频的鲁棒性。

DeMamba是一个插件式模块，通过分析视频在时空维度上的不一致性来识别AI生成的视频。它利用结构化状态空间模型捕捉不同区域之间的时空不一致性，从而辨别视频的真实性。DeMamba的设计允许它作为现有特征提取器的插件，显著提升了模型的泛化能力和鲁棒性。此外，文章还提出了两个与现实世界检测挑战相对应的任务，以确保检测器不仅能识别高质量视频，还能处理在传播过程中质量下降的视频。

通过在GenVideo数据集上进行广泛的实验，结果表明DeMamba在检测AI生成视频方面的性能优于现有检测器。实验包括跨生成器的泛化任务和对不同降级类型（如低分辨率、压缩伪影或高斯模糊）视频的分类任务。DeMamba在多个任务中表现出色，证明了其在识别AI生成视频方面的有效性。作者相信GenVideo数据集和DeMamba模块将显著推动AI生成视频检测领域的发展，并计划公开代码和数据集以供研究社区使用。

Can't make an Omelette without Breaking some Eggs: Plausible Action Anticipation using Large Video-Language Models

本文介绍了PlausiVL，这是一个大型视频-语言模型，旨在预测现实世界中合理的行为序列。与以往研究不同，PlausiVL不仅关注行为预测，还特别强调行为序列的合理性。为了提升模型对行为合理性的理解，研究者设计了两种目标函数：基于反事实的合理行为序列学习损失和长期行为重复损失，通过这些方法使模型能够区分合理与不合理的行为序列，并学习对行为预测至关重要的隐含时间线索。

PlausiVL模型利用时间逻辑约束和动词-名词行为对逻辑约束来创造不合理/反事实的行为序列，并使用这些序列来训练模型。合理行为序列学习损失帮助模型区分合理与不合理的行为序列，而长期行为重复损失则通过对更可能重复的行为施加更高的惩罚来促进模型生成多样化的行为序列。此外，PlausiVL采用了基于Q-former的transformer架构来嵌入视频到时空视觉表示中，确保视觉特征与LLM嵌入空间中所需文本的有效对齐。

研究者在两个大规模数据集Ego4D和EPIC-Kitchens-100上评估了PlausiVL模型，并展示了其在行为预测任务上的性能提升。实验结果表明，PlausiVL能够生成在时间上准确且多样化的合理行为序列。此外，通过消融研究，研究者证明了合理行为序列学习损失和长期行为重复损失对于提高模型性能的重要性。这些发现证实了PlausiVL在理解和预测现实世界合理行为序列方面的有效性。

标签：视频,AI,行为,模型,生成,VideoTree
From： https://blog.csdn.net/qq_41895747/article/details/129621707

每日AIGC最新进展(20)：基于树的长视频理解VideoTree、IBM研究院提出AI生成图片生成检测、蚂蚁集团提出AI生成视频检测工具、CMU提出大型视频-语言模型

VideoTree: Adaptive Tree-based Video Representation for LLM Reasoning on Long Videos

RIGID: A Training-free and Model-Agnostic Framework for Robust AI-Generated Image Detection

DeMamba: AI-Generated Video Detection on Million-Scale GenVideo Benchmark

Can't make an Omelette without Breaking some Eggs: Plausible Action Anticipation using Large Video-Language Models

相关文章

赞助商

阅读排行