CelebV-Text——从文本生成人脸视频的数据集
概述
近年来,生成模型在根据文本生成和编辑视频方面受到了广泛关注。然而,由于缺乏合适的数据集,生成人脸视频领域仍然是一个挑战。特别是,生成的视频帧质量较低,与输入文本的相关性较弱。在本文中,我们通过开发 CelebV-Text来解决这些问题,CelebV-Text 是一个根据文本生成人脸视频的大型数据集。这是一个包含文本和视频对的大型高质量数据集。
CelebV-Text 是一个包含 7 万个不同面部视频片段的数据集,每个片段有 20 个文本描述。这些文本描述是通过半自动文本生成技术生成的,包含静态和动态属性的详细信息。与其他数据集相比,该数据集对视频、文本以及文本和视频之间的关系进行了全面的统计分析。大量实验也证明了该数据集的实用性。
设计了包括数据收集、数据注释和半自动文本生成在内的综合数据构建管道,并提出了文本视频生成的新基准。此外,还在一个具有代表性的模型上对其进行了评估,结果显示生成的面部视频与文本之间的关联性得到了改善,时间一致性也有了显著提高。