网站首页
编程语言
数据库
系统相关
其他分享
编程问答
InternVid
2024-10-12
InternVid:用于多模态视频理解与生成的大规模视频-文本数据集 | ICLR Spotlight
InternVid 是一个开源的大规模视频-文本数据集,旨在促进视频理解和生成任务的发展,由上海人工智能实验室与南京大学、中国科学院等单位联合发布,相关的工作已经被ICLR2024接收。它包含超过700万个视频,总时长近76万小时,并附带详细的文本描述。InternVid的发布将推动文本-视频