LVLM

2024-11-29Movie相关
IDA-VLM:TowardsMovieUnderstandingviaID-AwareLargeVision-LanguageModel故事：现在的LVLM只能处理单场景，跨场景中关联实体的能力不行。比如电影中同一个角色在不同场景中出现，现有的LVLM不能把相同角色合并。所以本文提出了一个benchmark衡量跨场景角色对齐能力，并且提了一