https://arxiv.org/pdf/2305.06355.pdf
一个理解视频的大语言模型, 跟视频里面内容可以随便问模型. 还是老方法直接第三章走起.
3. VideoChat:
直接看图:
VideoChat分2个部分, 一个是VideoChat-Text 一个是VideoChatEmbed
VideoChat-Text 是 把视频里面内容转化为文字.
https://arxiv.org/pdf/2305.06355.pdf
一个理解视频的大语言模型, 跟视频里面内容可以随便问模型. 还是老方法直接第三章走起.
3. VideoChat:
直接看图:
VideoChat分2个部分, 一个是VideoChat-Text 一个是VideoChatEmbed
VideoChat-Text 是 把视频里面内容转化为文字.