我们很高兴在此发布 Idefics2,这是一个通用的多模态模型,接受任意文本序列和图像序列作为输入,并据此生成文本。它可用于回答图像相关的问题、描述视觉内容、基于多幅图像创作故事、从文档中提取信息以及执行基本的算术运算。
Idefics2 由 Idefics1 改进而得,其参数量为 8B,具有开放许可 (Apache 2.0) 并大大增强了 OCR (光学字符识别) 功能,因此有望成为多模态社区坚实的基础模型。其在视觉问答基准测试中的表现在同规模模型中名列前茅,并可与更大的模型 (如 LLava-Next-34B 以及 MM1-30B-chat) 一较高下。
Idefics2 甫一开始就集成在
标签:8B,简介,模型,图像,image,text,数据,Idefics2 From: https://www.cnblogs.com/huggingface/p/18195041