ChatGPT狂飙160天,世界已经不是之前的样子。
新建了免费的人工智能中文站https://ai.weoknow.com
新建了收费的人工智能中文站https://ai.hzytsoft.cn/
更多资源欢迎关注
斯坦福 Llama3-V vs 清华 MiniCPM-Llama3-V-2.5
在 GPT-4o 出世后,Llama3 的风头被狠狠盖过。GPT-4o 在图像识别、语音理解上卓越的性能展现了它强大多模态能力。开源领域的领头羊 Llama3 曾在几乎所有基准测试中都超越了 GPT-3.5,甚至在某些方面超越了 GPT-4。这次就要闷声「吃瘪」了吗?
5 月 29 日,一个来自斯坦福的研究团队发布了一个能够「改变现状」的产品:Llama3-V,号称只要 500 美元(约为人民币 3650 元),就能基于 Llama3 训练出一个超强的多模态模型,效果与 GPT4-V、Gemini Ultra 、 Claude Opus 多模态性能相当,但模型小 100 倍。
-
Github 项目链接:https://github.com/mustafaaljadery/llama3v(已删库)
-
HuggingFace 项目链接:https://huggingface.co/mustafaaljadery/llama3v(已删库)
用这么少的成本,创造出了如此惊艳的成果,Llama3-V 在推特上迅速爆火,浏览量突破 30 万,转发超过 300 次,还冲上了「 HuggingFace Trending 」Top 5。
但是没发布两天,Llama3-V 就遭遇了重重质疑。有人指出,Llama3-V 项目中有一大部分似乎窃取了清华大学自然语言处理实验室与面壁智能合作开发的多模态模型 MiniCPM-Llama3-V 2.5。
MiniCPM-V 是面向图文理解的端侧多模态大模型系列。MiniCPM-Llama3-V 2.5 是该系列的最新版本。其多模态综合性能超越 GPT-4V-1106、Gemini Pro、Claude 3、Qwen-VL-Max 等商用闭源模型。OCR 能力及指令跟随能力进一步提升,并支持超过 30 种语言的多模态交互。这样的优秀性能,不仅让 MiniCPM-Llama3-V 2.5 成为受大家推崇的模型,或许也成为了 Llama3-V 的「模仿」对象。
项目地址:https://github.com/OpenBMB/MiniCPM-V/blob/main/README_zh.md
可疑的作者答复
HuggingFace 用户 JosephusCheung 在项目的评论区中提出问题,Llama3-V 是否在未提及的情况下使用 openbmb/MiniCPM-Llama3-V-2.5 进行了训练。而作者回复表明,Llama3-V 使用了 MiniCPM-Llama3-V-2.5 的预训练 tokenizer,并且是在它发布前就开始了这项工作。这样的解释明显出现了时间错位,加重了大家的怀疑。
细扒其中猫腻
此外,还有一位名为 Magic Yang 的网友也产生了质疑,他对于这两个模型的相似性也有着更深的洞察。
他首先在 Llama3-V 的 GitHub 项目 Issue 中发布了他的疑问,没想到 Llama3-V 的作者们很快就删除了质疑帖。
在这个 Issue 中,他首先提出,Llama3-V 与 MiniCPM- Llama3-V 2.5 具有相同的模型结构和配置文件,只是变量名不同。Llama3-V 的代码几乎完全照抄 MiniCPM-Llama3-V 2.5,只是进行了一些格式上的修改,包括但不限于分割图像、tokenizer、重采样器和数据加载部分。
Llama3-V 的作者立马回复,称 Llama3-V 在架构上参考的是 LLaVA-UHD,并列出了在 ViT 和 LLM 选择上与 Mini CPM-Llama3-V 2.5 的差异。
但 Magic Yang 发现,相比 LLaVA-UHD 所用的方法,Llama3-V 与 MiniCPM-Llama3-V 2.5 可谓是一模一样。特别是 Llama3-V 使用了与 MiniCPM-Llama3-V 2.5 相同的,连 MiniCPM-Llama3-V 2.5 新定义的特殊符号都「抄」上了。
于是,他向作者提问,为什么 Llama3-V 在 MiniCPM-Llama3-V2.5 项目发布之前,就未卜先知似的拿到了其 tokenizer?这似乎算是追问了作者对 JosephusCheung 的回答。
Llama3-V 作者回答称,他参考了 MiniCPM-V-2 的 tokenizer(https://huggingface.co/openbmb/MinicPM-V-2/blob/main/tokenizer.jsonBefore),MiniCPM-Llama3-V2.5 采用了新的 tokenizer 和原来版本中的特殊符号,因此 Llama3-V 的代码中保留了这个符号,但 Llama3-V 与 MiniCPM-Llama3-V2.5 是完全不同。
但事实是,MiniCPM-V-2 的 tokenizer 与 MinicPM-Llama3-V2.5 完全不同,在 Hugging Face 里是两个文件,文件大小也完全不同,也不包含 Llama3-V 所用到的与 Llama 3 有关的 tokenizer。
Magic Yang 还发现了 Llama3-V 的作者在 Hugging Face 上传项目时,直接导入了 MiniCPM-Llama3-V 2.5 的代码,后来才把一些文件里的名称替换为 Llama3-V。
于是,Llama3-V 的作者的作者再次回复,称 Magic Yang 的指控大错特错。首先,想要运行 HuggingFace Transformer,需要给模型写配置文件,但是他们恰好发现 MiniCPM 的配置能用,因此,他们使用了与 MiniCPM 相同的配置。其二,Llama3-V 的模型架构 SigLIP 的灵感来源于 Idéfics ,作者之前也提到,Llama3-V 模型架构参考的 LLaVA-UHD 同样如此,并且在视觉代码方面,他们借鉴了 Idéfics ,并非照搬 MiniCPM。
更令人惊讶的是, Magic Yang 发现 Llama3-V 项目的作者似乎并不理解他们自己的代码,或许也不明白搬来的 MiniCPM-Llama3-V 2.5 架构中的细节。
感知器重采样器(Perceiver Resampler)使用的是单层交叉注意力,而非双层自注意力。然而,下图中的 Llama3-V 技术博客中的描述明显存在误解。
标签:模态,tokenizer,Llama3,删库,作者,MiniCPM,爆火,2.5 From: https://blog.csdn.net/Vicky_Victory/article/details/139427085