首页 > 其他分享 >斯坦福爆火Llama3-V竟抄袭国内开源项目,作者火速删库

斯坦福爆火Llama3-V竟抄袭国内开源项目,作者火速删库

时间:2024-06-04 21:33:16浏览次数:20  
标签:模态 tokenizer Llama3 删库 作者 MiniCPM 爆火 2.5

    ChatGPT狂飙160天,世界已经不是之前的样子。
新建了免费的人工智能中文站https://ai.weoknow.com
新建了收费的人工智能中文站https://ai.hzytsoft.cn/

更多资源欢迎关注


斯坦福 Llama3-V vs 清华 MiniCPM-Llama3-V-2.5

在 GPT-4o 出世后,Llama3 的风头被狠狠盖过。GPT-4o 在图像识别、语音理解上卓越的性能展现了它强大多模态能力。开源领域的领头羊 Llama3 曾在几乎所有基准测试中都超越了 GPT-3.5,甚至在某些方面超越了 GPT-4。这次就要闷声「吃瘪」了吗?

5 月 29 日,一个来自斯坦福的研究团队发布了一个能够「改变现状」的产品:Llama3-V,号称只要 500 美元(约为人民币 3650 元),就能基于 Llama3 训练出一个超强的多模态模型,效果与 GPT4-V、Gemini Ultra 、 Claude Opus 多模态性能相当,但模型小 100 倍。

图片

  • Github 项目链接:https://github.com/mustafaaljadery/llama3v(已删库)

  • HuggingFace 项目链接:https://huggingface.co/mustafaaljadery/llama3v(已删库)

用这么少的成本,创造出了如此惊艳的成果,Llama3-V 在推特上迅速爆火,浏览量突破 30 万,转发超过 300 次,还冲上了「 HuggingFace Trending 」Top 5。

图片

但是没发布两天,Llama3-V 就遭遇了重重质疑。有人指出,Llama3-V 项目中有一大部分似乎窃取了清华大学自然语言处理实验室与面壁智能合作开发的多模态模型 MiniCPM-Llama3-V 2.5。

MiniCPM-V 是面向图文理解的端侧多模态大模型系列。MiniCPM-Llama3-V 2.5 是该系列的最新版本。其多模态综合性能超越 GPT-4V-1106、Gemini Pro、Claude 3、Qwen-VL-Max 等商用闭源模型。OCR 能力及指令跟随能力进一步提升,并支持超过 30 种语言的多模态交互。这样的优秀性能,不仅让 MiniCPM-Llama3-V 2.5 成为受大家推崇的模型,或许也成为了 Llama3-V 的「模仿」对象。

图片

项目地址:https://github.com/OpenBMB/MiniCPM-V/blob/main/README_zh.md

可疑的作者答复

HuggingFace 用户 JosephusCheung 在项目的评论区中提出问题,Llama3-V 是否在未提及的情况下使用 openbmb/MiniCPM-Llama3-V-2.5 进行了训练。而作者回复表明,Llama3-V 使用了 MiniCPM-Llama3-V-2.5 的预训练 tokenizer,并且是在它发布前就开始了这项工作。这样的解释明显出现了时间错位,加重了大家的怀疑。

图片

图片

细扒其中猫腻

此外,还有一位名为 Magic Yang 的网友也产生了质疑,他对于这两个模型的相似性也有着更深的洞察。

他首先在 Llama3-V 的 GitHub 项目 Issue 中发布了他的疑问,没想到 Llama3-V 的作者们很快就删除了质疑帖。

图片

在这个 Issue 中,他首先提出,Llama3-V 与 MiniCPM- Llama3-V 2.5 具有相同的模型结构和配置文件,只是变量名不同。Llama3-V 的代码几乎完全照抄 MiniCPM-Llama3-V 2.5,只是进行了一些格式上的修改,包括但不限于分割图像、tokenizer、重采样器和数据加载部分。

图片

图片

Llama3-V 的作者立马回复,称 Llama3-V 在架构上参考的是 LLaVA-UHD,并列出了在 ViT 和 LLM 选择上与 Mini CPM-Llama3-V 2.5 的差异。

但 Magic Yang 发现,相比 LLaVA-UHD 所用的方法,Llama3-V 与 MiniCPM-Llama3-V 2.5 可谓是一模一样。特别是 Llama3-V 使用了与 MiniCPM-Llama3-V 2.5 相同的,连 MiniCPM-Llama3-V 2.5 新定义的特殊符号都「抄」上了。

图片

于是,他向作者提问,为什么 Llama3-V 在 MiniCPM-Llama3-V2.5 项目发布之前,就未卜先知似的拿到了其 tokenizer?这似乎算是追问了作者对 JosephusCheung 的回答。

Llama3-V 作者回答称,他参考了 MiniCPM-V-2 的 tokenizer(https://huggingface.co/openbmb/MinicPM-V-2/blob/main/tokenizer.jsonBefore),MiniCPM-Llama3-V2.5 采用了新的 tokenizer 和原来版本中的特殊符号,因此 Llama3-V 的代码中保留了这个符号,但 Llama3-V 与 MiniCPM-Llama3-V2.5 是完全不同。

图片

但事实是,MiniCPM-V-2 的 tokenizer 与 MinicPM-Llama3-V2.5 完全不同,在 Hugging Face 里是两个文件,文件大小也完全不同,也不包含 Llama3-V 所用到的与 Llama 3 有关的 tokenizer。

图片

图片

Magic Yang 还发现了 Llama3-V 的作者在 Hugging Face 上传项目时,直接导入了 MiniCPM-Llama3-V 2.5 的代码,后来才把一些文件里的名称替换为 Llama3-V。

图片

于是,Llama3-V 的作者的作者再次回复,称 Magic Yang 的指控大错特错。首先,想要运行 HuggingFace Transformer,需要给模型写配置文件,但是他们恰好发现 MiniCPM 的配置能用,因此,他们使用了与 MiniCPM 相同的配置。其二,Llama3-V 的模型架构 SigLIP 的灵感来源于 Idéfics ,作者之前也提到,Llama3-V 模型架构参考的 LLaVA-UHD 同样如此,并且在视觉代码方面,他们借鉴了 Idéfics ,并非照搬 MiniCPM。

图片

更令人惊讶的是, Magic Yang 发现 Llama3-V 项目的作者似乎并不理解他们自己的代码,或许也不明白搬来的 MiniCPM-Llama3-V 2.5 架构中的细节。

感知器重采样器(Perceiver Resampler)使用的是单层交叉注意力,而非双层自注意力。然而,下图中的 Llama3-V 技术博客中的描述明显存在误解。

图片

标签:模态,tokenizer,Llama3,删库,作者,MiniCPM,爆火,2.5
From: https://blog.csdn.net/Vicky_Victory/article/details/139427085

相关文章

  • 百元内真无线蓝牙耳机怎么选?四大2024爆火机型推荐
    在追求高品质音乐体验的同时,许多消费者也在寻找性价比极高的真无线蓝牙耳机。对于预算在百元内的消费者来说,如何在有限的预算内选择一款性能出众、品质可靠的真无线蓝牙耳机,无疑是一项不小的挑战,为了帮助你做出明智的选择,我们精心挑选了四款在2024年备受瞩目的爆火机型,它们不仅......
  • Google使用AI改进了 Sheets;开源视觉语言模型llama3v;开源情绪语音模型ChatTTS;
    ✨1:GooglehasimprovedSheetswithAI.Google使用AI改进了Sheets您可以使用Gemini处理您的数据并将其变成老师。优化您的数据Gemini了解您的数据并提出改进建议。例如,它可以将重复数据转换为更实用的下拉框。解释数据通过单击双子座图标,您可以自动获......
  • llamafactory框架下微调llama3-70b推理问题
    问题描述使用llamafactory+npulora微调llama3-70b后,最终推理出现乱码以及不能自动停止生成。如下所示:derrickroseofthechicagobullshasthemostcareerassistsamongplayerswhohaveneverbeennamedtoanall-stargamewith3,339assists.IICIII.џџџ.3......
  • 爆火AI美女跳舞制作全流程-SD插件Ebsynth_Utility(附带所有工具包)
    1.基础介绍AIGC|ChatGPT行业介绍1.1SD简介StableDiffusionXL能够生成几乎任何艺术风格的高质量图像,是用来生成写实图像的最佳开放模型。StableDiffusion是一个可以和MJ相媲美的AI出图工具,简称SD它是一个开源的、免费的项目,没有公司在经营,如果你想用,是需要安装到自......
  • Llama3的本地部署
    链接地址:github: https://github.com/meta-llama/llama3huggingface: https://huggingface.co/meta-llamametaAI: https://llama.meta.com/ Llama3是Meta于2024年4月18日开源的LLM,目前开放了8B和70B两个版本,两个版本均支持最大为8192个token的序列长度(GPT-4支持128K ......
  • LLM实战:LLM微调加速神器-Unsloth + LLama3
    1.背景五一结束后,本qiang~又投入了LLM的技术海洋中,本期将给大家带来LLM微调神器:Unsloth。正如Unsloth官方的对外宣贯:Easilyfinetune&trainLLMs;Getfasterwithunsloth。微调训练LLM,可以显著提升速度,其次显存占用也会显著减少。但有一点需要说明:unsloth目前开源部分只支......
  • 什么? 20分钟,构建你自己的LLaMA3应用程序! | 京东云技术团队
    4月19日,Meta发布了最新的大语言模型LLaMA3,具体包括一个8B模型和一个70B模型,上下文长度支持8K,被誉为史上最强开源大语言模型,开源社区的“重磅炸弹”,效果直指GTP4。在诸多评测任务上,LLaMA3都有非常炸裂的效果。8B模型在多项指标中超越了Gemma7B和Mistral7BInstruct,而70B模......
  • LLaMA-Factory 训练 Llama3-Chinese-8B-Instruct 相关报错问题解决
    模型路径up主为llama中文社区模型地址https://www.modelscope.cn/models/FlagAlpha/Llama3-Chinese-8B-Instruct/summarysysinfov10032gnvcc--versioncuda11.8pythonimporttorchprint(torch.version)13.11pipinstallflash_attntimeout2下载whl报这个错......
  • Meta公司的Llama3大语言模型
    Github地址:https://github.com/meta-llama/llama3官方介绍:https://ai.meta.com/blog/meta-llama-3/官方项目主页:https://llama.meta.com/llama3/使用说明:https://llama.meta.com/docs/get-started/HuggingFace上的介绍:https://huggingface.co/blog/zh/llama3......
  • 使用Colab_LLaMA_Factory_LoRA微调_Llama3(可自定义数据)
    使用LLaMAFactory微调Llama-3中文对话模型项目主页: https://github.com/hiyouga/LLaMA-Factory这个过程超级简单,半个多小时在T4上就能跑完。完全可以替换成自己的数据,支持中文数据。安装LLaMAFactory依赖 1%cd/content/2%rm-rfLLaMA-Factory3!gitclo......