首页 > 其他分享 >新火种AI|谷歌Gemini被曝夸大营销?碾压GPT4纯靠“一张嘴”

新火种AI|谷歌Gemini被曝夸大营销?碾压GPT4纯靠“一张嘴”

时间:2023-12-08 23:04:28浏览次数:29  
标签:GPT4 AI 模型 谷歌 人工智能 Gemini OpenAI GPT

新火种AI|谷歌Gemini被曝夸大营销?碾压GPT4纯靠“一张嘴”_Gemini

作者:文子

Gemini对谷歌来说可能走了一大步,但对整个AI领域而言,并没有说的那么夸张。

涉嫌虚假宣传,交互非实时感知

才短短一天时间,谷歌Gemini就被曝涉嫌造假,夸大宣传。

作为谷歌用来应对GPT-4的“杀手锏”,Gemini一经亮相就有了两个硕大的标签:超过人类专家,碾压GPT-4。随便单拎一条出来,都是目前其他大模型所不能比拟的成绩。

但也有越来越多的人开始质疑它的真实性,彭博社的Parmy Olsen就是第一个质疑视频造假的人。


新火种AI|谷歌Gemini被曝夸大营销?碾压GPT4纯靠“一张嘴”_人工智能_02

就在大家震惊于谷歌发布的6分钟互动视频里,他指出,Gemini所有交互都不是实时感知的,存在后期制作和剪辑配音的成分。随后这一说法也得到了谷歌官方的证实,承认Gemini的确使用了静态图片和多段提示词拼凑,才能达成这样的效果。

简单来说就是,Gemini不能直接看懂一段动作视频,只能看懂多张图片。像演示视频里人类在玩石头剪刀布,实际上是把“布”“拳头”“剪刀”三张照片依次传给Gemini,然后加上良好的提示词,才能让Gemini给出回答,然后再由员工配音念出来。


新火种AI|谷歌Gemini被曝夸大营销?碾压GPT4纯靠“一张嘴”_Gemini_03

而且视频中展示的许多其他功能并不是谷歌独有的,GPT Plus3也可以做得到,沃顿商学院教授伊森·莫里克(Ethan Mollick)就用实验证实了这一点。

虽然从技术原理上来看,能够读取图片和能够看懂视频之间,并没有技术上的鸿沟。但是从产品实现落地的角度看,把读取图片约等于能实时看懂视频,过于强调实时性而压缩了交互过程中的延迟,这几乎已经可以理解为虚假宣传。而是否需要良好的提示词工程,更是评价模型能力的关键问题。

混淆跑分,GPT4测试标准不一致

从谷歌对Gemini的宣传信息来看,它声称Gemini在32项标准性能指标中,有30 项指标都优于GPT-4,跑出90%的高分,超过GPT-4。但实际上,差距微乎其微,而且这种比较并不公平。

Gemini Ultra的90%得分是基于谷歌研究人员开发的一种基于32个样本的思维链的方法。对于同一个问题,Gemini Ultra会生成32个答案以及这些答案的推理。然后,模型会选择最常见的答案作为最终答案。


新火种AI|谷歌Gemini被曝夸大营销?碾压GPT4纯靠“一张嘴”_新火种_04

但GPT-4的86.4%分数是基于行业评估标准5-shot。HuggingFace技术主管Philipp Schmid特意从Gemini的技术报告中提取数据重做计算,在5-shot的标准下,Gemini的得分实为83.7%,比GPT-4更低。


新火种AI|谷歌Gemini被曝夸大营销?碾压GPT4纯靠“一张嘴”_新火种_05

也就是说只有CoT(思维链)达到32个例子时,Gemini Ultra才能达到90分超过GPT-4;当例子数量减少到5个,Gemini Ultra得分就不如GPT-4。难怪连谷歌公司高管在之前都回避了关于该模型比GPT-4 强多少的问题,因为它们只是“强”在了不同的标准上。

就像谷歌在5月份发布Palm-2的时候,也挑出了两个优于GPT-4的指标,但是后来这个大模型怎么样,大家都清楚。

斯坦福大学基础模型研究中心主任 Percy Liang也谈到,虽然Gemini有很好的基准分数,但由于不知道训练数据的内容,因此很难解释这些数据。华盛顿大学计算语言学教授 Emily Bender也指出,谷歌宣传Gemini是一台万能机器,是一个可用于多种不同用途的通用模型。但是谷歌却在使用狭隘的基准,来评估它期望用于这些不同用途的模型,这意味着它实际上无法得到彻底评估。

仓促上阵,只为趁OpenAI动荡搞事?

今年3月,OpenAI发布GPT人工智能模型,并推出其支持的付费聊天AI机器人ChatGPT,这其实对谷歌来说压力很大。

毕竟谷歌已经耗费了数年心血,在人工智能领域投入巨资研究,却没想到被半路杀出来的OpenAI弯道超车。

所以在4月,谷歌迫于投资方的巨大压力,将负责人工智能研究的Google Brain,与母公司Alphabet位于伦敦的人工智能研究实验室DeepMind合并,为了在今年接下来的时间里研发Gemini模型来回应GPT-4的挑战。


新火种AI|谷歌Gemini被曝夸大营销?碾压GPT4纯靠“一张嘴”_Gemini_06

而在两周前,OpenAI刚刚重新任命了奥特曼为首席执行官,并任命了新的董事会成员,勉强给这家初创公司的一段动荡期画上了句号。这场内斗事件也促使一些客户开始评估其他AI提供商,谷歌选择在这个时间点推出Gemini的心思不言而喻。

据报道,当OpenAI董事会暂时罢免首席执行官奥特曼,使公司的未来发展受到质疑时,谷歌迅速发起了一场营销活动,说服OpenAI企业客户转向谷歌。现在,随着Gemini的发布,谷歌也正是在利用这种不确定性。


新火种AI|谷歌Gemini被曝夸大营销?碾压GPT4纯靠“一张嘴”_新火种_07

然而,目前大多数人还是不能完整地体验Gemini。最强大的对标GPT-4的满血版Gemini Ultra,还需要等待几个月才能和公众见面。据谷歌高管的说法,预计将于明年初上市。而现在推出的版本是为谷歌基于文本的搜索聊天机器人Bard的后台,为其提供更高级的推理、规划和理解能力。

在接下来的几个月里,新的Gemini增强版Bard会在170多个国家提供英语版本的首发,不包括欧盟和英国。谷歌负责Bard的副总裁Sissie Hsiao表示,这是因为公司需要与当地监管机构“接轨”。除此之外,Gemini还有一个名为Nano的版本,可以直接在设备上运行的,例如谷歌的新款Pixel手机。

谷歌VS OpenAI:瑜亮之争鹿死谁手?

12月7日,随着Gemini的高调发布,谷歌市值一晚就增加逾870亿美元,增量相当于OpenAI的最新估值。就目前来说,未上市的OpenAI估值在800亿至900亿美元之间。

要知道,今年以来谷歌的股价已经上涨了逾50%,大幅跑赢了纳斯达克综合指数,但却落后于一些科技同行,里面就包括OpenAI最大的投资方微软。

事实上,谷歌在过去的发展历史中已经吃过很多次苦头,推出有缺陷的产品。这对公司发展来说,适得其反。就像今年2月为了应对ChatGPT急急忙忙推出的Bard,因为一次小小失误就导致股价蒸发了高达1000亿美元。


新火种AI|谷歌Gemini被曝夸大营销?碾压GPT4纯靠“一张嘴”_新火种_08

哪怕是5月,谷歌宣布在大部分产品中植入生成型人工智能,比如谷歌邮箱和其他软件,试图用这个举动改变市场的看法,但效果却微乎其微。这也让谷歌深刻认识到,推出有缺陷的产品带来的反噬。

但在科技行业,只要足够强大就足以抢占市场。早期的手机霸主诺基亚和黑莓就经历过惨痛教训,苹果用功能更强大、更直观的iPhone抢走了它们的市场。在软件领域,商业上的成功往往来自于性能最好的系统。


新火种AI|谷歌Gemini被曝夸大营销?碾压GPT4纯靠“一张嘴”_人工智能_09

几乎可以肯定的是,随着Gemini的发布,谷歌或许有望逐渐扭转那些不利的局面。摩根大通分析师就表示,“谷歌开始通过结合 Gemini的不同模型版本,来解决投资者对生成式人工智能创新和GenAI模型运行成本过高的担忧。”

不过如果Gemini Ultra真如谷歌所说那样在明年1月初发布,那么在顶级人工智能模型的头部就呆不了太久时间。毕竟在谷歌努力追赶OpenAI的过程中,后者有将近一年的时间来开发新一代人工智能模型GPT-5。

但有一点不能否认,谷歌和OpenAI的这场对决,已是箭在弦上。

标签:GPT4,AI,模型,谷歌,人工智能,Gemini,OpenAI,GPT
From: https://blog.51cto.com/u_13213861/8741828

相关文章

  • 智能AI算法解决各行业中的皮带跑偏、异物问题的有效方法
    随着工业化的发展,皮带输送机已经成为各行业中不可或缺的重要设备,但是在使用过程中,由于各种原因,皮带常常出现跑偏问题,给生产运营带来了诸多困扰。不仅仅是矿山行业,钢铁、火电、港口等行业也都面临着皮带跑偏问题。那么,对于这些行业,如何解决皮带跑偏问题呢?矿山行业是皮带输送机的主要......
  • Kernel Maintainer Handbook 【ChatGPT】
    https://www.kernel.org/doc/html/v6.6/maintainer/index.htmlKernelMaintainerHandbook这份文档是为内核维护者编写的指南的谦逊开端。这里还有很多工作要做!请随时提出(并编写)对这份指南的补充。功能和驱动程序维护者责任选择维护者不遵守规定配置Git创建提交链......
  • AI驱动泛娱乐,拥抱数字世界新篇章 | 游戏出海
    12月1日,VERYCLOUD睿鸿股份联合亚马逊云科技、iTechClub,在广州共同举办了“AI驱动泛娱乐:数字世界的新篇章”聚焦行业发展的专题沙龙,吸引了三七互娱、深蓝互动、深海游戏等企业中的产品、运维、技术管理人员到场。共同针对目前大家最关注的AI如何应用于泛娱乐产业,从行业最真实的情况......
  • 自用AI宝藏APP分享-非广告
    我发现了一款AI宝藏APP(豆包,抖音公司出品),我已经使用一周了,爱不释手,它是一个很好的顾问,可以免费咨询法律、医疗、养生、健身,规划等等方面的问题,回答的非常专业,而且有用。是很优秀的生活小助手,出谋划策。已经很多年没有被某一款APP震撼到了,豆包APP,挺让我惊喜的,需要的自取吧(非广告哈......
  • 股票软件具有AI智能学习报警阈值功能
    一.报警阈值自动学习功能软件中有很多的报警阈值参数需要去设置,增长速度的报警阈值。例如大单交易量的报警阈值、分时量比的报警阈值。阈值设置为多少才是合适呢?以前都是人们根据经验去设置,很难设置准确,而且没有办法根据最新的数据实时的调整阈值大小。所以这次开发了报警阈值参......
  • 矿山自救器检测的AI算法工作原理是什么?在智慧矿山应用广吗?
    智慧矿山作为当今矿业领域的热门话题,其应用已经逐渐成为行业发展的必然趋势。在智慧矿山中,矿山自救器检测的AI算法是一个重要的组成部分,通过这一技术,可以大大提高矿工的安全水平和生产效率。那么,矿山自救器检测的AI算法工作原理是什么?在智慧矿山应用广泛吗?接下来,我们将从技术原理和......
  • 超越边界:Mistral 7B挑战AI新标准,全面超越Llama 2 13B
    引言在人工智能领域,模型的性能一直是衡量其价值和应用潜力的关键指标。近日,一个新的里程碑被设立:MistralAI发布了其最新模型Mistral7B,它在众多基准测试中全面超越了Llama213B模型,标志着AI技术的一个重大进步。Mistral7BvsLlama213BMistral7B的发布,不仅是一次技术上的突破......
  • Daiwa Securities Co. Ltd. Programming Contest 2023(AtCoder Beginner Contest 331)
    DaiwaSecuritiesCo.Ltd.ProgrammingContest2023(AtCoderBeginnerContest331)A-Tomorrow解题思路:模拟。代码:#include<bits/stdc++.h>usingnamespacestd;usingll=longlong;typedefpair<int,int>pii;#definefifirst#definesesecondcons......
  • 一文了解锐龙8040系列:AMD开启AI PC时代
    随着ChatGPT的爆火,生成式AI和大模型成为今年绕不开的一大热点,掀起了AI的新一波浪潮,极大地拓展了AI的应用领域。除了云端侧的千亿级AI大模型,随着终端侧设备AI算力的提升,端侧AIGC开始走进大家的视野,PC、手机等智能设备都开始拥抱AIGC,而这背后,少不了芯片的支持。在PC这边,英特尔和AM......
  • nerdctl run -d 报"failed to call cni.Setup: plugin type=\"bridge\" failed (ad
    背景:执行 nerdctl run-d --namenginx-p8080:80nginx时,报如下错误FATA[0000]failedtocreateshimtask:OCIruntimecreatefailed:runccreatefailed:unabletostartcontainerprocess:errorduringcontainerinit:errorrunninghook#0:errorrunningh......