5月15日,在2024年I/O开发者大会上谷歌宣布全面进入Gemini时代。大会中,谷歌CEO桑达尔·皮查伊(Sundar Pidal)发布数十款Google和 AI 结合产品,堪称“全家桶”级别,全力对战OpenAI。
立即免费体验:https://gpumall.com/login?type=register&source=cnblogs
全新Gemini 1.5 Pro支持200万token长文本的Gemini 1.5 Pro。Gemini 1.5 Pro具有原生音频理解、系统指令、JSON模式等,能够使用视频计算机视觉来分析图像(帧)和音频(语音)的视频,这使其具有人类水平的视觉感知。使用深度神经网络,Gemini 1.5 可以以超人的精度识别图像(和视频帧)中的物体、场景和人物。同时,Gemini 1.5 Pro支持200万token长文本,增强了代码、逻辑和图像理解方面的性能。
为了快速响应与成本效益的需求,谷歌还推出更快、更经济的轻量化推理模型Gemini 1.5 Flash,成本低至0.35美元每百万tokens。
同时谷歌发布首个AI Agent产品Project Astra,对标OpenAI早前发布的GPT-4o。作为全新的AI助手,具备强大多模态理解和实时对话能力,通过手机捕获的视频和语音识别来实现高效信息处理。#autodl#恒源云#矩池云#算力云#恒源云 实例迁移#autodl 官网#autodi#GpuMall#GPU云#AutoDL#AotuDL 算力云#GpuMall智算云#AI#大数据#算力租赁#大模型#深度学习#人工智能#算力变现
视频演示中,当被问到:“你记得我把眼镜放哪儿了吗?”Project Astra使用摄像头帮助追踪他们之前放置眼镜的位置,“你的眼镜放在桌上的红苹果旁边。”Astra准确的说出了眼镜的位置。
此外,谷歌进一步升级开源模型Gemma 2。全新的Gemma 2是一系列轻量级、最先进的开放式模型,具有突破性的性能和效率,旨在用于负责任的AI 创新的下一代开放模型。Gemma 2采用全新架构,提供 27B(270亿)参数大小的尺寸,其性能可与 Llama 3 70B 相媲美,但尺寸却只有 Llama 3 70B 的一半。
其次,Gemma 2 的高效设计使其所需的计算量少于同类模型的一半。27B 模型经过优化,可以在英伟达的 GPU 上运行,也可以在 Vertex AI 中的单个 TPU 主机上高效运行,从而使更广泛的用户更易于部署且降低部署成本。同时,Gemma 2 将为开发人员提供跨越不同平台和工具生态系统的强大调优功能。
谷歌表示,Gemma 2将在未来几周内正式公开上线和发布。同时,Google的第一个视觉语言开放模型PaliGemma 也同步发布,PaliGemma 是一个功能强大的开放式 VLM,其灵感来自PaLI-3。 PaliGemma 基于 SigLIP 视觉模型和 Gemma 语言模型等开放组件构建,旨在在各种视觉语言任务上实现一流的微调性能。这包括图像和短视频字幕、视觉问答、理解图像中的文本、对象检测和对象分割。
开发者大会上,Google还发布了一款全新的视觉模型——Veo,可通过文本、图像和视频提示生成 1080P 的高质量视频,其可以看作是与Sora对标的一次以往视觉模型的内部资源整合。Veo具备高级的自然语言和视觉语义理解额能力,可以准确呈现细节并捕捉情感基调。
在Google Search方面,新版AI搜索结果页面更加智能化和个性化,将支持多轮推理、规划能力等,用户还可以通过视频提问,从而允许 Google 搜索分析视觉内容并提供有用的反馈。
据悉,在今天召开的 I / O 2024 开发者大会上Google宣布Android 15已融入谷歌Gemini大模型升级后的能力,此次更新将基于本地运行的Gemini Nano模型,支持诸如AI语音助理防诈骗、画圈图片搜索、理解图片给出更符合用户需求的答案等功能,Android 15 Beta 2将在次日正式推出。
除以上提及的新产品新升级,Google I/O2024大会还公布一些新模型和新工具,包括Imagen 3 最高质量的文生图模型,支持AI音乐创作的Imagen 3,以及基于Gemini针对学习进行微调的新系列模型LearnLM等。除了AI搜索外,拓展了包括Google Workspace、Gemini Live、Gems、Gemini Advanced、画圈即搜等新功能。
作为OpenAI 最强力的竞争对手,此次I/O开发者大会新产品的更新与发布寓意着Google通用AI反击的号角已经吹响了。