首页 > 其他分享 >智谱开源 CogAgent-9B,让 AI「看懂」屏幕;Anthropic:大多数任务无需复杂 AI 智能体

智谱开源 CogAgent-9B,让 AI「看懂」屏幕;Anthropic:大多数任务无需复杂 AI 智能体

时间:2024-12-27 18:34:28浏览次数:8  
标签:AI 模型 9B 智能 CogAgent 智谱 小爱

 

 

开发者朋友们大家好:

 

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

 

本期编辑:@SSN,@鲍勃

01有话题的新闻

1、智谱开源 GLM-PC 基座模型 CogAgent-9B,让 AI 智能体「看懂」屏幕

 

 

智谱技术团队公众号昨日(12 月 26 日)发布博文,宣布开源 GLM-PC 的基座模型 CogAgent-9B-20241220,基于 GLM-4V-9B 训练,专用于智能体(Agent)任务。

 

据报道,该模型仅需屏幕截图作为输入(无需 HTML 等文本表征),便能根据用户指定的任意任务,结合历史操作,预测下一步的 GUI 操作。

 

得益于屏幕截图和 GUI 操作的普适性,CogAgent 可广泛应用于各类基于 GUI 交互的场景,如个人电脑、手机、车机设备等。

 

相较于 2023 年 12 月开源的第一版 CogAgent 模型,CogAgent-9B-20241220 在 GUI 感知、推理预测准确性、动作空间完善性、任务普适性和泛化性等方面均实现了显著提升,并支持中英文双语的屏幕截图和语言交互。

 

CogAgent 的输入仅包含三部分:用户的自然语言指令、已执行历史动作记录和 GUI 截图,无需任何文本形式表征的布局信息或附加元素标签(set of marks)信息。

 

其输出涵盖以下四个方面:

 

  • 思考过程(Status & Plan): CogAgent 显式输出理解 GUI截图和决定下一步操作的思考过程,包括状态(Status)和计划(Plan)两部分,输出内容可通过参数控制。

  • 下一步动作的自然语言描述(Action): 自然语言形式的动作描述将被加入历史操作记录,便于模型理解已执行的动作步骤。

  • 下一步动作的结构化描述(Grounded Operation): CogAgent 以类似函数调用的形式,结构化地描述下一步操作及其参数,便于端侧应用解析并执行模型输出。其动作空间包含 GUI 操作(基础动作,如左键单击、文本输入等)和拟人行为(高级动作,如应用启动、调用语言模型等)两类。

  • 下一步动作的敏感性判断: 动作分为「一般操作」和「敏感操作」两类,后者指可能带来难以挽回后果的动作,例如在「发送邮件」任务中点击「发送」按钮。

 

CogAgent-9B-20241220 在 Screenspot、OmniAct、CogAgentBench-basic-cn 和 OSWorld 等数据集上进行了测试,并与 GPT-4o-20240806、Claude-3.5-Sonnet、Qwen2-VL、ShowUI、SeeClick 等模型进行了比较。

 

结果显示,CogAgent 在多个数据集上取得了领先的结果,证明了其在 GUI Agent 领域强大的性能。(@IT 之家)

 

2、OpenAI 服务器「跳闸」

 

 

今天凌晨,据网友和媒体发现,OpenAI 的 AI 服务器发生故障,本次系统服务中断于北京时间 12 月 27 日凌晨 2 点 30 分左右开始,影响了 ChatGPT 聊天机器人、Sora 视频生成模型以及部分 API 调用。

 

据了解,北京时间今天凌晨 3 点 OpenAI 官网发布动态,称 ChatGPT、API 及其文本到视频生成器 Sora「目前错误率很高」。随后于北京时间早上 6 点 05 分,OpenAI 宣布「ChatGPT 已恢复部分服务」,但聊天历史记录仍然无法加载,修复工作仍在进行中。

 

此次服务中断原因,OpenAI 并未说明具体原因,只表示「此问题是由上游提供商引起」。据悉,作为 OpenAI 的独家云服务提供商,微软 Azure 今天也报告数据中心出现「电源」问题,因此可以初步判断,微软数据中心电力故障或是罪魁祸首。

 

目前,OpenAI 发文称 Sora 与 API 已恢复正常使用。(@APPSO)

 

3、消息称微软及阿里「老兵」胡云华加入智谱,将任「智谱清言」负责人

 

据报道,前微软亚洲研究院研究员、阿里达摩院资深技术专家、支付宝中国首席数据官胡云华现已加入大模型独角兽公司智谱,并担任 C 端应用「智谱清言」负责人。

 

胡云华 2016 年成立「智能一点」公司。该公司一年多时间内拿下四轮融资,主要聚焦于售前智能客服等电商人工智能导购解决方案。

 

智谱清言此前的负责人偏重技术背景,也让智谱清言快速集成模型功能,如视频生成、视频通话和情感语音等。目前智谱清言拥有超过 2500 万用户、预计年收入超过千万元。但随着多个大厂下场、对话工具型产品竞争加剧,智谱清言的增长已经过了新技术驱动获客的阶段。靠不断集成模型功能,对扩大用户规模和提高留存的作用正在减小。(@IT 之家)

02有亮点的产品

1、可灵 AI 深夜放大招!悄悄上线 AI 模特功能

 

可灵 AI 的生图模型「可图」在深夜进行了重大升级,不仅加强了语义理解能力,还大幅提升了真人效果,尤其对亚洲人像的适配性极佳,审美也得到了显著提升。据称,可图 1.5 版本被认为是目前制作亚洲人形象最为出色的 AI 模型之一。

 

更引人注目的是,基于可图 1.5 的新功能——AI 模特。它与可灵 1.6 的图生视频功能相结合,用户可以通过可图的「AI 试衣」界面访问 AI 模特功能和 AI 换装功能,通过简单的设置(如性别、年龄、肤色),即可快速生成高质量的 AI 模特图。即使是 AI 新手,也能轻松上手,可灵还提供了「推荐尝试」词条,几乎实现了一键生成。

 

生成的 AI 模特图不仅速度快,还具备全球化视角,肤色的选择直接影响人种,这在传统模式下,外籍模特成本高昂的背景下,显得尤为重要。可灵在年龄和人种的区分上表现出色,能够精准捕捉不同群体的特点。

 

AI 模特功能的最大亮点在于,它与 AI 换衣工作流的无缝整合。用户生成的 AI 模特可以直接用于 AI 换衣,无需保存到本地,即可在后续换衣流程中重复使用,极大地提升了操作的便捷性。

 

并且结合 AI 视频功能,一个模特可以动态展示服装,甚至在几分钟内生成高质量的动态视频。(@AIbase 基地)

 

2、理想汽车旗下 AI 应用理想同学 App 正式上线 内容由 Mind GPT-3o 生成

 

理想汽车开发的人工智能应用——理想同学 App 已正式在苹果 App Store 和小米应用商店上架,iOS 版本应用大小约为 91MB,而安卓版本则约为 81MB。这款应用依托于理想汽车自研的大模型,提供了丰富的智能交互功能。

 

经过测试,用户可以直接与理想同学进行交流,包括识物、知识问答、长英文词句翻译和文本生成等。在视频功能中,理想同学展现出其视觉感知能力,支持实时画面询问和拍摄询问,语音交互流畅自然,回复内容由人工智能 Mind GPT-3o 生成。(@AIbase 基地)

 

3、小米澎湃 OS 2 AI 助手超级小爱将首次向正式版用户开放

 

在即将到来的年度总结直播中,小米总裁卢伟冰将重点介绍小米澎湃 OS2 的最新更新。此次更新标志着澎湃 OS2 发布后的首次重大版本升级,其中最引人注目的是超级小爱功能的首次向正式版用户开放。卢伟冰透露,更新将分批进行,针对不同机型进行适配和推送,预计在今晚的直播中将公布具体的升级计划。

 

超级小爱是此次澎湃 OS2 更新的重大亮点之一,作为小爱同学的超级 AI 进化版,超级小爱致力于打造一个全生态的 AI 智能助手。小米对超级小爱的界面 UI 进行了全面重塑,使其能与系统界面无缝融合,用户可以在任意页面唤醒超级小爱并进行交流。

 

超级小爱具备记忆能力,能够作为用户的私人备忘录,帮助记录收藏、日程和杂事。通过与用户的频繁互动,超级小爱还能记住用户的个人偏好。在安全方面,超级小爱的所有数据均已实现端到端加密,用户可以随时查看小爱记忆,也可以选择清空记忆。小米基于 MITEE3.0、数据权限体系、机密计算技术,确保了云端全链路用户数据的安全和可控性。(@AIbase 基地)

03有态度的观点

1、Anthropic:大多数任务无需复杂 AI 智能体

 

根据 AI 公司 Anthropic 的最新分析发现,在实际应用中,使用 AI 智能体而非简单提示的场景并不常见。Anthropic 在工作流程(代码协调 AI 模型和工具)和智能体(独立控制自身流程)之间划出了一条清晰的界限。

 

虽然 AI 智能体能够处理复杂和开放式的任务,但它们也需要更多的监管和计算能力。Anthropic 建议从基本提示开始,并且只在绝对必要时增加复杂性。尽管开发框架可以帮助团队开始使用智能体,但在生产环境中,更简单的方法往往更有效。

 

对于考虑使用 AI 智能体的团队,Anthropic 推荐关注三个关键领域:保持设计简单、使流程透明以及精心设计用户界面。该公司认为,在客户服务和软件开发任务中,智能体的潜力最大。

 

在追求 AI 技术的高级应用时,不应忽视简单解决方案的有效性。在许多情况下,一个精心设计的提示可能比一个复杂的 AI 智能体更加实用和经济。这种思路有助于企业在 AI 应用上做出更明智的选择,避免不必要的资源浪费,同时实现业务目标。(@AIbase 基地)

 

2、理想汽车 CEO 李想预言:人工智能最终形态是「硅基家人」

 

理想汽车 CEO 李想在 2024 理想 AI Talk 访谈中,对人工智能的未来发展提出了大胆设想。他认为,人工智能(AGI)的发展将分为三个阶段,最终形态将是「硅基家人」,这将深刻改变人类的生活方式。

 

首先,AGI 的第一阶段是「增强我的能力」,在这个阶段,人工智能作为辅助工具,提高我们的效率和便利性,但决策权仍在人类手中。例如,L3 级别的自动驾驶需要驾驶员监督,人类承担最终责任。

 

第二阶段,AGI 将成为「我的助手」,能够独立完成任务并对结果负责。李想举例说,L4 级别的自动驾驶汽车可以独立去学校接孩子,进行面部识别让孩子上车,标志着人工智能的大规模应用。

 

最终,第三阶段的 AGI 将变成「硅基家人」,无需人类指示,就能主动管理家庭事务,成为家庭的重要组织者。李想强调,这不仅是技术的进步,更是人类记忆的延续,即使肉体消失,记忆也能通过 AGI 得以保存。

 

李想表示,他和团队有望在有生之年实现这一愿景,这将是人类历史上的一大步。(@AIbase 基地)

 

 

更多 Voice Agent 学习笔记:

 

对话谷歌 Project Astra 研究主管:打造通用 AI 助理,主动视频交互和全双工对话是未来重点

 

这家语音 AI 公司新融资 2700 万美元,并预测了 2025 年语音技术趋势

 

语音即入口:AI 语音交互如何重塑下一代智能应用

 

Gemini 2.0 来了,这些 Voice Agent 开发者早已开始探索……

 

帮助用户与 AI 实时练习口语,Speak 为何能估值 10 亿美元?丨Voice Agent 学习笔记

 

市场规模超 60 亿美元,语音如何改变对话式 AI?

 

2024 语音模型前沿研究整理,Voice Agent 开发者必读

 

从开发者工具转型 AI 呼叫中心,这家 Voice Agent 公司已服务 100+客户

 

WebRTC 创建者刚加入了 OpenAI,他是如何思考语音 AI 的未来?

 

人类级别语音 AI 路线图丨 Voice Agent 学习笔记

 

写在最后:

 

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

 

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

 

 

素材来源官方媒体/网络新闻

标签:AI,模型,9B,智能,CogAgent,智谱,小爱
From: https://www.cnblogs.com/Agora/p/18636485

相关文章

  • Python硬解码并AI推理——PyNvVideoCodec使用记录
    PyNvVideoCodec替换VPF原来的VPF不能用了,现在变成了了PyNvVideoCodec。直接通过pip安装但是Python版本要大于3.10,但也比之前安装友多了。GitHub-NVIDIA/VideoProcessingFramework:SetofPythonbindingstoC++librarieswhichprovidesfullHWaccelerationforvideo......
  • AIDD - 人工智能药物设计 - 扩散模型在分子生成与药物设计中的前沿应用
    AIDD-扩散模型在分子生成与药物设计中的前沿应用引言分子生成与药物设计是现代计算化学和生物学的重要研究领域。近年来,**扩散模型(DiffusionModels)**因其卓越的生成能力和灵活性而迅速兴起,在化学和生物学领域中的应用也日益增多。本文旨在综述扩散模型的基本原理、其与......
  • 祝大家这周圣诞快乐!!本周进军多模态!From LLMs to MLLMs:Exploring the Landscape of Mu
    从LLMs到MLLMs:探索多模态越狱攻击的前景禁止盗用,侵权必究!!!欢迎大家积极举报......
  • HTTP Error 503. The service is unavailable.
    HTTPError503.Theserviceisunavailable.Win10安装好IIS后始终访问不了站点,提示已上503问题,而且iis管理界面卡死。于是各种折腾重装重启,半天过去了还是无济于事。百度了很久才找到一篇解决方案,这里总结了一下,希望能帮到你们:原因:访问页面时,应用程序池就自动关闭了。方案:在......
  • 微信小程序上传图片报错:uploadFile:fail url not in domain list
    上传图片时,在微信开发工具中可以正常上传成功,手机上预览也可上传成功。小程序发布成功后,上传失败,提示“uploadFile:failurlnotindomainlist”。错误信息如下:解决方案:1、在微信管理公众平台|小程序-开发-开发管理-服务器域名下的服务器配置uploadFile合法域名,没有添加服务器......
  • 抢占AI时代先机!用这套中文版题库,轻松搞定微软AI认证
    人工智能(AI)正在以前所未有的速度改变世界。从无人驾驶汽车到智能语音助手,从人脸识别支付到医疗影像诊断,AI技术正渗透进我们生活的方方面面。你可能听过一句话:“未来的世界属于懂AI的人。”但你是否真正为迎接这个未来做好了准备?随着全球人工智能技术的迅猛发展,AI人才的需求量......
  • 【STS测试】failure of android.security.sts.KernelLtsTest#testRequiredKernelLts_W
    总结:获取以下信息:1.安全补丁版本spl:2024-12-052.kernel版本5.15.1483.确认spl+6个月是否在【kernel-lifetimes.xml】中对应版本的生命周期之内,如果不在,则报出异常逻辑:确保安全补丁版本+6个月之后,仍旧在kernel的生命周期之内。也就是kernel版本该升级就升级吧。----------......
  • 极客说|AIGC?安全的才是最好的
    作者:魏新宇- 微软AI全球黑带高级技术专家「极客说」是一档专注AI时代开发者分享的专栏,我们邀请来自微软以及技术社区专家,带来最前沿的技术干货与实践经验。在这里,您将看到深度教程、最佳实践和创新解决方案。关注「极客说」,与行业顶尖专家一起探索科技的无限可能!越来越......
  • 真的有被这款免费的AI出题软件惊艳到!
    在当今这个快节奏、高竞争的学习环境中,考试准备成为了学生和教育工作者共同面临的挑战。为了应对这一挑战,匡优AI出题软件以其免费、高效的特点,为个性化学习体验提供了全新的解决方案。本文将深入探讨匡优AI出题软件如何帮助用户轻松应对考试,以及它在实际应用中的一些例子。个......
  • 有手就行的AI海报制作,以<元旦节>海报为例。5分钟完成
    告别繁琐设计软件, 无需任何设计基础, AI海报创作工具让你 分分钟变身设计大师!先看一下我们的整体步骤第一步:用AI生成海报设计思路这里我使用<DeepSeek网页版>进行海报设计,可以参考我的提示词:你是一位海报设计大师,擅长简洁、有张力的海报设计。你现在需要给我5个“2025......