首页 > 其他分享 >智谱AI上线最新“自主智能体”,“Her”终于能照进现实了

智谱AI上线最新“自主智能体”,“Her”终于能照进现实了

时间:2024-11-01 13:46:09浏览次数:6  
标签:Her AI 模型 AutoGLM 情感 语音 智谱

在对标OpenAI之路上,智谱AI又近了一步。

今年年初,OpenAI被爆出将自研AI Agent软件,它可替代人类,自动导航至任何网站并执行指定任务。

10月25日,智谱AI推出相似产品——自主智能体AutoGLM,智谱将其称为是一个可模拟用户访问网页、点击网页的浏览器助手。

智谱的展示视频显示,AutoGLM可实现网页进行线上点餐、整理小红书笔记并生成攻略、总结论文等功能。

同时,智谱AI还推出了端到端情感语音模型GLM-4-Voice 。这款情感语音模型不仅能够模拟真实的情感表达,甚至连细微的停顿、喘气都表现得惟妙惟肖。

这一技术的突破,与科幻爱情电影《Her》的部分情节相似。电影中,男主角西奥多与AI助手萨曼莎偶然相识,萨曼莎正是通过富有情感的语音互动让人感到贴近、温暖。

如今,智谱AI的情感语音模型似乎正把《Her》中的科幻场景带入我们的日常生活,人工智能不再只是冷冰冰的工具,而开始具备“情感”与“个性”。

《Her》已经初具雏形,具有自我意识和情感的AI或许不久会出现。

自主智能体上线:能点外卖、夸彩虹屁

与OpenAI的AI Agent相似,智谱清言AutoGLM模型,也无需用户手动操作示范,不受制于简单的任务场景或API调用,即可替代人类在电子设备执行操作。

目前,智谱清言已经与微信、淘宝、美团、小红书等8款知名应用软件合作,覆盖日常生活常用的线上聊天、网购、社交、地图、酒店火车订票等功能。

具体而言,当你向AutoGLM发出指令后,双方之间的对话将以语音形式展现,并实时显示字幕。

例如,你可以要求AutoGLM在大众点评给出指定的店家好评,并自动编辑评论。在执行“发送评论”这一超出指令的操作时,AutoGLM会主动提示是否进行。

你也能让AutoGLM查找淘宝某一时段的历史订单,复购指定商品。

就连向指定微信好友的朋友圈点赞、评论,这一步骤较长的任务也能完成。

除了网购、编辑评论等功能之外,AutoGLM还能批量总结微信公众号多篇文章,并生成文章摘要。

智谱公众号介绍,AutoGLM基于自进化在线课程强化学习框架WEBRL,克服了训练任务稀缺、反馈信号稀少和策略分布漂移等网页智能体研究和应用难题,加之自适应学习策略,能够在迭代过程中不断改进、持续稳定地提高自身性能。这意味着,AutoGLM具备了一定自我纠错能力。

据悉,为了保护用户隐私,AutoGLM不会主动获取用户的个人隐私信息,如果需要执行授权范围之外的任务,AutoGLM会主动提示以获取用户同意。

即使用户向AutoGLM授权,也不意味着AutoGLM永久拥有相关权限。每次后台启动AutoGLM,都会重新向用户申请无障碍权限。

目前,AutoGLM已上线电脑端开放使用,安装清言插件即可使用,手机端AutoGLM正开放安卓手机内测。

情感语音模型,有情感、会停顿

两个月前,智谱清言首次秀了一把语音通话技术,虽然当时语音通话功能能听懂对话、回复还算准确,但语气像是机器人“背稿子”,没啥感情。要是让它来点情感表达,它还会一本正经地告诉你:“作为一个人工智能,无法表达感情”。

不过,现在升级后的情感语音模型,感觉就不一样了。语音听起来更有“人味儿”,还能加点感情,像真人一样跟你聊。

它已经学会了用撒娇、调侃、愤怒、歇斯底里等语气表达。比如,拟人语音能模仿孩子,用撒娇语气向姐姐要糖葫芦。

如果普通话听腻了,没问题,它还能切换为北京、东北、广东、台湾、重庆五地腔调,比如介绍美食时那句经典的“巴适得板”,直接让人食欲大开。

玩角色扮演游戏也不成问题,可以把它设定为《哈利波特》中的反派伏地魔与你战斗,并能要求它以指定的语气进行扮演。比如它能以电视剧中常见的反派语气说话。

如果挑战绕口令加速,它可能就会“翻车”了,发音有点“飘”。

不过在某些时候,拟人语音说话时偶尔会出现短暂的电流声。

另外,发音偶尔也可能不标准,比如将为什么的“为”,发音为“微”。

据了解,GLM-4-Voice结合了自然语言生成(NLG)和语音合成技术,相比传统的TTS技术(Text-to-Speech),拟人语音能够理解上下文语境,实现富有情感的自然对话。

此外,GLM-4-Voice以音频 token 的形式直接建模语音,在一个模型里面同时完成语音的理解和生成,信息损失和误差积累相比传统级联方案更少,理论上有着更高的建模上限。

这不是清言拟人语音通话的全部功能,其对标GPT 40,将在响应和打断速度、情绪感知情 感共鸣、语音可控表达、多语言多方言等方面进一步突破。目前,其已实现不同情绪,各地方言说话时,还能调节语速、音量,实现与真人般的对话。

目前,GLM-4-Voice已上线清言app,用户可与清言自然聊天。值得注意的是,GLM-4-Voice已对外开源,这是智谱AI首个开源的端到端多模态模型。

下一步,它还将支持视频通话功能,届时不仅能认出物体,还能用语气带来“眼神交流”的互动感。

据智谱公众号,智谱发布从文本、图像、视频到情感语音模型等多模态,并让AI学会使用各种工具,原因在于其打造了新的基座模型——GLM-4-Plus。在语言文本能力方面,GLM-4-Plus和GPT-4o、405B参数量的Llama3.1 相当。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】或点击下方蓝色字 即可免费领取↓↓↓

**读者福利 |**

标签:Her,AI,模型,AutoGLM,情感,语音,智谱
From: https://blog.csdn.net/HUANGXIN9898/article/details/143429873

相关文章

  • rancher部署k8s
    一、基础环境说明节点名节点ip角色操作系统node110.42.8.13control-plane,etcd,masterCentOS7.9node210.42.8.14control-plane,etcd,masterCentOS7.9node310.42.8.15control-plane,etcd,masterCentOS7.9二、k8s节点机基础环境设置1、设置hostname(三台节点分别执行)n......
  • TI-Trends in Immunotherapy
    @目录一、征稿简介二、重要信息三、服务简述四、投稿须知一、征稿简介二、重要信息期刊官网:https://ais.cn/u/3eEJNv三、服务简述TrendsinImmunotherapy是一本开放获取的同行评审期刊,涵盖与所有基于免疫系统的领域相关的各个学科。TI的目标受众包括来自学术界、医疗......
  • D-ID 推出能模仿用户的头部动作以及实时互动的 AI 头像
    D-ID宣布推出两种新型AI头像—— Express 和 Premium+,旨在提升内容创作的灵活性和人性化。这些头像将为企业在营销、销售和客户支持等领域的视频制作提供便利。用户只需少量文本输入和视觉数据,即可生成更自然的商业视频。Express头像可以通过约一分钟的视频进行训......
  • Gemini API 和 Google AI Studio 升级,提升搜索准确性和响应能力
    从今天开始,使用Google的GeminiAPI和 GoogleAIStudio 构建AI服务和机器人开发者,将能够通过Google搜索的数据来增强其提示结果,这将使得基于更新数据的响应更加准确。开发者可以在AIStudio中免费尝试这一功能,AIStudio是Google为开发者提供的测试和优化提示......
  • 【VMware by Broadcom】新闻:Broadcom 宣布恢复 VMware vSphere Enterprise Plus 许可
    VMware被Broadcom收购后,发生了非常多的变化,其中变化之一就是,将以前众多的产品组件打包成了“四”个套件进行销售,并且将永久授权改成了订阅模式,你可以通过以下链接了解具体详情:VMwareCloudFoundation(VCF)VMwarevSphereFoundation(VVF)VMwarevSphereStandard(VVS)VMwarevS......
  • 一些可以简化 AI 大模型安装和配置过程的软件
    以下是一些可以简化AI大模型安装和配置过程的软件:Ollama:特点:这是一个可以在本地部署和管理开源大语言模型的框架,它极大地简化了开源大语言模型的安装和配置细节,支持多种模型,一经推出就广受好评。用户可以通过简单的命令来下载和运行大语言模型,比如使用“ollamarun[......
  • 释放AI潜能:一站式文本处理、分析与转换免费神器
    Textin.com产品使用手册/心得引言在当今数字化时代,文本处理、分析和转换已成为各行各业不可或缺的工具。然而,找到一个功能全面且易于使用的平台却并非易事。今天,我将向大家介绍一个免费的AI集文本处理、分析、转换于一体的在线平台——Textin.com。这个平台不仅功能强大,......
  • 医疗数据管理新纪元:开源AI平台免费助力化验单与诊断报告智能处理
    一、系统概述思通数科AI平台结合了智能化数据抽取、快速文档处理、灵活的数据接口等技术优势,通过OCR与NLP算法精准识别报告中的关键信息,帮助医疗机构在不增加人力的情况下高效管理患者信息,大幅提升管理质量与工作效率。二、客户案例某三甲医院的信息化升级:这家大型三甲医院的......
  • 灵动 AI——倾心为视频而生。捕捉每一个精彩瞬间,绽放视频魅力新光芒。
       灵动AI视频官网地址:https://aigc.genceai.com/一、概念这是一种利用人工智能算法来对视频进行转换处理的技术。简单来说,就是把一个已有的视频通过AI的方式转换为另一个具有不同特征的视频。这些特征可以包括视频的风格、格式、内容剪辑方式等诸多方面。例如,将......
  • 【AI副业】用AI做副业,哪个自媒体平台更赚钱?一文拆解,附13个变现途径!
    前言一起在AI时代提效、搞钱、变富有…最近有很多圈友来问,我是一个新手小白,又想做自媒体,但是该从哪个平台开始呢?哪个平台更赚钱呢?在这个人人都能发声的时代,自媒体成为了实现梦想的舞台。但在这股浪潮中,如何让自己的声音被听见?做自媒体的第一步究竟是什么?这个问题,或许......