首页 > 其他分享 >Gemini 发布 iOS app,Live 语音聊天免费用;微信公众号上线 AI 音色克隆功能丨 RTE 开发者日报

Gemini 发布 iOS app,Live 语音聊天免费用;微信公众号上线 AI 音色克隆功能丨 RTE 开发者日报

时间:2024-11-18 17:47:39浏览次数:1  
标签:RTE AI 微信 模型 Kimi Gemini 语音 o1

 

 

 

开发者朋友们大家好:

 

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

 

本期编辑:@SSN,@鲍勃

01 有话题的技术新闻

1、AI 玩《我的世界》大比拼!Claude 新版本建筑水平惊艳全网

 

 

近日,一场别开生面的 AI 能力评测在《我的世界》平台上展开,吸引了大量关注。新旧两个版本的Claude3.5Sonnet 在游戏中展开建筑 PK,展现出明显的能力差异,新版本(暂称「Sonnet3.6」)的表现尤其亮眼。

 

这项由开发者 adi 发起的测试被戏称为「唯一可靠的评测基准」。评测基准研究者 Aidan McLau 认为这个方法恰好满足了当前 AI 评测的需求,并指出审美能力与智力水平密切相关。该项目很快获得了开源社区的支持,相关代码已在 GitHub 上线。

 

测试结果显示,各大模型都展现出独特的「个性」:

 

  • Sonnet3.6 在创意性方面略胜一筹,获得 2000 多名网友的投票支持

  • OpenAI 的 o1-preview虽然构建速度较慢,但在还原真实建筑(如泰姬陵)时表现出色

  • o1-mini 则无法完成相关任务

  • Llama3405B建造了象征自我的「火坑上的钻石墙」

  • 阿里的 Qwen2.5-14B 也展现出不俗实力

 

值得注意的是,AI 在游戏中的建造过程并不依赖视觉理解或直接控制输入设备,而是通过文本形式提供上下文并生成操作指令,类似于下盲棋。技术实现上主要依靠:

 

  • mineflayer 开源库:将 AI 生成的指令转换为可执行的 API 调用 mindcraft

  • 开源库:提供通用提示词和示例,支持各类模型接入游戏

 

项目组计划将这一评测机制进一步完善,打造类似 Lmsys 竞技场的评分系统,采用 Elo 算法根据人类用户投票进行排名。据悉,完整测试环境仅需 15 分钟即可搭建完成。(@AIbase 基地)

 

2、昆仑万维天工大模型 Skywork 4.0 O1 版将正式启动邀请测试

 

昆仑万维科技股份有限公司宣布,其最新研发的天工大模型 4.0O1 版(英文名:Skywork O1)将于 2024 年 11 月 27 日启动邀请测试。

 

天工大模型 4.0O1 版是国内首款具有中文逻辑推理能力的 o1 模型,它不仅在模型输出上内生了思考、计划、反思等能力,而且在标准评测集上,其推理能力相较于基座模型有了大幅上升,实现了模型推理能力的本质提升。

 

天工大模型 4.0O1 版包括两款模型:一款是基于开源 Llama3.18B 的开源模型,旨在加速国内开源社区复现 o1 的进程;另一款是进阶能力更强版的天工大模型 4.0O1 版,将在天工上线并开放测试和使用。(@AIbase 基地)

 

3、月之暗面发布 k0-math 数学推理模型

 

Kimi 发布了其新一代数学推理模型 k0-math,该模型在多个数学基准测试中展现出了卓越的性能,其数学能力可以与 OpenAI 的 o1 系列模型相媲美。

 

在中考、高考、考研以及入门级竞赛题的 MATH 测试中,k0-math 的初代模型成绩超过了 o1-mini 和 o1-preview 模型。在更高难度的 OMNI-MATH 和 AIME 竞赛级数学题库中,k0-math 的表现也达到了 o1-mini 最高成绩的 90% 和 83%。

 

此外,Kimi 探索版通过强化学习技术在搜索体验上取得了创新,特别是在意图增强、信源分析和链式思考三大推理能力上实现了突破。

 

Kimi 的创始人杨植麟博士表示,k0-math 模型和更强大的 Kimi 探索版将在未来几周内陆续上线 Kimi 网页版和 Kimi 智能助手 app,旨在帮助用户解决更具挑战性的数学问题和搜索调研任务。(@APPSO)

 

4、Grok-3 疑似证明黎曼假设,已被暂停训练

 

 

 

马斯克 xAI 实验室的研究员 Hieu Pham 在 X 上发文称其开发的人工智能模型 Grok-3 已经证明了数学界长期以来悬而未决的「黎曼猜想」。

 

「黎曼猜想」由德国数学家波恩哈德·黎曼于 1859 年提出,它是数学中一个重要而著名的未解决问题,被誉为 「猜想界皇冠」,多年来吸引了许多杰出数学家的关注和努力。

 

这一消息引起了广泛关注,因为如果证明被确认为正确,这将是一个极其重大的数学突破。

 

作为预防措施,团队决定暂停对 Grok-3 的进一步训练,以检查其证明的正确性。并且,如果证明确实无误,他们计划不再继续训练该 AI,因为担心其过于高级的智能可能对人类构成潜在威胁。

 

不过从评论区用户的反馈来看,这似乎只是一个「很幽默的玩笑」。(@APPSO)

 

5、英国运营商推出反诈黑科技!AI「奶奶」出马,专坑电话诈骗犯!

 

英国移动运营商 Virgin Media O2 日前推出了一项创新的反诈骗技术——一个名为「Daisy」的 AI 虚拟奶奶,专门设计用来应对日益猖獗的电话诈骗。这位虚拟奶奶的唯一任务,就是接听诈骗电话并尽可能拖住骗子的时间。

 

当诈骗分子拨打运营商设置的特定号码时,这位「难以与真人区分」的 AI 机器人就会接听电话。据 O2 透露,他们利用多项前沿 AI 技术和模型训练了这位听起来像老年女性的聊天机器人,著名的反诈 YouTuber Jim Browning 也参与了训练过程。

 

整个通话过程完全自动化:AI 会实时监听并将来电者的语音转换为文字,随后通过定制的大语言模型和角色性格层生成回应,最后再经由 AI 语音合成模型转化为自然的对话语音。这一切都在实时进行,无需人工干预。

 

虽然 Daisy 听起来像是一位容易上当的老年人,但她实际上是诈骗分子的噩梦。她可能会漫无边际地讲述孙子们的故事或自己的兴趣爱好,表现出对技术的一无所知,或者提供一些毫无用处的虚假银行信息。不管采用哪种方式,她的目的只有一个:耗费诈骗者的时间,让他们无暇去骚扰真实的受害者。

 

在一段演示视频中,Daisy 的表现令人忍俊不禁:她会问「网址是不是要输入三个 W 再加一个点?」,抱怨自己的屏幕上只能看到她的猫咪 Fluffy 的照片,然后慢慢转向一个永无止境的故事。这让诈骗者终于忍无可忍,气急败坏地说「你是专门来烦人的吧」,「都快一个小时了!」(@AIbase 基地)

02 有亮点的产品

1、谷歌 Gemini 发布 iOS 版 App,live 语音聊天免费用!

 

 

 

近日,谷歌为旗下的 Gemini 聊天机器人发布了独立的 iOS 版 app,说其「独立」,是因为此前 iOS 用户只能在谷歌 app 中的 Gemini 选项卡中使用 Gemini。

 

除了正常的文本聊天对话外,新发布的独立应用还支持另外两种模式:图片和语音。用户可以现拍一张照片或从相册添加一张图片,然后发送给 Geimini 进行聊天。同时,iOS 端的 Gemini 应用也支持文生图,输入你希望生成的图片描述,即可生成对应的图片。

 

语音模式则是 Gemini 一大亮点,谷歌官方称该功能为 Gemini Live,其实就是类似于 ChatGPT 语音模式的交互式对话功能,允许用户通过语音与 AI 进行自然对话。值得一提的是,Gemini Live 和 ChatGPT 的高级语音模式一样,也支持随时打断,这一点使得对话体验更加自然流畅。Gemini Live 功能在此前仅在 Android app 上可用(编者注:iOS 更换语言为英文后可以启用 Live)。

 

图片和语音功能所有用户均可使用。(@AI 信息 Gap)

 

2、Magic Quill 重新定义 AI 图像编辑!双画笔交互模式获赞 精准度惊人

 

近期备受关注的 AI 图像编辑工具 Magic Quill 凭借其独特的交互设计,在业内引发热议。该工具最大的亮点在于创新性地引入了「双画笔系统」,让用户能够通过增减画笔的灵活组合,实现前所未有的精准编辑体验。

 

Magic Quill 的核心优势在于其直观且高效的操作方式:

 

- 增加画笔: 用于添加新的图像元素

 

- 删减画笔: 用于移除不需要的部分

 

- 组合使用: 两种画笔可以配合使用,实现更精细的编辑效果(@AIbase 基地)

 

3、阿里通义实验室推出了代码模式,可一句话帮你生成应用

 

 

 

通义代码模式让用户能够通过简单的日常语言指令生成各种应用,包括小游戏和数据图表等。用户可访问通义网页版,点击「代码模式」开始体验全新交互方式。代码模式基于 Qwen2.5-Coder 开发,提升了 AI 编程性能和效率。( @AIbase 基地)

 

4、微信公众号上线 AI 音色克隆功能

 

 

 

微信公众号版本 2.29.1 更新了新功能:朗读音色。

 

  • 点击推文的「听全文」功能时,听到的不再是那个永远跟其他人一样,相同的男声。而是,AI克隆的作者的声音。

  • 微信会用作者的声音,来为读者朗读出这篇文章。

  • 点开以后「朗读音色」功能后,会有一个系统默认的音色,用户也可以创建自己的音色。

  • 点击创建新的音色,就会进入到一个新页面,会让用户现场朗读一句话。甚至会从用户的实际文章中抽取一些片段来让用户读,非常的有意思。

  • 克隆好的声音与真实声音非常相近,但仍会存在有一些TTS 的惯常情绪问题。(@数字生命卡兹克)

03 有态度的观点

1、Kimi 创始人杨植麟:Scaling laws 依然有效 强化学习是重点

 

月之暗面 Kimi 发布新一代数学推理模型 k0-math 及 Kimi 探索版,计划分批上线网页版和 APP。

 

创始人杨植麟强调强化学习在 AI 发展中的重要性,「AI 领域正在经历新一轮技术范式的变化。基于强化学习、合成数据和思维链的新技术,可以解决高质量数据缺乏的问题,将提升 AI 在各个领域和场景的推理能力和智能水平上限。」

 

杨植麟认为 Scaling laws 依然有效,但需更好的方法。「所有的好算法都是跟 Scaling 做朋友,如果你的算法能够释放 Scaling 的潜力,它就会持续变得更好。」他提出大模型需提升思考能力,数学是锻炼此能力的理想场景。因为杨植麟认为这是最适合锻炼 AI 思考能力的场景,是个不断思考不断试错的过程,而且不需要跟外界进行交互。

 

「AI 接下来最重要的是思考和交互这两个能力。思考的重要性远大于交互,不是说交互不重要,而是我觉得思考会决定上限,交互是一个必要条件。」(@极客公园)

 

写在最后:

 

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

 

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

 

 

 

材来源官方媒体/网络新闻

标签:RTE,AI,微信,模型,Kimi,Gemini,语音,o1
From: https://www.cnblogs.com/Agora/p/18553287

相关文章

  • 基于微信小程序的体育课评分系统设计与实现(源码+论文+部署讲解等)
    博主介绍:✌全网粉丝60W+,csdn特邀作者、Java领域优质创作者、csdn/掘金/哔哩哔哩/知乎/道客/小红书等平台优质作者,计算机毕设实战导师,目前专注于大学生项目实战开发,讲解,毕业答疑辅导,欢迎高校老师/同行前辈交流合作✌技术栈范围:SpringBoot、Vue、SSM、Jsp、HLMT、Nodejs......
  • 基于微信小程序的宠物店商城系统设计与实现(源码+论文+部署讲解等)
    博主介绍:✌全网粉丝60W+,csdn特邀作者、Java领域优质创作者、csdn/掘金/哔哩哔哩/知乎/道客/小红书等平台优质作者,计算机毕设实战导师,目前专注于大学生项目实战开发,讲解,毕业答疑辅导,欢迎高校老师/同行前辈交流合作✌技术栈范围:SpringBoot、Vue、SSM、Jsp、HLMT、Nodejs......
  • 微信工作号一大堆,忙不过来怎么办?这个多微管理神器,你值得拥有!
    管理好几个微信账号,处理聊天、朋友圈、加好友这些事儿,真是让人头疼。别急,我这有个好推荐——微信管理系统,能帮你一手掌控多个微信号,聊天聚合在一个界面,还有很多实用功能,效率提升不是梦!1、批量群发消息生活中,我们经常需要给一堆好友或者 群里发同样的信息。微信管理系统能让......
  • AI绘图教程|Stable Diffusion(SD)文生图参数详解及吉尼龟小案例
    SD学习绘图最开始的第一步是文生图,这也是最基础的学习,今天我带大家先学习下文生图stablediffusion整合包可以扫描下方,免费获取01—文生图参数01*模型选择*模型选择主要分大模型选择和VAE模型选择,这里根据你画的图具体进行选择,这个参数的选择难度不大。02**Cli......
  • AIGC----生成对抗网络(GAN)如何推动AIGC的发展
    AIGC:生成对抗网络(GAN)如何推动AIGC的发展前言随着人工智能领域的迅猛发展,AI生成内容(AIGC,AIGeneratedContent)正成为创意产业和技术领域的重要组成部分。在AIGC的核心技术中,生成对抗网络(GAN,GenerativeAdversarialNetwork)被认为是推动AIGC发展的关键力量之一。本篇博......
  • 大模型实战(二):langchain+Ollama调用本地大模型实现RAG(保姆级)
    文章目录一、任务描述1.环境2.功能二、代码拆解1.导入包2.配置本地模型3.实例化embedding模型4.导入向量化知识库5.加入提示词6.定义查询方法7.问答三、总体代码一、任务描述由于显卡仍然较为昂贵,个人笔记本的硬件条件很难带动大模型,因此我们可以调用一......
  • CF1499D The Number of Pairs 题解 线性筛
    题目链接:https://codeforces.com/problemset/problem/1499/D题目大意:给你三个整数\(c,d,x\)(\(1\lec,d,x\le10^7\)),问:存在多少对正整数对\((a,b)\)满足:\[c\cdotlcm(a,b)-d\cdotgcd(a,b)=x\]其中,\(lcm(a,b)\)表示整数\(a\)和\(b\)的最大公约数,\(gcd(a,......
  • OpenAI Assistants API 企业级应用实战
    引言OpenAI在2023年底推出的AssistantsAPI为企业级AI应用开发提供了一个强大的新选择。与传统的ChatCompletionsAPI相比,AssistantsAPI提供了更完整的对话管理、文件处理和工具调用能力,特别适合构建复杂的企业应用。核心优势内置的对话线程管理原生的文件处理能......
  • 多模态大模型LLM与AIGC前沿技术实战,基于训练数据和生成算法模型
    多模态大模型LLM与AIGC前沿技术实战,基于训练数据和生成算法模型在当今人工智能领域,多模态大模型LLM(大型语言模型)与AIGC(人工智能生成内容)正以前所未有的发展态势,引领着技术革新的浪潮。它们的强大能力背后,训练数据和生成算法模型起着至关重要的作用,深入探究这两方面并了解其在实......
  • 【JS逆向百例】cebupacificair 航空逆向分析
    前言近期在知识星球中,有位星友在逆向一个航司的时候,遇到了点阻碍,向我提问,本期就对该网站进行逆向分析:逆向目标目标:cebupacificair航空查询逆向分析网站:aHR0cHM6Ly93d3cuY2VidXBhY2lmaWNhaXIuY29tL2VuLVBILw==抓包分析打开网站,找到返回机票信息的机票查询接口ceb-omnix_p......