首页 > 其他分享 >ElevenLabs Voice Design:文本生成个性化语音;科学家用 AI 解读猪叫声背后情绪和压力丨RTE 开发者日报

ElevenLabs Voice Design:文本生成个性化语音;科学家用 AI 解读猪叫声背后情绪和压力丨RTE 开发者日报

时间:2024-10-31 14:32:52浏览次数:5  
标签:RTE 10 DeepMind AI 用户 Design 语音 Voice

 

 

 

开发者朋友们大家好:

 

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

 

本期编辑:@SSN,@鲍勃

01有话题的新闻

1、简单文本即可创建个性化语音!ElevenLabs 推出全新 AI 语音生成工具 Voice Design

 

ElevenLabs 日前发布全新 AI 语音生成工具 Voice Design,通过简单的文本描述即可创建个性化语音,开创了 AI 配音领域的新纪元。

 

这款工具最大的特点是其直观的文本提示功能。用户只需描述所需声音的特征,如「温暖友好的中年女性声音,带着轻微英国口音」,系统便能快速生成符合要求的语音。

 

Voice Design 支持调节多个语音参数,包括年龄、性别、口音、语调和音高等,确保生成的声音精确匹配用户需求。

 

除了模拟真实人声,Voice Design 还突破性地支持创作角色化语音。无论是精灵的空灵之音,还是机器人的金属音效,系统都能准确捕捉并还原这些虚拟角色的声音特征。

 

用户可以反复调整参数,探索无限的创作可能,为游戏开发、有声内容制作等领域提供了强大的创意工具。

 

ElevenLabs 官方表示,该声音设计功能 API 将在 1 周内推出。(@AIbase 基地)

 

2、OpenAI ChatGPT 高级语音模式已登陆 Windows 和 Mac 平台,对话更自然

 

OpenAI 今日宣布,ChatGPT 的高级语音模式(Advanced Voice Mode,简称 AVM)现已登陆 Windows 和 Mac 平台。

 

AVM 基于 OpenAI 最先进的 GPT-4o 模型运行,允许用户像与真人对话一样与 ChatGPT 进行交流,包括打断、停顿等自然语言行为。OpenAI 表示,AVM 提供了更自然、实时的对话体验,能够实时感知和回应用户的情绪。

 

据了解,这一备受期待的功能在今年 7 月首次向测试用户开放,9 月底向付费订阅用户推出。OpenAI 在 10 月的一条推文中透露,免费用户也将有机会体验 AVM,而欧盟地区的 Plus 和 Free 用户则需要耐心等待。

 

就在一天前,OpenAI 还宣布了另一项新功能:ChatGPT 网页版聊天历史搜索。用户现在可以快速、轻松地调出聊天记录以供参考,或者从上次中断的地方继续聊天。(@IT 之家)

 

3、微软 Github 推出 Spark AI 工具:降低开发门槛,日常语言描述搞定整个应用

 

科技媒体 maginative 10 月 29 日发布博文,报道称微软旗下的代码托管平台 Github 推出 Spark,让用户仅通过日常语言描述,就能构建完善的应用功能。

 

用户借助 Spark 工具,并不需要编写代码以及深厚的编程专业知识,只需要详细解释希望开发的应用功能,从托管到数据存储,Spark 工具能自动处理所有复杂的技术细节。

 

在描述应用想法时,用户可以实时看到应用构建的过程。用户可以以对话的方式请求更改,系统会建议不同版本的修改方案,便于比较选择。

 

目前,Spark 处于技术预览阶段,GitHub 计划通过等待名单系统逐步扩大用户访问。这种谨慎的推出方式表明,GitHub 希望根据早期用户反馈不断优化技术。这一创新可能会彻底改变软件开发的方式,并将应用开发的门槛降低到数百万非程序员可以接触的水平。(@IT 之家)

 

4、谷歌 DeepMind 顶尖研究员 Julian Schrittwieser 加入 Anthropic,曾参与开发 AlphaGo 等

 

 

 

谷歌 DeepMind 顶尖研究员 Julian Schrittwieser(朱利安・施特维泽)10 月 29 日宣布加入 AI 公司 Anthropic。

 

施特维泽在谷歌 DeepMind 工作了十年,曾参与开发 AlphaGo、AlphaZero 和 MuZero 等革命性项目。

 

朱利安表示:「我很高兴宣布,从这周开始,我将加入 Anthropic!」他特别赞扬了 Anthropic 在人工智能领域的成果,尤其是 Claude 项目,他认为这个工具非常实用。此外,他也提到了 Anthropic 最近推出的 Artifact 和 Computer Use 等创新技术。

 

回顾在 DeepMind 的十年经历,施特维泽感叹:「我很幸运能参与谷歌 DeepMind 的这一段奇妙旅程…… 我参与了比我所想象的还要多的激动人心的项目。」从施特维泽的博客获悉,在 DeepMind 期间,他不仅参与了基础研究,比如 AlphaCode 和 AlphaTensor,还参与了最近的 Gemini 和 AlphaProof 等项目。(@IT 之家)

 

5、谷歌:公司超过 1/4 的新代码是由人工智能生成的

 

昨日,Google 母公司 Alphabet 发布了截至今年 9 月 30 日的第三季度财报。Alphabet 第三季度营收为 882.68 亿美元,同比上升了 15%;净利润 263.01 亿美元,同比增长 34%。

 

在财报电话会议上,Google CEO Sundar Pichai 透露,公司四分之一的新代码由 AI 生成,工程师会进行审查并使用。具体的部门业绩方面,和 AI 相关的 Google 云业务第三季度营收 113.53 亿美元,增长 35%;广告营收达 658.54 亿美元,增长 10%。(@APPSO)

 

6、养猪业新神器,AI 工具可解读猪叫声背后的情绪

 

路透社于 10 月 24 日发布博文,报道称欧洲科学家开发了一种能够解读猪叫声的人工智能(AI)算法,从而帮助猪农了解猪的情绪和压力状态。

 

根据共同领导该研究的哥本哈根大学行为生物学家埃洛迪・曼德尔-布里费尔的说法,该算法有可能提醒农民注意猪的负面情绪,从而改善它们的福祉。

 

该研究由来自丹麦、德国、瑞士、法国、挪威和捷克共和国的科学家共同进行,核心是通过分析数千个不同情境下的猪叫声,理解它们所表达的情感。

 

猪的不同叫声(如咕哝声、哼哼声和尖叫声)能够反映它们的情绪,短促的咕哝声(grunt)通常表示积极情绪;而长时间的咕哝声则可能表明不适;高频的尖叫声通常与压力相关,尤其在猪感到疼痛或被分开时。

 

研究团队希望这一算法未来能够帮助标记农场,指导消费者做出更明智的选择,一旦算法成熟,农民将能通过手机应用实时翻译猪的情感表达。(@IT 之家)

02有态度的观点

1、a16z 合伙人最新洞察:继续推动下一代模型,需要每个阶段增加 10 倍计算资源、10 倍电力和 10 倍数据

 

近日,a16z 合伙人 Martin Casado 围绕 AI 技术发展、投资趋势以及不同领域的实际应用和限制与资深媒体人展开了一场对谈,提出了几点核心观点:

 

Casado 认为 AI 技术的迭代速度前所未有,投资者需要不断质疑自己的假设,保持灵活性。这一轮技术周期比之前的互联网、云计算等周期变化更快,也更具颠覆性。

 

目前,AI 发展面临数据和算力的瓶颈。模型要继续提升,需要远超当前的计算资源和数据量,尤其是特定领域的专用数据。

 

虽然合成数据可以应用于规则明确的领域,但生成关于世界的见解仍然受限于现有的知识库。

 

他认为未来 AI 算法还将继续进化,逐步纳入规划和世界模型的概念,以应对特定任务和增强推理能力。(@有新 Newin)

 

写在最后:

 

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

 

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

 

 

 

素材来源官方媒体/网络新闻

标签:RTE,10,DeepMind,AI,用户,Design,语音,Voice
From: https://www.cnblogs.com/Agora/p/18517732

相关文章

  • 【每天学点AI】KNN算法:简单有效的机器学习分类器
    想象一下,你正在计划一个周末的户外活动,你可能会问自己几个问题来决定去哪里:"今天天气怎么样?"如果天气晴朗,你可能会选择去公园野餐;如果天气阴沉,你可能会选择去博物馆。这个决策过程,其实就是一个简单的分类问题,而KNN(K-NearestNeighbors)算法正是模仿这种人类决策过程的机器学习算法。......
  • 总计 30 万奖金,Spring AI Alibaba 应用框架挑战赛开赛
    随着生成式AI的发展,基于AI开发框架构建AI应用的诉求迅速增长,涌现出了包括Langchain、LlamIndex等相关开发框架,但大部分框架都只提供Python语言实现,对Java开发者并不非常友好。随着大量的存量和新增Java业务开始提出AI接入诉求,SpringAIAlibaba项目于今年9月正......
  • 哥伦比亚大学杨立昆演讲:大模型只是AI发展阶段性成果,但下一步AI革命制胜关键不会依赖于
    在昨天哥伦比亚大学最新一期的AI讲座上,Meta首席科学家YannLeCun(杨立昆)分享了他对人工智能未来的深刻见解。作为深度学习领域的先驱者和2018年图灵奖得主,LeCun的观点引发了广泛关注。这位法国计算机科学家的学术之路充满传奇。从1987年在索邦大学提出开创性的反向传播算法,到1989......
  • Serverless + AI 让应用开发更简单
    本文整理自2024云栖大会,阿里云智能高级技术专家,史明伟演讲议题《Serverless+AI让应用开发更简单》随着云计算和人工智能(AI)技术的飞速发展,企业对于高效、灵活且成本效益高的解决方案的需求日益增长。本文旨在探讨Serverless架构与AI技术的结合,如何通过Serverless函数计......
  • Adobe InDesign 2025 v20.0 (macOS, Windows) - 版面设计和桌面出版软件
    AdobeInDesign2025v20.0(macOS,Windows)-版面设计和桌面出版软件Acrobat、AfterEffects、Animate、Audition、Bridge、CharacterAnimator、Dimension、Dreamweaver、Illustrator、InCopy、InDesign、LightroomClassic、MediaEncoder、Photoshop、PremierePro、Adobe......
  • 使用 FastGPT 实现最佳 AI 翻译工作流:全世界最信达雅的翻译
    想让AI翻译既准确又地道?本文将教你如何利用FastGPT打造一个革命性的翻译工作流。它不仅支持文本翻译,还能直接处理文档,更能通过自定义术语表确保专业术语的翻译准确性,堪称翻译神器!直接看效果:再来看术语表:这也太适合翻译产品官网和官方文档了吧??背景吴恩达教授最近提出了一......
  • Tomcat 8 报错:FAIL - Application at context path /xxxx could not be started
    一、问题描述在本地Tomcat部署项目后,在浏览器中打开项目报错Theoriginserverdidnotfindacurrentrepresentationforthetargetresourceorisnotwillingtodisclosethatoneexists造成这个错误的原因有很多,可能是路径错误,也可能是项目编译包错误,亦或是版本不......
  • vscode 远程连接报错,“Resolver error: Error: XHR failed”
    [11:06:53.461]Creatingbashsubshellinside"bash"[11:06:53.560]>bashversion:4.4.20(1)-release[11:06:53.586]>bashversion:4.4.20(1)-release[11:06:53.717]>c448906b72f1:running[11:06:53.783]>Acquiringlockon/root/.......
  • 会员权益上新: OneThingAI 算力云给园子会员送算力
    和厂商合作给会员送福利,是我们拓展会员权益的一个方向。最近我们和算力云服务商OneThingAI达成了合作,OneThingAI给园子的会员提供了不少代金券,让大家免费体验一下OneThingAI的算力服务。OneThingAI是一家提供AI场景解决方案的算力云服务商,提供了适合AI推理的强大且经济高......
  • 轻松掌握在AirtestIDE中切换为本地Python环境的详细指南
    此文章来源于项目官方公众号:“AirtestProject”版权声明:允许转载,但转载必须保留原链接;请勿用作商业或者非法用途一、前言最近有一些新入门的小伙伴们都在问如何在AirtestIDE内使用更多的依赖库,为了解决这个问题,我们建议将AirtestIDE的Python环境切换为本地Python环境,并在本地......