首页 > 其他分享 >语音生成模型 PlayDialog:可生成对话播客、旁白;小米 AI 眼镜将于明年 Q2 发布丨 RTE 开发者日报

语音生成模型 PlayDialog:可生成对话播客、旁白;小米 AI 眼镜将于明年 Q2 发布丨 RTE 开发者日报

时间:2024-11-14 16:29:20浏览次数:1  
标签:RTE 视频 AI 模型 PlayDialog 生成 语音 旁白

 

 

 

开发者朋友们大家好:

 

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

 

本期编辑:@SSN,@鲍勃

01有话题的新闻

1、对标谷歌 NotebookLM!语音生成模型 PlayDialog:可生成对话播客、旁白

 

近日,Play AI 正式推出其最具雄心的产品 ——PlayDialog beta 版本,能生成对话式的播客音频。

 

这款端到端的 AI 语音模型,利用对话的历史上下文,能够调控语调、情感和语速,以实现更自然的语音合成,标志着人机对话的新高度。PlayDialog 特别适合于制作真实的对话体验,例如旁白、语音配音、合成播客等,也能在商业环境中提供沉浸式的一对一语音交流体验,效果类似谷歌的 NotebookLM。

 

与此同时,Play AI 还推出了 PlayNote,这是一款可以将多种媒体文件(如 PDF、文本、视频等)转化为对话体验的工具。用户可以在几分钟内生成播客、简报、旁白,甚至是儿童故事,并享受到 PlayDialog 所带来的流畅、自然的语音效果。PlayNote 的独特之处在于,它也提供 API 接口,使得用户可以不依赖用户界面,轻松实现音频内容的程序化生成。

 

PlayDialog beta 经过数亿次真实对话的训练,模型规模约为 Play AI3.0mini 的十倍,能够在语调(如语音的抑扬顿挫、语速)上与人类的语音表现相匹配。在盲测中,PlayDialog beta 的表现比市场上领先的竞争模型高出两倍,特别是在表达力方面得分最高。

 

不同于以往的语音模型,PlayDialog beta 可以理解整段对话的上下文,进而影响语音生成的效果。Play AI 构建了一种被称为 「自适应语音上下文化器」(ASC)的新架构,使得模型能够利用完整的对话历史进行回应,从而让每一句话都不是孤立的输出,而是丰富的具备合适的语调、情感和语气,使得合成的播客仿佛让听众感受到演讲者在同一空间内进行交流。

 

无论是充满活力的讨论,还是需要同理心的敏感话题,PlayDialog 都能无缝适应,让互动显得更加自然和人性化。

 

用户可以通过 PlayNote 体验这一切,使用它制作强有力、自然的旁白、播客、简报等,只需几分钟就能完成。PlayNote 也可以通过 API 接口使用,允许开发者以大规模程序化方式生成引人入胜的内容。(@小夏聊 AIGC)

 

2、生数科技 Vidu 大模型迎来 1.5 新版本

 

 

 

(图源:Vidu)

 

昨日,生数科技官方公众号宣布,Vidu 大模型迎来 1.5 版本。官方表示,Vidu 的技术突破主要在以下三个方面:

 

复杂主体的精准控制:无论是细节丰富的角色,还是复杂的物体,Vidu 都能保证其在多个不同视角下的一致性。

 

人物面部特征和动态表情的自然一致:在人物特写镜头中,Vidu 能够自然且流畅地保持人物面部特征和表情的连贯性,避免了面部僵硬或失真的现象。

 

多主体一致性:Vidu 允许用户上传多个主体图像,包括人物角色、道具物体、环境背景等,并在视频生成中实现这些元素的交互。

 

官方表示,Vidu 1.5 的推出,揭示了一个重要现象:视觉模型与语言模型一样,经过充分的训练,模型能够展现出对上下文的深刻理解、记忆等能力。(@ APPSO)

 

3、AI 试衣技术 Fashion-VDM 颠覆传统 网购衣服再也不怕踩雷了!

 

Google Research 团队最新研发的 Fashion-VDM 技术,让人足不出户就能体验试穿各种漂亮衣服的快感。

 

Fashion-VDM 是一个视频扩散模型,只要你提供一件衣服的照片和一段你自己的视频,它就能生成一段你穿着这件衣服的视频,而且效果超级逼真!

 

市面上的虚拟试衣软件大多是基于图像的,只能生成静态图片,而且效果经常惨不忍睹,衣服穿在你身上就像贴纸一样,毫无真实感可言。Fashion-VDM 则完全不同,它生成的是动态视频,不仅能展示衣服在不同角度的穿着效果,还能模拟衣服的动态变化,比如褶皱、摆动等等,简直和真人试穿一模一样。

 

Fashion-VDM 的秘诀在于它采用了分离式无分类器引导技术(split-CFG),这项技术可以更精确地控制人物和服装的信息,确保生成的视频既保留了你本人的特征,又完美地展现了衣服的细节。

 

为了让视频更加流畅自然,Fashion-VDM 还采用了一种渐进式时间训练策略,先用大量的图片数据训练模型,然后再逐步增加视频数据的训练时长,最终生成长达 64 帧的超长视频,彻底告别画面卡顿和闪烁!

 

更厉害的是,Fashion-VDM 还结合了图像和视频数据进行联合训练,这意味着它不仅能从图片中学习服装的细节,还能从视频中学习人物的动作和服装的动态变化,最终生成更加真实、更具说服力的试衣视频。

 

当然,Fashion-VDM 目前还有一些局限性,比如在处理遮挡的服装区域时,细节可能不够准确,人物体型也可能出现轻微变形。(@AIbase 基地)

 

4、报道称小米 AI 眼镜将于明年 Q2 发布

 

据「智能涌现」独家报道,小米正计划推出新一代 AI 眼镜,数月前已与歌尔合作,该产品预计于 2025 年 Q2 发布。

 

有知情人士表示,小米 AI 眼镜将「全面对标 Meta Ray-ban」,搭载 AI 功能、音频耳机模块、摄像头模块,并将以小米自有品牌形式发布。

 

据称对于这款产品的出货量,雷军的预期「在三十万台往上」。

 

报道还指出,OPPO、vivo、华为、腾讯、字节近期也都在评估 AI 眼镜项目;苹果也被外媒曝光已组织团队重点评估 AI 眼镜市场。

 

财联社记者以投资者身份致电歌尔股份,相关人士回应称,公司对具体客户信息及项目内容不予透露。公司 AI 眼镜业务现阶段尚未量产,主要产品可应用于 AI 眼镜等终端产品。(@ APPSO)

 

5、传苹果将推出 AI 智能家居中控屏

 

据彭博社的 Mark Gurman 报道,苹果公司正在开发一款新的智能家居产品——一款壁挂式显示屏,拥有控制家电、与 Siri 互动和视频会议等功能。

 

显示屏看起来像一个方形的 iPad,拥有大约 6 英寸的屏幕,顶部配有摄像头,内置扬声器和可充电电池。其已开发三年,可能会在明年 3 月正式宣布。

 

这款设备在功能上与 Google Home Hub 和亚马逊的 Echo Show 相似,但苹果的智能家居控制中心的独特之处可能是苹果 AI,包括 10 月下旬开始向用户推出的 Apple Intelligence 以及即将到来的 App Intents 系统,该系统可使用 AI 控制软件程序。

 

此外,苹果还在开发一款带有机械臂的版本,能够移动平板设备。这表明苹果可能不仅仅是在开发一个智能设备控制面板,而是在寻求更先进的智能家居解决方案。(@ APPSO)

02有态度的观点

1、Glean 创始人:AI 创业者应从用户出发

 

在红杉资本的深度访谈中,Glean 的创始人 Arvind Jain 分享了企业搜索和 AI 应用在企业内部落地的挑战与机遇。

 

他强调,为了构建有效的 AI 应用,必须先建立强大的数据基础设施,包括深入集成企业系统、健全的安全和权限框架,以及理解人与内容、上下文之间关系的复杂知识图谱。

 

Jain 表示企业搜索的难点在于数据的私有性、基于权限的访问和深刻的上下文依赖性,因此,理解组织结构、用户角色和访问权限至关重要。

 

Jain 还指出,AI 创业者应从用户出发,先通过关键功能为用户提供清晰的价值,再扩展到更多的 AI 功能,这有助于建立企业信任并为高级功能提供所需的数据基础。

 

他预见 AI 助手将在未来主动帮助用户完成工作,改变工作方式,使得每个人都能拥有强大的 AI 助手来提升工作效率。

 

此外,Jain 建议创业者应专注于解决业务问题,而不是单纯追求 AI 技术,因为 AI 只是解决问题的工具之一。(@ APPSO)

 

写在最后:

 

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

 

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

 

 

 素材来源官方媒体/网络新闻

标签:RTE,视频,AI,模型,PlayDialog,生成,语音,旁白
From: https://www.cnblogs.com/Agora/p/18546305

相关文章

  • C++生成随机数
    目录一、传统方式:std::rand 和 std::srand使用方法:优缺点:二、现代方式: 库(推荐)1. 随机整数2. 随机浮点数3. 布尔值4. 字符5. 正态分布(高斯分布)6. 离散分布的随机数7. 随机字符串8. UUID(通用唯一标识符)三、std::shuffle:用于打乱序列四、总结:选择合适的......
  • Day 13 迭代器 三元表达式 列表生成式 字典生成式 生成器 递归
    目录0上节课回顾0.1闭包函数0.2装饰器1迭代器2三元表达式和列表推导式2.1三元表达式(三目表达式)2.2列表推导式3字典生成式4生成器4.1yield关键字5递归0上节课回顾0.1闭包函数函数内部的变量无法被全局的相同名字的变量修改,局部变量和全局变量不是同一种东西deff1......
  • 京东零售广告创意:基于人类反馈的可信赖图像生成
    作者:京东零售冯伟   ECCV2024:TowardsReliableAdvertisingImageGenerationUsingHumanFeedback链接:https://arxiv.org/abs/2408.00418摘要:在电商领域,吸引顾客注意力的广告图片至关重要。尽管生成模型可以自动生成图像,但它们往往会产生不符合广告标准的图片,可能......
  • Python 开发(11):生成器与迭代器 - 高效处理数据流
    Python开发(11):生成器与迭代器-高效处理数据流在Python中,生成器和迭代器是非常强大的工具,能够帮助开发者高效地处理大规模数据,尤其是在内存资源有限的情况下。它们通过惰性计算的方式,逐步生成数据,避免一次性加载大量数据到内存中,提升了程序的性能和效率。本文将详细介......
  • 毕业论文设计 Python 实现基于WGAN的生成对抗网络数据生成的详细项目实例(含完整的程序
    目录Python实现基于WGAN的生成对抗网络数据生成的详细项目实例...5项目背景介绍...5一、引言...5二、WGAN背景及优势...51.生成对抗网络(GAN)简述...52.WGAN的核心创新:Wasserstein距离...6......
  • Langchain and Azure cognitive search - ImportError - cannot import name ‘Vector
    题意:LangchainandAzurecognitivesearch-ImportError-cannotimportname'Vector'from'azure.search.documents.models'“Langchain和Azure认知搜索-导入错误:无法从'azure.search.documents.models'导入名称'Vector'”问题背景:Iam......
  • 基于华为云FunctionGraph和ModelArts的智能动漫头像生成:从自拍到AI风格化的编程
    文章目录1引言2背景介绍2.1华为云FunctionGraph与ModelArts简介3项目准备3.1注册与登录华为云账号4实验步骤4.1首先我们配置云主机4.2安装FunctionGraph插件4.3创建函数4.4部署函数4.5函数配置委托4.6函数配置触发器4.7函数添加依赖包4.8订阅模型并部署A......
  • 在Clion中快速生成函数中形参注释及添加函数说明
    快速生成函数中形参注释只需要在函数前输入/**,然后按回车,这样即可快速生成如下函数形参注释。 新增函数描述在设置界面中的搜索框中输入CodeGeneration,然后勾选如下选择框,这样就可以在如上生成的代码快中新增函数描述栏 说明:有些版本可能找不到,按如下位置查找即可。......
  • GAN, Generative Adversarial Networks(生成式对抗网络)
    深度学习中最有趣的领域–GAN,GenerativeAdversarialNetworks(生成式对抗网络)GAN的基础概念GAN被“卷积网络之父”YannLeCun(杨立昆)誉为「过去十年计算机科学领域最有趣的想法之一」,是近年来火遍全网,AI研究者最为关注的深度学习技术方向之一。生成式对抗网络,简称G......
  • 【Python教程】python如何把数据导出生成excel
    博主介绍:✌全网粉丝21W+,CSDN博客专家、Java领域优质创作者,掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域✌技术范围:SpringBoot、SpringCloud、Vue、SSM、HTML、Nodejs、Python、MySQL、PostgreSQL、大数据、物联网、机器学习等设计与开发。感兴趣的可以先......