首页 > 其他分享 >讯飞星火极速超拟人交互技术:语音端到端,8 月底开放;昆仑万维发布 AI 短剧平台 SkyReels丨RTE 开发者日报

讯飞星火极速超拟人交互技术:语音端到端,8 月底开放;昆仑万维发布 AI 短剧平台 SkyReels丨RTE 开发者日报

时间:2024-08-20 18:30:18浏览次数:9  
标签:RTE 视频 翻译 万维 交互技术 AI 模型 语音 SkyReels

 

 

 

开发者朋友们大家好:

 

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

 

本期编辑:@SSN,@鲍勃

01有话题的新闻

1、昆仑万维发布全球首个集成视频大模型与 3D 大模型的 AI 短剧平台 SkyReels

 

昆仑万维于 8 月 19 日发布全球首个集成视频大模型与 3D 大模型的 AI 短剧平台 SkyReels。SkyReels 平台集剧本生成、角色定制、分镜、剧情、对白/BGM 及影片合成于一体,让创作者「一键成剧」,轻松制作高质量 AI 视频。奇幻大片、凄美虐恋、爆笑喜剧……只要输入一个简单创意,SkyReels 就能完成从剧本到成品短剧制作全流程。

 

SkyReels 平台集成了昆仑万维自研剧本大模型 SkyScript、自研分镜大模型 StoryboardGen、自研 3D 生成大模型 Sky3DGen、以及业界首个将 AI 3D 引擎与视频大模型深度融合的创新平台 WorldEngine。

 

SkyReels 能够通过 AI 一键生成完整剧本、分镜、人物对白与 BGM,支持角色形象、音色与分镜的自定义调整,并能够自动将内容转换为 1080P 60 帧的高清视频,单次可生成视频长度达 180 秒,相比 Sora 单次可生成 60 秒视频、可灵单次可生成 10 秒视频,有显著突破。一键整合所有创作成果,极大提高视频的创作效率,降低创作成本,推动「一人一剧」时代加速来临。(@机器之心)

 

2、科大讯飞推出星火极速超拟人交互技术,对标 GPT-4o

 

科大讯飞宣布对星火语音大模型进行更新,正式推出星火极速超拟人交互,在响应和打断速度、情绪感知情感共鸣、语音可控表达、人设扮演四个方面实现突破,对标 GPT 4o。

 

响应和打断速度:官方称即便被频繁打断,也能「迅速反应」,更加符合日常对话情境

 

情绪感知情感共鸣:升级后的版本可以针对高兴、悲伤、生气、害怕等情绪进行识别,自动带入符合情境的对话,用合适的情绪语气进行回复

 

语音可控表达:在交流中能够跟随用户指令控制数十种情感、风格、方言,支持调节语速

 

人设扮演:能够模仿包括孙悟空、蜡笔小新、小猪佩奇等多种角色的音色、语气,还会模仿他们的人设与用户聊天

 

此次星火极速超拟人交互采用统一神经网络直接实现语音到语音端到端建模,大幅缩短响应时间的同时,提升交互拟人度和流畅度。该项技术将于 8 月底在讯飞星火 APP 上全民开放使用。(@IT 之家)

 

3、阿里通义千问宣布启用新域名「tongyi.ai」,网页版聊天新增深度搜索功能

 

阿里大语言模型「通义千问」于 8 月 19 日宣布启用新域名「tongyi.ai」,并带来多项新功能。

 

网页版聊天新增深度搜索功能:支持更多内容源索引,搜索结果更加深度、专业和结构化,数字角标悬浮显示来源网页

 

App 图片微动效支持多尺寸图片:进入通义 App 频道页,选择「图片微动效」,需要上传一张图片,即可生成与画面匹配的音效及微动视频效果

 

App 自定义唱演支持 3:4 画幅(原先 1:1):音频的上传逻辑进行调整,将时长由 120S 提高到 300S

 

阿里云在 8 月 8 日的万网焕新发布会上宣布,域名产品服务完成 AI 化系列改造,推出首个域名 AI 大模型应用,并上线「.ai」等 40 余个全新的域名后缀、2000 万个全球域名资源。

 

据阿里云官方介绍,升级后的阿里云万网,实现了智能起名。用户输入只需输入品牌信息与所属行业,一键点击后,基于通义大模型就能批量生成创意域名。(@IT 之家)

 

4、Linly-Dubbing:一个开源的多语言 AI 配音和视频翻译工具

 

 

Linly-Dubbing 是开源的多语言 AI 配音和视频翻译工具,支持下载 YouTube 等网站上的视频、多语言配音和字幕翻译,能转换语音为文本、识别说话者并准确翻译,还能用声音克隆和口型同步技术,用户可上传视频、选择语言和标准。虽口型匹配效果有待提高,但整体获好评,被认为是方便视频搬运和线上会议实时字幕的有力工具。

 

主要功能

 

自动下载视频:支持从 YouTube 等网站下载视频

 

多语言支持:支持中文及多种其他语言的配音和字幕翻译。

 

AI 语音识别:精准的语音识能力,语音到文本转换和说话者识别。

 

LLM 翻译:结合领先的大语言模型(如 GPT),快速且准确地进行翻译,确保翻译的专业性和自然性。

 

声音克隆:通过声音克隆技术,生成与原视频配音高度相似的语音,保持情感和语调的一致性。

 

口型同步:通保持口型同步,使配音与视频画面高度契合,提升视频的真实性和互动性。

 

灵活上传与翻译:用户可以上传视频,自主选择翻译语言和标准,确保个性化和灵活性。(@小互 AI)

 

5、Melodisco:AI 版的网易云音乐,一个开源的 AI 播放器

 

Melodisco 是由 @idoubicc 开发的开源 AI 播放器,该项目最初的目标是创建一个 AI 版的网易云音乐,现已收录了 30 万首 AI 歌曲,并且可以通过 Vercel 进行一键部署。该播放器的主要功能包括音乐生成、歌曲排行榜、随机漫游、歌曲管理以及播放器组件。此外,Melodisco 还集成了 Stripe 支付系统,支持在线购买服务或产品。(@小互 AI)

02有态度的观点

1、中国工程院院士邬贺铨:AI 大模型仍需「大力出奇迹」、提升算力枢纽利用率

 

中国工程院院士邬贺铨 8 月 19 日在 2024 北京人工智能生态大会上表示,人工智能是新质生产力的引擎,大模型的发展仍然需要「大力出奇迹」,多措并举提升对物理世界的模拟能力。

 

邬贺铨院士指出,中国已建的算力枢纽的利用率还有较大提升空间,通过集约优化可解决目前对算力的需求。中国具有超大规模市场、海量数据资源、丰富应用场景等潜能,但数据供给质量不高、流通机制不畅、应用潜力释放不够,需加快数据基础制度建设,推动政府数据共享和开放,促进数据流通和应用。

 

邬贺铨院士表示,大模型领域存在规模化定律,模型参数量、数据集大小,以及用于训练的算力规模三因素同时放大才有最佳效果,当不受其他两个因素的制约时,大模型性能与单个因素都有幂律关系,仍然需要「大力出奇迹」。(@雷锋网)

 

写在最后:

 

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

 

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

 

 

素材来源官方媒体/网络新闻

标签:RTE,视频,翻译,万维,交互技术,AI,模型,语音,SkyReels
From: https://www.cnblogs.com/Agora/p/18370011

相关文章

  • MapStruct-plus cannot find converter from
     废话不多,直接上1错误:cannotfindconverterfrom 2描述我的情况我的项目分为2块,一块是接口,一块是实现API接口(kintech-api-bo):其中dto,req,res包含了@AutoMapper 实现(kintech-bo): 3问题当我的其他模块(kintech-crm),引用了kintech-api-bo时,调用如下语句就会报错......
  • web的发展历史,互联网和万维网的关系
    OpenSNN开思通智网,官网地址:https://w3.opensnn.com/2024年8月份"O站创作者招募计划"快来O站写文章,千元大奖等你来拿!“一起来O站,玩转AGI!”web的发展历史Web(万维网,WorldWideWeb)的发展历史是一段非常重要的技术进步和社会变革的历程。以下是Web发展的关键阶段:1.Web的诞生......
  • web的发展历史,互联网和万维网的关系
    OpenSNN开思通智网,官网地址:https://w3.opensnn.com/2024年8月份“O站创作者招募计划”快来O站写文章,千元等你来拿!“一起来O站,玩转AGI!”web的发展历史Web(万维网,WorldWideWeb)的发展历史是一段非常重要的技术进步和社会变革的历程。以下是Web发展的关键阶段:1.Web的......
  • SpringBoot依赖之Spring Data Redis一有序集合Sorted Set
    概念SpringDataRedis(Access+Driver)依赖名称:SpringDataRedis(Access+Driver)功能描述:Advancedandthread-safeJavaRedisclientforsynchronous,asynchronous,andreactiveusage.SupportsCluster,Sentinel,Pipelining,Auto-Reconnect,Codecsand......
  • Bat To Exe Converter:一键转换,让批处理脚本秒变执行神器!
    前言在数字化时代,批处理脚本(BAT文件)作为自动化任务处理的得力助手,广泛应用于系统管理和软件开发中;然而,BAT文件在执行时通常需要依赖命令行界面,这在非技术用户或非特定环境下可能会造成一定的使用障碍;为此,一款能够将BAT文件高效转换为可执行文件(EXE文件)的工具显得尤为重要;BatT......
  • pve 8.2.2 解决unsupported Ubuntu version '24.04'
    解决unsupportedUbuntuversion'24.04'问题描述:我在重装pve8.2.2恢复我的容器和虚拟机的时候,发现24.04的容器恢复时出现了如下错误:TASKERROR:unabletorestoreCT104-unsupportedUbuntuversion'24.04'在pve的论坛可以看到这篇文章:Ubuntu24.04-unsupportedUbunt......
  • Vue 报错error:0308010C:digital envelope routines::unsupported
    目录Vue报错error:0308010C:digitalenveloperoutines::unsupported方法1.打开终端(按健win+R弹出窗口,键盘输入cmd,然后敲回车)并按照说明粘贴这些:方法2.安装vnm及node版本方法3.在项目package.json文件中增加配置Vue报错error:0308010C:digitalenveloperoutine......
  • Redis中Sorted Set数据类型常用命令
    目录1.添加元素2.获取成员3.获取成员的分数4.删除元素5.获取集合的大小6.获取成员的排名7.按分数范围获取成员8.按排名范围获取成员9.增减分数10.删除指定分数范围的成员11.获取分数的范围在Redis中,SortedSet(有序集合)是一种重要的数据类型,它的每......
  • linux xxx is not in the sudoers file. This incident will be reported.
    前言linux报错:xxxisnotinthesudoersfile.Thisincidentwillbereported.这意味着用户xxx没有在sudoers文件中被授权使用sudo命令。解决su切换到root用户,报错:su:Authenticationfailure使用su-root命令,切换登录root用户成功。su:默认情况下,su命......
  • 解决GD32新建工程时提示:cannot open source input file “RTE_Components.h“
    自己在keil中搭建GD32工程后,编译会提示找不到“RTE_Components.h“这个文件。这个文件需要使用keil自动生成工程的方式才会有。如果自己手动搭建工程时,GD32的库文件中是没有提示这个文件的。那GD32的例程为什么不会报错呢?看一下例程就会发现。其它GD32提示的例程里面是没有包含......