首页 > 其他分享 >Suno 重磅功能「Covers」:一键翻唱任意歌曲;阿里通义将发布 AI 视频生成大模型丨 RTE 开发者日报

Suno 重磅功能「Covers」:一键翻唱任意歌曲;阿里通义将发布 AI 视频生成大模型丨 RTE 开发者日报

时间:2024-09-18 14:50:15浏览次数:1  
标签:视频 翻唱 Google 通义 AI 模型 Covers

 

 

 

开发者朋友们大家好:

 

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

 

本期编辑:@SSN,@鲍勃

01有话题的新闻

1、Suno 又整新活,发布了重磅功能「Covers」,一键翻唱任意歌曲

 

全球著名文生音乐模型 Suno 发布了重磅功能「Covers」,可以帮助用户一键翻唱任意风格的歌曲,可以是简单的录音或完整的歌曲。例如,上传一首流行歌曲《Original》,通过 Covers 就能识别歌曲里的乐谱、乐器、节奏以及旋律等,然后按照用户选择的新风格翻唱歌曲。

 

虽然整体节奏、旋律可能有一些变化,但会保留原歌曲的核心灵魂部分同时呈现出全新的风格。简单来说,就像让 ChatGPT 去模仿一个作者的特定写法、风格,来生成自己的内容。

 

除了上传音乐之外,还支持只用一小段声音样本就能完成声音识别完成音乐创作。也有网友通过 Covers,把自己的古典作品转换成了一首摇滚风格的曲目,整体效果非常惊艳。

 

目前,Suno 已经向所有的 Pro 和 Premier 订阅用户开放了 Covers 功能,但还处于早期测试阶段,也就是说该功能还会继续迭代完善。(@AIGC 开放社区)

 

2、StoryTribe :一个免费的在线故事板制作工具 无需绘画技能轻松制作故事板

 

故事板是一种视觉工具,用于通过一系列框架描绘故事或概念,类似于漫画。它最初用于电影行业,帮助有效规划和传达想法,通过简短描述关键时刻的动作或对话。

 

StoryTribe 是一个免费的在线故事板制作工具,专为专业人士设计,适用于视频制作人、营销人员、UX 设计师等。它帮助用户快速创建高质量的故事板,无需绘画技能。

 

StoryTribe 通过可自定义的元素和简单的绘图工具,帮助用户更轻松地创作故事板。它消除了复杂的提示编写过程,鼓励用户通过简单的绘画来表达创意。(@小互 AI)

 

3、阿里通义将发布 AI 视频生成大模型,支持文生视频、图生视频

 

 

 

消息称,阿里通义将在 2024 云栖大会(9 月 19 日至 9 月 21 日)期间发布视频生成大模型,目前通义 App 频道和通义万相 PC 端已上线「视频生成」入口,仅支持用户预约,但未开放使用。

 

页面内容显示,全新发布的视频生成大模型是由通义实验室自主研发,包含「文生视频」和「图生视频」两种创作模式。

 

据测试,预约成功后,阿里通义会在用户获得使用资格时进行通知,并赠送给用户 66 灵感值(有效期 30 天)。(@IT 之家)

 

4、英伟达开源 Nemotron-Mini-4B-Instruct 小语言 AI 模型:专为角色扮演设计,9216 MLP、上下文长度 4096 词元

 

 

 

据报道称,英伟达开源了 Nemotron-Mini-4B-Instruct AI 模型,标志着该公司在 AI 领域创新又一新篇章。

 

Nemotron-Mini-4B-Instruct AI 模型专为角色扮演、检索增强生成(RAG)及函数调用等任务设计,是一个小语言模型(SLM),通过蒸馏(distilled)和优化更大的 Nemotron-4 15B 获得。

 

英伟达使用剪枝(pruning)、量化(quantization)和蒸馏(distillation)等先进 AI 技术,让该模型更小巧高效,尤其适用于设备端部署。这种缩小化并未影响模型在角色扮演和功能调用等特定场景下的性能,让其成为需要快速按需响应的应用的实用选择。

 

该模型在 Minitron-4B-Base 模型上微调,采用了 LLM 压缩技术,最显著的特点之一是其能够处理 4096 个上下文窗口词元(token),能够生成更长且更连贯的回复。

 

Nemotron-Mini-4B-Instruct 在角色扮演应用领域表现尤为突出,能够凭借其庞大的标记容量和优化的语言生成能力,嵌入到虚拟助手、视频游戏或任何其他需要 AI 生成关键响应的交互式环境中。

 

英伟达提供了特定的提示格式,以确保模型在这些场景中,尤其是在单轮或多轮对话中,输出最佳结果。该模型还针对函数调用进行了优化,在 AI 系统必须与 API 或其他自动化流程交互的环境中变得越来越重要。生成准确、功能性响应的能力使得该模型非常适合 RAG 场景,即模型需要创建文本并从知识库中检索和提供信息。(@IT 之家)

 

5、学者陶哲轩:o1 表现还不错,能当研究生用,但没有自己的思想

 

数学家、AI 学者陶哲轩近日在 Mastodon 平台上发文,表示自己已经提前试用了 OpenAI 新模型 o1 的更新版本,并发表了自己的体验和观点。

 

陶哲轩给新模型提出了一些具有挑战性的复杂分析问题,结果比 GPT4 要更好,能当研究生用,但仍然有点令人失望。陶哲轩认为,新模型可以以自己的方式得出良好的解决方案,但没有产生属于自己的关键概念思想,也犯了一些不小的错误。他形容自己使用 o1 的过程:「这种经历似乎与试图给一个平庸但并非完全不称职的研究生提供建议的经历差不多。」( @APPSO)

02有态度的观点

1、谢尔盖·布林:Google 不敢用 Transformer,作者剩一人了,现在我每天都在写代码

 

Google 创始人谢尔盖·布林在 All-In 峰会现场分享了他重返技术一线编写代码的原因,是因为 AI 领域的进展太过激动人心,作为计算机科学家,他不愿意错过这一波浪潮。

 

他认为 AI 技术将带来更广泛的变革,不仅限于搜索的延伸,还将影响编程和机器人学。相比于专精于某个领域的「专家模型」,布林更看好通用模型,Google 成功拿下 IMO 银牌模型,这源于 Google 在之前开始将形式证明模型中的某些知识和能力融合到通用语言模型之中的尝试。

 

布林指出 Google 在 AI 应用上存在一些「犹豫不决」的「保守」企业文化,这导致了风险规避和频繁裁员问题。布林表示,「虽然 AI 偶尔会犯大错,但更应及时发布。AI 不是那种你紧紧捂在怀里、隐藏起来、直到它变得完美无缺的技术。」他认为比 AI「犯蠢」更可怕的是,几年前的 Google 太胆小,不敢部署 Transformer,论文作者曾都离职了。

 

布林认为 AI 对人类有巨大价值,值得投入关注。他强调 AI 领域的竞争对发展有益,Google 会继续密切关注模型排行榜。(@APPSO)

 

写在最后:

 

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

 

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

 

 

素材来源官方媒体/网络新闻

标签:视频,翻唱,Google,通义,AI,模型,Covers
From: https://www.cnblogs.com/Agora/p/18418471

相关文章

  • AI的高危业务,MIT研究人员列出超过750种AI风险
    带有黄色警戒线的机器人手(AI被视为对人类威胁的概念)如果你认为AI生成的深度伪造或AI机器人取代工作是这项新兴技术的主要问题,请再想一想。来自麻省理工学院和澳大利亚昆士兰大学的研究人员决定,编制一份AI版本的《八百万种死法》已经迫在眉睫。作为这项回顾性分析的一部分,团队......
  • 如何利用AI进行有效的科技产品发布
    如果你们公司即将推出一款具有颠覆性的软件,你大概已经了解了科技在现代市场中的价值。但像AI这样的技术不仅仅是有效的产品组成部分,它们还可以帮助将这些产品推向客户(或安装到他们的电脑上)。KunoCreative明白AI在科技营销中的作用日益重要,我们可以帮助你们公司利用AI,为成功......
  • 【机器学习】多模态AI——融合多种数据源的智能系统
    随着人工智能的快速发展,单一模态(如文本、图像或语音)已经不能满足复杂任务的需求。多模态AI(MultimodalAI)通过结合多种数据源(如文本、图像、音频等)来提升模型的智能和表现,适用于多样化的应用场景,如自动驾驶、医疗诊断、跨语言翻译等。一、多模态AI简介多模态AI是一种将不同......
  • Docker拉取镜像报错:failed to register layer: exit status 22: unpigz: abort: zlib
    今天在甲方的服务器上升级Docker容器时拉取镜像报错failedtoregisterlayer:exitstatus22:unpigz:abort:zlibversionlessthan1.2.3,很纳闷明明在阿里云上测试的时候没有这个问题来着,遂开始查资料发现是pigz的bug,将其升级即可重写拉取镜像运行操作步骤:安装新版本c......
  • baidu文心智能体开发记录
    个人真实记录baidu文心智能体开发过程1进入文心智能通平台(https://agents.baidu.com/center),没有baidu账号的要先注册baidu账号;2点击左侧创建智能体按钮3输入你想要的智能体名称,根据你的需要进行人物设定,点击立即创建;比如:我创建智能体名称: 午夜恐怖故事设定: 你......
  • 【2024年最新】AI教程-AI大模型知识,零基础入门到精通
    1、什么是AIAI(ArtificialIntelligence)是人工智能的缩写,通俗地讲,AI就是让机器或计算机系统能够模仿、延伸和扩展人类的智能,执行一些通常需要人类智能才能完成的任务。AI的目标是让机器能够胜任一些通常需要人类智能才能完成的复杂工作。AI可以让机器......
  • 【AI大模型-什么是大模型】
    一、定义与适用范围大模型(LargeModels):人工智能大模型是指拥有超大规模参数(通常在十亿个以上)、复杂计算结构的机器学习模型。它通常能够处理海量数据,完成各种复杂任务,如自然语言处理、图像识别等。它是一个更广泛的术语,不特指语言模型,可以涵盖所有类型的深度学习模型。......
  • GEE 案例:利用UCSB-CHG/CHIRPS/DAILY数据采用非监督分类实现某区域的降水区域的划分
    目录简介数据函数ee.Clusterer.wekaKMeans(nClusters, init, canopies, maxCandidates, periodicPruning, minDensity, t1, t2, distanceFunction, maxIterations, preserveOrder, fast, seed)Arguments:Returns: Clusterer代码结果简介利用UCSB-CHG......
  • unable to find a medium containing a live file system
    所有方法尝试了,仍然没有解决问题,refus、UltraISO都尝试重新做了启动盘……在尝试使用U盘安装Ubuntu时遇到“unabletofindamediumcontainingalivefilesystem”的错误,可能是由多种原因引起的。以下是一些可能的解决方案:检查ISO文件的完整性:确保你下载的UbuntuISO文件......
  • Python Email库:发送与接收邮件完整指南!
    PythonEmail库如何集成?怎么优化PythonEmail库性能?Python作为一种强大的编程语言,提供了丰富的库来处理电子邮件,其中最著名的就是PythonEmail库。AokSend将深入探讨如何使用PythonEmail库来发送和接收邮件,帮助你掌握这一关键技能。PythonEmail库:安装配置只需确保你的Pyt......