首页 > 其他分享 >打造你的专属语音助手,基于函数计算托管 CosyVoice 语音模型

打造你的专属语音助手,基于函数计算托管 CosyVoice 语音模型

时间:2024-10-11 15:23:05浏览次数:8  
标签:API 专属 300M CosyVoice client result 语音

作者:寒斜

目前,声音的推理和合成在很多领域都有广泛的应用,比如儿童/成人教育、疗愈/陪伴、销售/客服、游戏 NPC、车载通信,工/农业线下辅助等。CosyVoice 是一款优秀的语音合成模型,支持语音合成、情感控制、多语言语音合成等诸多功能,效果体验极佳。然而,对于很多普通用户和应用开发者而言,托管其专属模型,进行使用或者应用开发比较困难,今天分享一下,基于阿里云函数计算 FC 以及 CAP(云应用开发平台),极速托管专属的 CosyVoice 应用。并且我们提供了 API 调用方案以及镜像构建源码方便您根据自己的业务任意 DIY。

CosyVoice 部署托管

Step1 访问阿里云函数计算控制台 [ 1] ,打开应用中心

选择 CosyVoice 智能语音应用模板,进行部署。

Step2 根据应用配置引导填写,点击“创建应用”

Step3 产品依赖确认,部署详细

点击后进行部署。

进入部署。

Step4 访问 web 界面

您可以直接在线体验预置语音生成、定制语音生成、高级语音生成三个模块。

API 调用

获取 EndPoint

CosyVoice 部署完毕之后,可以进行 API 调用。首先是需要获取 API 的 endpoint,这里有两个地址。

临时域名地址(30 天访问期)

Http 触发器地址(永久地址)

注: http 触发器地址因安全限制直接访问无法看到 web 页面,但是可以通过 http 访问 api。)

使用 API Recorder 调试

通过 API  Recorder,仅需点击 Web UI 页面即可获取访问 API 的相关代码示例,非常方便。下面演示一下如何使用 API Recorder 进行 API 获取。

Step1 打开 API Recorder

Step2 回到 Web UI 进行语音合成访问(上传声音文件,点击生成音频)

Step3 查看调用记录和生成的 API 示例代码

本地调试代码

以上生成的代码可以直接在本地安装调试,为了进一步方便实用,下面提供示例代码,完整的代码获取 [ 2]

声音推理

声音推理较为简单,复制以下代码(需要安装 gradio_client),修改 cosyvoice_endpoint 地址即可。

from gradio_client import Client
import os
import shutil


cosyvoice_endpoint = "<endpoint>"
client = Client(cosyvoice_endpoint)

result = client.predict(
    _sound_radio="中文女",
    _synthetic_input_textbox="天天好心情,我们走的每一步,都是我们策略的一部分;你看到的所有一切,包括我此刻与你交谈,所做的一切,所说的每一句话,都有深远的含义。",
    _seed=0,
    api_name="/generate_audio"
)
# result 是返回的本地音频地址
# 把result 保存到当前的目录下
audio_filename = "preset.mp3"
shutil.copy(result, audio_filename)
# 删除原始的 音频
os.remove(result)

语音合成

新建 custom.py 文件,并复制这段代码(需要安装 gradio_client)。


import os
import shutil
from gradio_client import Client, file
cosyvoice_endpoint = "endpoint"
uploaded_voice_path = ""
client = Client(cosyvoice_endpoint)

result = client.predict(
  _recorded_audio1=file(f"{cap_cosyvoice_endpoint}file={uploaded_voice_path}"),
  _recorded_audio2=None,
  _prompt_input_textbox="今天的不开心就止于此吧,明天依旧光芒万丈哦",
  _language_radio="same",
  _synthetic_input_textbox="来来来,我们走的每一步,都是我们策略的一部分;你看到的所有一切,包括我此刻与你交谈,所做的一切,所说的每一句话,都有深远的含义。",
  _seed=0,
  _audio_input_type_radio="upload_audio",
  api_name="/generate_audio_1"
)

print(result)

# result 是返回的本地音频地址
# 把result 保存到当前的目录下
audio_filename = "custom.mp3"
shutil.copy(result, audio_filename)

# 删除原始的 音频
os.remove(result)

高级情感Å

from gradio_client import Client

client = Client("<endpoint>")
result = client.predict(
    _sound_radio="中文女",
    _synthetic_input_textbox="Hello!!",
    _seed=0,
    api_name="/generate_audio"
)
print(result)

补充

对于声音推理,由于 Serverless 实例会轮转(比如无调用实例会被释放),无法持久化存储被合成的语音,所以如果您希望持久化存储所合成的语音,使其能够提供长期的 API 服务,需要增加阿里云文件存储产品 NAS 存储解决,函数计算挂载 NAS 非常简单,如下示例。

挂载 NAS

配置好之后获取 NAS 文件路径。

配置 CosyVoice 文件存储环境变量

之后重新使用 API Recorder 录制语音合成 API ,会发现 上传录制文件后的视频地址已经固定为 NAS 的地址了,接下来您便可以长久使用这个合成的声音了。

如何更新 CozyVoice 以及如何对后端服务修改定制

函数计算 CosyVoice 应用模版同步社区的更新存在滞后性,如果您希望体验社区最新的模型效果,本方案提供了 CozyVoice 构建的完整代码 [ 3] ,支持您进行更新。

您可以更新代码工程,重新构建新的 Docker 镜像,将 Docker 镜像上传至阿里云容器镜像服务 ACR 服务。

然后修改函数计算上的镜像配置即可。

注意,上述源码的 CosyVoice-300M 工程中不包含模型, 需要先将对应的模型下载到本地,然后构建镜像。

cd CozyVoice-300M
mkdir -p pretrained_models
git clone https://www.modelscope.cn/iic/CosyVoice-300M.git pretrained_models/CosyVoice-300M
git clone https://www.modelscope.cn/iic/CosyVoice-300M-SFT.git pretrained_models/CosyVoice-300M-SFT
git clone https://www.modelscope.cn/iic/CosyVoice-300M-Instruct.git pretrained_models/CosyVoice-300M-Instruct
git clone https://www.modelscope.cn/iic/CosyVoice-ttsfrd.git pretrained_models/CosyVoice-ttsfrd

还需要 audioseal 文件,可以从魔搭创空间获取 [ 4]

点击链接,立即部署:https://fcnext.console.aliyun.com/applications/ai/create?template=109

相关链接:

[1] 阿里云函数计算控制台

https://fcnext.console.aliyun.com/applications/create

[2] 代码获取

https://github.com/hanxie-crypto/serverless_ai_cosyvoice

[3] 完整代码

https://github.com/hanxie-crypto/serverless_ai_cosyvoice

[4] 魔搭创空间获取

https://modelscope.cn/studios/iic/CosyVoice-300M/files

标签:API,专属,300M,CosyVoice,client,result,语音
From: https://www.cnblogs.com/alisystemsoftware/p/18458493

相关文章

  • ​“雷军”语音包,你是真的火了!
    “国庆期间上网被‘雷军’骂了整整七天”?“雷军”语音包,你是真的火了!据悉,这个假期,短视频平台上涌现了大量“雷军”的发言视频,涉及堵车、调休、游戏等热门话题,不仅言辞犀利,还频频爆粗口。这些视频无一例外都是通过AI配音生成的。目前,相关短视频已被平台陆续下架。记得之前“Ar......
  • C#利用Vosk开源模型语音识别
    #C#利用Vosk开源模型语音识别#bywgscd模型下载:VOSKModels(alphacephei.com) 找到chinese Chinese    vosk-model-small-cn-0.2242M23.54(SpeechIO-02)38.29(SpeechIO-06)17.15(THCHS)LightweightmodelforAndroidandRPiApache2.0vosk-mode......
  • c语音常见内存问题
    内存划分:一、静态区1、内存越界:数据区内存越界主要指读写某一数据区内存(如全局或静态变量、数组或结构体等)时,超出该内存区域的合法范围读越界和写越界读越界表示读取不属于自己的数据,如读取的字节数多于分配给目标变量的字节数。若所读的内存地址无效,则程序立即崩溃;若所读的内......
  • OpenAI 旧金山开发者大会发布五大创新功能 实时语音、视觉微调、模型蒸馏
    在10月1日的 OpenAI旧金山开发者大会(DevDay) 上。OpenAI 公布了五项重大创新,其中“实时API”(RealtimeAPI)的新功能,使得开发者能够创建具有低延迟、AI生成的语音响应功能的应用程序。尽管这一功能不完全等同于ChatGPT的高级语音模式,但其能力已经非常接近,旨在帮助开发者......
  • 语音助手Antenna(长期更新)
    【目标】制作一个个人的语音助手随时能聊天,核心要求是能够了解我,包括能够认识我周围的人,知晓我的生活经历,同时也能够连接网络搜索内容,为我提供知识。强调一个私人性,得知道我的个人信息并能聊起来。按照现在大模型的发展速度,肯定已经、或即将有这种东西了,但是一是不想付费,二是自己......
  • 一文带你入门客制化键盘,打造专属打字利器
    我用过不少键盘,但是都不太符合自己的需求,最后还是走向了客制化。客制化,可以理解为自定义、DIY,自己动手拼装出一把只属于自己的键盘。本文会对客制化做个简单的介绍,旨在读者能自己简单拼装出一款键盘。目前市面上有很多不错的量产的键盘,质量好且美观。我们客制化键盘的目的是弄......
  • 实时语音交互,打造更加智能便捷的应用
    随着人工智能和自然语言处理技术的进步,用户对智能化和便捷化应用的需求不断增加。语音交互技术以其直观的语音指令,革新了传统的手动输入方式,简化了用户操作,让应用变得更加易用和高效。通过语音交互,用户可以在不方便使用触屏操作例如驾驶、烹饪时通过语音指令进行操作;在需要输入大......
  • 实时语音交互中文基准首期测评出炉;美取消 SB-1047 法案,大模型厂商大难不死丨 RTE 开发
       开发者朋友们大家好: 这里是「RTE开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享RTE(Real-TimeEngagement)领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」,但内容仅代表编......
  • GPT-SoVITS语音合成模型实践
    1.概述GPT-SoVITS是一款开源的语音合成模型,结合了深度学习和声学技术,能够实现高质量的语音生成。其独特之处在于支持使用参考音频进行零样本语音合成,即使没有直接的训练数据,模型仍能生成相似风格的语音。用户可以通过微调模型,进一步提升其性能,以适应特定的应用需求。2.内容2.1......
  • yy语音找不到qjpeg4.dll怎么办?YY语音qjpeg4.dll修复大全:多种方法总有一款适合你
    当YY语音找不到qjpeg4.dll文件时,这通常意味着系统或YY语音的安装目录中缺少了必要的动态链接库文件。以下是一些修复方法,你可以根据自己的情况选择适合的一种或多种方法尝试解决:1.重新安装YY语音步骤:卸载当前版本的YY语音。清除可能残留的旧文件或注册表项(可选步骤,如果卸......