Coqui TTS合成语音

时间：2024-12-03 18:00:09浏览次数：8

标签：idx tts TTS -- models 语音 Coqui wav

工具介绍

Coqui TTS是一个用于语音转文本的高性能深度学习模型库。提供1100种语言的预训练模型，提供训练新模型和微调已有模型的工具，提供数据集分析工具。XTTS-v2版本支持16种语言： English (en), Spanish (es), French (fr), German (de), Italian (it), Portuguese (pt), Polish (pl), Turkish (tr), Russian (ru), Dutch (nl), Czech (cs), Arabic (ar), Chinese (zh-cn), Japanese (ja), Hungarian (hu) and Korean (ko)。

安装步骤

conda安装参考 python环境搭建
conda create -n coqui 创建虚拟环境
conda activate coqui 进入虚拟环境
conda install python=3.9.20 安装python>= 3.9,< 3.12
pip install pypinyin 合成中文语音依赖库
pip install numpy 依赖库
pip install sounddevice
pip install TTS 安装Coqui TTS
如果TTS安装报错Microsoft Visual C++ 14.0 or greater is required. Get it with "Microsoft C++ Build Tools"，可用使用它的分支项目安装pip install coqui-tts

体验功能

检查支持的语言：
- tts --model_name tts_models/multilingual/multi-dataset/xtts_v2 --list_language_idx
- 同意Otherwise, I agree to the terms of the non-commercial CPML: https://coqui.ai/cpml条款, 输入Y
- 输出支持的语言：
```
Available language ids: (Set --language_idx flag to one of these values to use the multi-lingual model.
['en', 'es', 'fr', 'de', 'it', 'pt', 'pl', 'tr', 'ru', 'nl', 'cs', 'ar', 'zh-cn', 'hu', 'ko', 'ja', 'hi']
```
检查支持的播报员：
- tts --model_name tts_models/multilingual/multi-dataset/xtts_v2 --list_speaker_idx
合成案例

合成中文语音

tts --model_name tts_models/multilingual/multi-dataset/xtts_v2 --text "国家粮食和物资储备局29日发布数据显示：截至目前，全国累计收购秋粮1.2亿吨，收购进度快于上年，收购工作进展顺利。" --speaker_idx "Ana Florence" --language_idx zh --use_cuda true

指定音色文件合成

tts --model_name tts_models/multilingual/multi-dataset/xtts_v2 --text "国家粮食和物资储备局29日发布数据显示：截至目前，全国累计收购秋粮1.2亿吨，收购进度快于上年，收购工作进展顺利。" --speaker_idx "Ana Florence" --language_idx zh --speaker_wav e:/source.mp3 --use_cuda true

合成英文语音

tts --model_name tts_models/multilingual/multi-dataset/xtts_v2 --text "TTS is a library for advanced Text-to-Speech generation.TTS models that are not released open-source. They are here to show the potential. Models prefixed with a dot (.Jofish .Abe and .Janice) are real human voices." --speaker_idx "Ana Florence" --language_idx en --use_cuda true

程序合成案例

# -*- coding: UTF-8 -*-
import torch
from TTS.api import TTS
import numpy as np
import sounddevice as sd
import soundfile as sf
from datetime import datetime


device = "cuda" if torch.cuda.is_available() else "cpu"

# 列出可用模型
print(TTS().list_models())

print("开始初始化模型:", datetime.now())

# tts_models/multilingual/multi-dataset/xtts_v2是模型标识
tts = TTS("tts_models/multilingual/multi-dataset/xtts_v2").to(device)

print("初始化模型完成:", datetime.now())


# 从文件中读取文本
with open('demo.txt','r',encoding='utf-8') as source_file:
    content = source_file.read()

print("文本读取完成:", datetime.now())

# 参考语音文件，要模仿的音色
source_wav = 'source.mp3'
generated_voide = 'generated_voice.wav'
# 文本生成语音
wav = tts.tts(text=content, speaker_wav=source_wav, language="zh")
# 播放语音
rate = 22050
sd.play(wav, rate)
# 等待播放结果
sd.wait()
# 保存为文件
sf.write(generated_voide, wav, rate) 

# 文本转为语音文件直接保存
tts.tts_to_file(text=content, speaker_wav=source_wav, language="zh", file_path="example.wav")

标签：idx,tts,TTS,--,models,语音,Coqui,wav
From： https://www.cnblogs.com/cy2011/p/18580842

Hume AI 语音控制功能：创建个性化语音；李飞飞空间智能首个模型：单图生成 3D 交互场景丨 R
开发者朋友们大家好：这里是「RTE开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享RTE（Real-TimeEngagement）领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」，但内容仅代表编......
在新能源汽车智慧充电桩管理系统中，云台控制/语音对讲技术能带来哪些益处？
随着新能源汽车的普及，智慧充电桩作为其重要的配套设施，其管理方案的智能化、高效化显得尤为重要。数据显示，2024年9月比2024年8月公共充电桩增加6.6万台，同比增长35.2%。月均新增公共充电桩约7.2万台。新能源汽车保有量达到2809万辆，车桩比为2.46:1，显示出充电桩与新能源汽车的比例正在......
魔百盒M401A、CM311-1a、CM311-1sa、UNT403A、UNT413A、M411A、IP112H_S905L3A/B_开启
魔百盒M401A、CM311-1a、CM311-1sa、UNT403A、UNT413A、M411A、IP112H_S905L3A/B_开启ROOT_红外蓝牙语音_通刷线刷固件包近年来，智能电视盒子市场日新月异，而魔百盒系列凭借其高性价比和功能多样性，成为了许多家庭的首选。然而，原厂固件的限制让不少技术爱好者感到遗憾：ROOT权......
python语言语音识别程序代码
importspeech_recognitionassrr=sr.Recognizer()#调用识别器test=sr.AudioFile(“英文测试.wav”)#导入语音文件withtestassource:audio=r.record(source)type(audio)c=r.recognize_sphinx(audio,language=‘en-US’)#英文识别输出print(“识别结果：......
校园防欺凌ai语音监控系统
校园防欺凌ai语音监控系统核心优势在于其先进的音频识别算法，校园防欺凌ai语音监控系统能够识别出关键词如侮辱、恐吓、求救等敏感语言，并能够区分正常的交流和潜在的欺凌行为。系统通过安装在校园各关键区域的麦克风捕捉声音信号，这些信号会被实时传输到中央处理单元。在这里，音频数......
Perplexity 计划推出低价语音问答硬件；/dev/agents：AI Agents 的操作系统，种子轮估值 5
开发者朋友们大家好：这里是「RTE开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享RTE（Real-TimeEngagement）领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」，但内容仅代表编......
语音转文字-Microsoft Azure Speech Service与Web Speech API实战
简介在现代技术驱动的世界中，语音识别已成为人机交互的重要方式。MicrosoftAzureSpeechService提供了强大的语音转文本功能，允许开发者轻松地将语音数据转换为文本。本文将指导你如何使用AzureSpeechService实现语音转文本的功能。MicrosoftAzureSpeechService优势:......
语音 Agent 平台 PlayAI 融资 2100 万美元；英伟达音频模型 Fugatto：输入文本音频生成人
开发者朋友们大家好：这里是「RTE开发者日报」，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享RTE（Real-TimeEngagement）领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」，但内容仅代表编......
WebRTC 创建者刚加入了 OpenAI，他是如何思考语音 AI 的未来？
WebRTC的早期创建者之一，Fixie.ai联合创始人兼CTOJustinUberti近日宣布加入OpenAI，领导实时AI（Real-TimeAI）项目的开发。 Uberti在2011年于Google参与创建并领导了WebRTC项目，并推动其成为W3C和IETF标准。从最早参与AOLInstantMessenger（AIM）开......
语音识别如何让病历记录减负50%？开源免费平台一键体验
一、系统概述如何实现病历记录的高效自动化？在医疗行业中，医生因病历记录任务繁重，常难以专注于患者诊疗。思通数科推出的开源ASR语音识别技术，将医生的口述实时转化为结构化文本，支持多场景病历处理、个性化模型训练，满足高并发需求，为医疗行业提供便捷高效的记录解决方案。立即体验......

Coqui TTS合成语音

工具介绍

安装步骤

体验功能

程序合成案例

相关文章

赞助商

阅读排行