ChatTTS 是一款专为对话场景设计的语音生成模型,特别适用于大型语言模型(LLM)助手的对话任务,以及对话音频和视频介绍等应用。它支持中文和英文,通过使用大约10万小时的中英文数据进行训练,ChatTTS 在语音合成方面展示了高质量和自然度。
多语言支持 ChatTTS 的关键特性之一是其对多种语言的支持,包括英文和中文。这使得它能够服务于广泛的用户群体,克服语言障碍。
大数据训练 ChatTTS 使用了大量的数据进行训练,大约1000万小时的中英文数据。这种广泛的训练导致了高质量和自然声音的语音合成。
对话任务兼容性 ChatTTS 非常适合处理通常分配给大型语言模型(LLMs)的对话任务。它可以生成对话的响应,并在集成到各种应用和服务中时提供更自然流畅的互动体验。
开源计划 项目团队计划开源一个训练过的基础模型。这将使社区中的学术研究人员和开发者能够进一步研究和开发这项技术。
控制与安全 团队致力于提高模型的可控性,添加水印,并将其与LLMs集成。这些努力确保了模型的安全性和可靠性。
易用性 ChatTTS 为用户提供了易于使用的体验。它只需要文本信息作为输入,即可生成相应的语音文件。这种简单性使得有语音合成需求的用户非常方便。
如何使用 ChatTTS? 只需几个简单的步骤,就可以开始使用 ChatTTS。
- 从 GitHub 下载
从 GitHub 下载代码。
git clone https://github.com/2noise/ChatTTS
- 安装依赖
在开始之前,确保你已经安装了必要的包。你需要 torch 和 ChatTTS。如果还没有安装,可以使用 pip 安装:
pip install torch ChatTTS
- 导入所需库
为你的脚本导入必要的库。你需要 torch, ChatTTS, 和 Audio from IPython.display
import torch
import ChatTTS
from IPython.display import Audio
- 初始化 ChatTTS
创建 ChatTTS 类的实例并加载预训练模型。
chat = ChatTTS.Chat()
chat.load_models()
- 准备你的文本
定义你想要转换为语音的文本。用你想要的文本替换
<YOUR TEXT HERE>
。texts = ["你好,欢迎使用 ChatTTS!"]
- 生成语音
使用 infer 方法从文本生成语音。设置
use_decoder=True
以启用解码器。wavs = chat.infer(texts, use_decoder=True)
- 播放音频
使用 IPython.display 的 Audio 类播放生成的音频。设置采样率为 24,000 Hz 并启用自动播放。
Audio(wavs[0], rate=24_000, autoplay=True)
- 完整脚本
以下是完整脚本供参考:
import torch
import ChatTTS
from IPython.display import Audio
# 初始化 ChatTTS
chat = ChatTTS.Chat()
chat.load_models()
# 定义要转换为语音的文本
texts = ["你好,欢迎使用 ChatTTS!"]
# 生成语音
wavs = chat.infer(texts, use_decoder=True)
# 播放生成的音频
Audio(wavs[0], rate=24_000, autoplay=True)