Spark-TTS 是一个先进的文本转语音系统,利用大型语言模型(LLM)的强大功能,实现高度准确和自然的声音合成。它具有以下主要特点:
高效性:基于 Qwen2.5 构建,直接从 LLM 预测的代码重建音频,无需额外的生成模型。
零样本语音克隆:支持在没有特定训练数据的情况下复制说话者的声音,适用于跨语言和代码切换场景。
双语支持:支持中文和英文,并能够进行自然流畅的语音合成。
可控语音生成:通过调整性别、音高和语速等参数创建虚拟说话者。
高质量语音合成:即使在低比特率下也能提供高保真语音重建。

- Spark-TTS整合包(由 油管博主 王知风分享)
百度网盘: Spark-TTS 提取码: z62c
国外网盘: Spark-TTS