IndexTTS：哔哩哔哩开源的情感表达与时长可控的语音合成大模型

什么是IndexTTS？¶

IndexTTS是由哔哩哔哩（Bilibili）团队开发并开源的一款工业级文本转语音（TTS）大模型，代表了当前语音合成领域的最先进技术。该项目在GitHub上已获得广泛关注，成为AI语音合成领域备受瞩目的开源项目。在AI225导航，我们致力于为用户提供最全面的AI工具介绍，本文将详细介绍IndexTTS的技术特点、应用场景和使用方法。

项目GitHub地址：https://github.com/index-tts/index-tts

IndexTTS项目包含三个主要版本：
- IndexTTS-1.0：初始版本，专注于高质量的语音合成和零样本语音克隆（2025/03/25发布）
- IndexTTS-1.5：改进版本，显著提升模型稳定性及英文表现（2025/05/14发布）
- IndexTTS-2：最新版本，在保留原有功能的基础上，新增了精确时长控制和情感解耦控制等创新功能（2025/09/08发布）

本文将主要介绍功能最全面的IndexTTS-2版本。

IndexTTS基于自回归架构，在长达6万小时的语音数据上进行了训练，使其在语音自然度和表现力方面达到业界领先水平。

核心技术特点¶

1. 零样本语音克隆¶

IndexTTS最引人注目的功能是其零样本语音克隆能力。用户只需提供一个非常短的（例如5-10秒）目标说话人的音频样本，IndexTTS就能学习该说话人的音色和风格，并用这个音色合成任何输入的文本。这种能力使得：

无需针对特定说话人进行额外训练
支持跨语种语音克隆（如用中文音色合成英文语音）
保持高度自然的语音表现力

2. 精确时长控制（IndexTTS-2创新）¶

IndexTTS-2是首个支持精确时长控制的自回归TTS模型，解决了传统自回归模型难以精确控制语音时长的难题。注意：精确时长控制功能在本版本中暂未开放。 该功能特别适合：

视频配音等需要严格音画同步的应用场景
广播电台等有时间限制的内容制作
多媒体内容创作中的精确时间控制

IndexTTS-2支持两种生成模式：
- 可控模式：通过明确指定生成的token数量实现精确时长控制
- 自然模式：自由生成语音，保持输入提示的韵律特征

3. 情感表达与解耦控制（IndexTTS-2创新）¶

IndexTTS-2实现了情感特征与说话人音色的解耦（Emotion-Speaker Disentanglement），使用户能够：

独立控制音色和情感
用一段音频保留音色，再用另一段不同情感的音频或文本描述赋予情绪
在零样本条件下，精准还原目标音色并完全重现指定情绪

情感控制支持多种方式：
- 情感参考音频：通过提供情感参考音频来控制合成语音的情感
- 情感向量：直接指定8维情感向量 [高兴, 愤怒, 悲伤, 害怕, 厌恶, 忧郁, 惊讶, 平静]，每个维度数值范围为0.0-1.0
- 文本情感描述：通过自然语言描述来控制情感，降低使用门槛

4. 高自然度和清晰度¶

IndexTTS经过数万小时语音数据的训练，能够生成：

高度自然、清晰且富有表现力的语音
在客观和主观评估中都显示出超越许多其他开源TTS系统的性能
支持通过标点符号精确控制停顿位置
支持使用拼音纠正中文字符的发音

技术架构¶

IndexTTS基于GPT风格架构，在以下几个方面进行了创新：

三阶段训练范式¶

为提升高情感表达下的语音清晰度，IndexTTS2引入了GPT潜在表示，并设计了三阶段训练策略：

基础训练：在大规模语音数据上进行预训练
情感解耦训练：实现情感与音色的解耦
稳定性优化：提升生成语音的稳定性

软指令机制¶

基于Qwen3微调实现了"软指令"机制，允许用户通过自然语言描述来直观控制情绪方向，大大降低了情感控制的使用门槛。

特征融合策略¶

设计了专门的特征融合策略，在高情感表达下保持语义流畅与发音清晰，确保情感表达不会影响语音的可理解性。

应用场景¶

1. 内容创作¶

视频配音：精确控制语音时长，实现完美的音画同步
有声读物：根据文本内容自动调整情感表达，增强听众体验
播客制作：快速生成高质量语音内容，支持多种情感风格

注意：精确时长控制功能在本版本中暂未开放。

2. 虚拟助手与数字人¶

虚拟主播：创建具有特定音色和情感表达能力的虚拟主播
数字分身：为公众人物或普通用户创建数字语音分身
游戏角色：为游戏角色赋予独特的声音和情感表达能力

3. 无障碍应用¶

语音辅助：为视障人士提供更自然的语音反馈
语言学习：提供标准发音和多种情感表达的语音示例
交流辅助：帮助语言障碍者表达情感和意图

4. 商业应用¶

客服系统：提供更自然、更富情感的客户服务语音
广告配音：根据产品特性和目标受众调整语音风格
品牌声音：创建独特的品牌声音标识

快速上手指南¶

环境配置¶

安装依赖：

git clone https://github.com/index-tts/index-tts.git && cd index-tts
git lfs install
git lfs pull
pip install -U uv
uv sync --all-extras

重要警告：IndexTTS项目只支持uv安装方法。使用其他工具（如conda或pip）可能会导致随机错误、缺少GPU加速等各种问题。
可选功能说明：
- --all-extras：安装全部可选功能
- --extra webui：安装WebUI支持（推荐）
- --extra deepspeed：安装DeepSpeed加速
注意：可去除--all-extras只安装核心功能

下载模型：

通过HuggingFace下载：

uv tool install "huggingface_hub[cli]"
hf download IndexTeam/IndexTTS-2 --local-dir=checkpoints

通过ModelScope下载（国内用户推荐）：

uv tool install modelscope
modelscope download --model IndexTeam/IndexTTS-2 --local_dir checkpoints

下载平台	IndexTTS-2	IndexTTS-1.5	IndexTTS
HuggingFace	IndexTeam/IndexTTS-2	IndexTeam/IndexTTS-1.5	IndexTeam/Index-TTS
ModelScope	IndexTeam/IndexTTS-2	IndexTeam/IndexTTS-1.5	IndexTeam/Index-TTS

注意：如果网络访问HuggingFace较慢，建议提前设置：
export HF_ENDPOINT="https://hf-mirror.com"

基本使用¶

1. Web界面¶

uv run webui.py

浏览器访问 http://127.0.0.1:7860 即可使用图形界面进行语音合成。

您还可以通过以下命令查看所有可用选项：

uv run webui.py -h

重要提示：使用FP16（半精度）推理可以加快速度并减少VRAM使用，质量损失很小。DeepSpeed可能会在某些系统上加快推理速度，但也可能使其变慢。性能影响高度依赖于您的具体硬件、驱动程序和操作系统。
Windows注意： DeepSpeed在部分Windows环境较难安装，可去除--all-extras参数。

2. Python脚本调用¶

重要提示：运行脚本时，必须使用uv run <file.py>命令确保代码在当前的"uv"环境中运行。有时还需要将当前目录添加到PYTHONPATH，以帮助它找到IndexTTS模块。

示例通过uv运行脚本：

PYTHONPATH="$PYTHONPATH:." uv run indextts/infer_v2.py

基本语音克隆：

from indextts.infer_v2 import IndexTTS2
tts = IndexTTS2(cfg_path="checkpoints/config.yaml", model_dir="checkpoints", use_fp16=False, use_cuda_kernel=False, use_deepspeed=False)
text = "这是一段测试文本，用于演示IndexTTS的语音克隆功能。"
tts.infer(spk_audio_prompt='examples/voice_01.wav', text=text, output_path="gen.wav", verbose=True)

带情感控制的语音合成：

from indextts.infer_v2 import IndexTTS2
tts = IndexTTS2(cfg_path="checkpoints/config.yaml", model_dir="checkpoints", use_fp16=False, use_cuda_kernel=False, use_deepspeed=False)
text = "今天天气真好，我们一起去公园玩吧！"
tts.infer(spk_audio_prompt='examples/voice_07.wav', text=text, output_path="gen.wav", emo_audio_prompt="examples/emo_happy.wav", verbose=True)

使用文本情感描述：

from indextts.infer_v2 import IndexTTS2
tts = IndexTTS2(cfg_path="checkpoints/config.yaml", model_dir="checkpoints", use_fp16=False, use_cuda_kernel=False, use_deepspeed=False)
text = "快躲起来！是他要来了！他要来抓我们了！"
emo_text = "你吓死我了！你是鬼吗？"
tts.infer(spk_audio_prompt='examples/voice_12.wav', text=text, output_path="gen.wav", emo_alpha=0.6, use_emo_text=True, emo_text=emo_text, use_random=False, verbose=True)

情感向量控制：

from indextts.infer_v2 import IndexTTS2
tts = IndexTTS2(cfg_path="checkpoints/config.yaml", model_dir="checkpoints", use_fp16=False, use_cuda_kernel=False, use_deepspeed=False)
text = "哇塞！这个爆率也太高了！欧皇附体了！"
# 情感向量：[happy, angry, sad, afraid, disgusted, melancholic, surprised, calm]
# 数值范围：0.0-1.0
tts.infer(spk_audio_prompt='examples/voice_10.wav', text=text, output_path="gen.wav", emo_vector=[0, 0, 0, 0, 0, 0, 0.45, 0], use_random=False, verbose=True)

注意：
- emo_alpha参数控制情感强度，范围0.0-1.0，默认1.0
- emo_vector参数为8维情感向量，分别对应：[快乐, 愤怒, 悲伤, 恐惧, 厌恶, 忧郁, 惊讶, 平静]
- 启用随机采样(use_random=True)会降低语音克隆的保真度

拼音使用提示：

IndexTTS2支持中文汉字和拼音的混合建模。当您需要精确的发音控制时，请提供带有特定拼音注释的文本以激活拼音控制功能。请注意，拼音控制并非适用于所有可能的辅音-元音组合，仅支持有效的汉语拼音情况。有关完整有效条目列表，请参阅checkpoints/pinyin.vocab。

示例：

之前你做DE5很好，所以这一次也DEI3做DE2很好才XING2，如果这次目标完成得不错的话，我们就直接打DI1去银行取钱。

性能评估¶

根据官方公布的测试数据，IndexTTS在多个评估指标上表现出色：

词错误率：低于当前最先进的零样本TTS模型
说话人相似度：高度还原目标说话人的音色特征
情感保真度：准确表达指定的情感状态
语音自然度：接近或优于人类基准水平

特别是在IndexTTS2版本中，通过引入情感解耦和时长控制等创新技术，模型在保持高自然度的同时，实现了更精确的控制能力。

硬件要求¶

IndexTTS对硬件有一定要求，推荐配置如下：

GPU显存：至少8GB
系统：支持Linux和Windows
CUDA版本：建议使用12.8或更新版本

重要提示：DeepSpeed在部分Windows环境较难安装，可去除--all-extras参数。

对于资源有限的用户，可以通过启用FP16推理来降低显存使用，虽然会有轻微的质量损失，但能显著提升推理速度并减少资源占用。

提示：可以使用项目提供的工具检查PyTorch GPU加速情况：
uv run tools/gpu_check.py

社区与支持¶

IndexTTS拥有活跃的开发社区，用户可以通过以下方式获取支持和参与讨论：

GitHub仓库：https://github.com/index-tts/index-tts
QQ群：553460296(1群) 663272642(4群)
Discord：https://discord.gg/uT32E7KDmy
邮箱：indexspeech@bilibili.com

未来展望¶

IndexTTS团队正在积极开发新功能，未来计划包括：

多语言支持：扩展支持更多语言，包括英语、日语等
更高效的模型：通过模型压缩和量化技术，降低资源需求
更自然的情感表达：进一步提升情感表达的自然度和多样性
实时语音合成：优化推理速度，实现低延迟的实时语音合成
更多声音选择：增加预训练声音模型的数量和多样性

项目团队也欢迎社区贡献，包括代码改进、新功能建议、错误报告等。如果您对IndexTTS感兴趣，可以通过GitHub仓库参与项目发展。

总结¶

IndexTTS作为哔哩哔哩开源的语音合成大模型，代表了当前TTS技术的最前沿水平。其核心优势包括：

零样本语音克隆：只需短音频样本即可克隆任意说话人音色
精确时长控制：首个支持精确时长控制的自回归TTS模型
情感解耦控制：独立控制音色和情感，提供多种情感控制方式
高自然度：在多个评估指标上超越现有模型，接近人类水平

无论是内容创作者、开发者还是研究人员，都可以从IndexTTS的强大功能中受益。随着项目的不断发展和完善，我们有理由相信IndexTTS将在语音合成领域发挥越来越重要的作用。

想了解更多AI工具使用技巧？请访问AI225导航，我们提供最全面的AI工具使用指南和资源。