MOSS-TTSD 基于 Qwen3-1.7B-base 模型进行继续训练,采用离散化的语音序列建模方法,在约一百万小时单说话人语音数据和四十万小时对话语音数据上进行训练,支持中英双语的语音合成。MOSS-TTSD 具备多样的生成形式,支持最长 960 秒的音频生成,可以一次性生成超长语音,避免了拼接语音片段之间的不自然过渡。这使得 MOSS-TTSD 特别适合播客、影视配音、长篇访谈、数字人对话带货等应用场景。包括支持上传一整个对话片段或单个说话人音频来进行音色克隆。MOSS-TTSD 能够根据完整的多人对话文本,直接生成高质量对话语音,并准确捕捉对话中的韵律变化和语调特性,实现超高拟人度的逼真对话语音合成。

MOSS-TTSD是什么
MOSS-TTSD(Text to Spoken Dialogue)是开源的口语对话语音生成模型。能将文本对话脚本转化为自然流畅、富有表现力的对话语音,支持中英文双语生成。模型基于先进的语义-音学神经网络音频编解码器和大规模预训练语言模型,结合了超过100万小时的单人语音数据和40万小时的对话语音数据进行训练。支持零样本语音克隆,能根据对话脚本生成准确的对话者切换语音,适用于AI播客、访谈、新闻报道等多种场景。

MOSS-TTSD的主要功能
- 高表现力对话语音生成:能将对话脚本转换为自然、富有表现力的对话语音,准确捕捉对话中的韵律、语调等特性。
- 零样本多说话人音色克隆:支持根据对话脚本生成准确的对话者切换语音,无需额外样本即可实现两位对话者的音色克隆。
- 中英双语支持:可在中文和英文两种语言中生成高质量的对话语音。
- 长篇语音生成:基于低比特率编解码器和优化的训练框架,能一次性生成超长语音,避免拼接语音片段的不自然过渡。
- 完全开源且商业就绪:模型权重、推理代码和API接口均已开源,支持免费商业使用。
MOSS-TTSD的技术原理
- 基础模型架构:MOSS-TTSD 基于 Qwen3-1.7B-base 模型进行续训练,采用离散化语音序列建模方法。模型通过八层 RVQ(Residual Vector Quantization)码本对语音进行离散化处理,将连续的语音信号转换为离散的 token 序列。这些 token 序列通过自回归加 Delay Pattern 的方式生成,最后通过 Tokenizer 的解码器将 token 还原为语音。
- 语音离散化与编码器创新:核心创新之一是 XY-Tokenizer,是专门设计的语音离散化编码器。XY-Tokenizer 采用双阶段多任务学习方式训练:
- 第一阶段:训练自动语音识别(ASR)任务和重建任务,让编码器在编码语义信息的同时保留粗粒度的声学信息。
- 第二阶段:固定编码器和量化层,仅训练解码器部分,通过重建损失和 GAN 损失补充细粒度声学信息。 XY-Tokenizer 在 1kbps 的比特率和 12.5Hz 的帧率下,能同时建模语义和声学信息,性能优于其他同类 Codec。
- 数据处理与预训练:MOSS-TTSD 使用了约 100 万小时的单说话人语音数据和 40 万小时的对话语音数据进行训练。团队设计了高效的数据处理流水线,从海量原始音频中筛选出高质量的单人语音和多人对话语音,进行标注。模型进行了 TTS 预训练,使用 110 万小时的中英文 TTS 数据显著增强了语音韵律和表现力。
- 长语音生成能力:基于超低比特率的 Codec,MOSS-TTSD 支持最长 960 秒的音频生成,能一次性生成超长语音,避免了拼接语音片段之间的不自然过渡。
MOSS-TTSD的官网地址
- 官网:https://www.open-moss.com/en/moss-ttsd/
MOSS-TTSD的应用场景
- AI 播客制作:MOSS-TTSD 能生成自然流畅的对话语音,特别适合用于 AI 播客的制作。可以模拟真实的对话场景,生成高质量的播客内容。
- 影视配音:模型支持中英双语的高表现力对话语音生成,能进行零样本音色克隆,适用于影视作品中的对话配音。
- 长篇访谈:MOSS-TTSD 支持最长 960 秒的音频生成,能一次性生成超长语音,避免了拼接语音片段之间的不自然过渡,非常适合长篇访谈的语音生成。
- 新闻报道:在新闻报道中,MOSS-TTSD 可以生成自然的对话式语音,用于播报新闻内容,提升新闻的吸引力。
- 电商直播:模型可以用于数字人对话带货等电商直播场景,通过生成自然的对话语音来吸引观众。
本站信息分享,不代表本站观点和立场,如有侵权请联系作者立删。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...