当一段语音不仅需要 “像某个人”、“准确地读出每个字”, 还需要在不同内容中自然切换说话方式, 在几十分钟的叙述中持续稳定, 在对话、角色、实时交互等不同形态下都能直接使用 —— 单一的 TTS 模型,往往已经不够用了。
就在今天,模思智能及 OpenMOSS 团队再度上新,发布并开源了MOSS-TTS Family,一套面向高保真、高表现力与复杂场景生成的语音生成模型家族。
你可以用 MOSS-TTS Family 完成这些事情:
- 零样本克隆说话人的音色与表达风格并精准控制语音时长,用于纪录片、影视配音或新闻播报;
- 生成具备真实节奏的双人或多人对话,用于播客、综艺或解说;
- 通过指令设计带有情绪与表演状态的角色声音;
- 为内容补全环境音与音效;
- 以及在实时 Voice Agent 系统中,以流式方式持续输出自然语音;
从这些真实、明确的实际需求,我们不难看出,模思推出的 TTS 全家桶,并不是单一能力的堆叠,而是一整套可以直接接入创作流程、产品系统与交互场景的声音生产工具链。
语音生成模型家族:全维度能力覆盖
MOSS-TTS Family并不是对 “一个更大的 TTS 模型” 的追求。
相反,我们选择将声音生产拆解为多个真实存在的创作与应用环节,并为每一个环节提供专门的模型支持,使它们既可以独立使用,也可以组合成完整的工作流。
整个模型家族包含五个核心成员:
- MOSS-TTS:高保真、高表现力的语音生成基座,多语言、长音频、精确时长控制;
- MOSS-TTSD:全面更新至 1.0 版本,面向真实对话场景的多说话人语音合成,包括但不限于播客等更多复杂对话场景;
- MOSS-VoiceGenerator:复杂文本指令跟随、用于音色与角色设计;
- MOSS-SoundEffect:环境音与音效生成模型;
- MOSS-TTS-Realtime:面向实时交互的实时流式 TTS 模型;
它们共同构成了一个覆盖 “稳定生成、灵活设计、复杂对话、情境补全、实时交互” 的声音创作生态闭环。
MOSS-TTS:高表现力语音生成基座
MOSS-TTS 是整个 MOSS-TTS Family 的基础模型,也是所有声音能力得以成立的前提。
它的核心目标是在真实内容与复杂场景中,稳定地复现一个说话者的声音特征、表达方式与语言习惯,并稳定地生成长语音片段。
在下面的音频示例中,我们将从多个维度展示 MOSS-TTS 的能力边界。
零样本音色复刻:从 “像声音” 到 “像这个人说话”
音色克隆并不等同于音色相似。在真实内容中,人们更容易注意到的,往往是语速、韵律、停顿方式、情绪走向与整体说话风格是否一致。MOSS-TTS 的音色克隆能力,正是围绕这些 “非显性特征” 展开。
在业界权威测试集 Seed-TTS-eval 上,MOSS-TTS 的语音音色相似度超越了当前所有的开源模型和大多数闭源模型。
中文场景展示