长语音、对话、指令、音效全覆盖！模思智能推出MOSS-TTS Family

当一段语音不仅需要 “像某个人”、“准确地读出每个字”，还需要在不同内容中自然切换说话方式，在几十分钟的叙述中持续稳定，在对话、角色、实时交互等不同形态下都能直接使用 —— 单一的 TTS 模型，往往已经不够用了。

就在今天，模思智能及 OpenMOSS 团队再度上新，发布并开源了MOSS-TTS Family，一套面向高保真、高表现力与复杂场景生成的语音生成模型家族。

你可以用 MOSS-TTS Family 完成这些事情：

从这些真实、明确的实际需求，我们不难看出，模思推出的 TTS 全家桶，并不是单一能力的堆叠，而是一整套可以直接接入创作流程、产品系统与交互场景的声音生产工具链。

语音生成模型家族：全维度能力覆盖

MOSS-TTS Family并不是对 “一个更大的 TTS 模型” 的追求。

相反，我们选择将声音生产拆解为多个真实存在的创作与应用环节，并为每一个环节提供专门的模型支持，使它们既可以独立使用，也可以组合成完整的工作流。

整个模型家族包含五个核心成员：

它们共同构成了一个覆盖 “稳定生成、灵活设计、复杂对话、情境补全、实时交互” 的声音创作生态闭环。

MOSS-TTS：高表现力语音生成基座

MOSS-TTS 是整个 MOSS-TTS Family 的基础模型，也是所有声音能力得以成立的前提。

它的核心目标是在真实内容与复杂场景中，稳定地复现一个说话者的声音特征、表达方式与语言习惯，并稳定地生成长语音片段。

在下面的音频示例中，我们将从多个维度展示 MOSS-TTS 的能力边界。

零样本音色复刻：从 “像声音” 到 “像这个人说话”

音色克隆并不等同于音色相似。在真实内容中，人们更容易注意到的，往往是语速、韵律、停顿方式、情绪走向与整体说话风格是否一致。MOSS-TTS 的音色克隆能力，正是围绕这些 “非显性特征” 展开。

在业界权威测试集 Seed-TTS-eval 上，MOSS-TTS 的语音音色相似度超越了当前所有的开源模型和大多数闭源模型。

中文场景展示

今日新闻更多>>