阶跃 StepAudio 2.5 TTS 跻身全球前三

5月9日，全球知名语音生成评测榜单 Artificial Analysis 最新更新显示，阶跃星辰新一代语音生成模型 StepAudio 2.5 TTS 已进入全球前三，成为目前该榜单排名最高的中国语音大模型。

据了解，Artificial Analysis Speech Arena Leaderboard 是业内最具公信力的 TTS 模型评测榜单之一。该榜单采用盲测 Elo 评分机制：用户在不知道模型身份的情况下，试听同一段文本生成的两段语音，并选择听感更自然、更接近真人的一段。评测覆盖客户服务、知识分享、数字助手、娱乐等多个真实场景。

这意味着，能够在该榜单中取得领先，代表模型生成的语音在真实用户感知中，已经具备更高的自然度与拟人化表现。

StepAudio 2.5 TTS 是阶跃最新一代语音生成模型，其核心能力包括“全局语境控制”“文中语境控制”以及“零样本复刻与全音色控制”，进一步提升了语音生成的可控性、自然度与表现力。

其中，全局语境控制支持用户自定义整段语音的情绪基调、角色状态与场景氛围；文中语境控制则可进一步调节语气、节奏、停顿、轻重变化等表达细节；零样本复刻能力则在保留目标音色特征的同时，实现对情感、风格与表达方式的灵活调整。

目前，阶跃 StepAudio 2.5系列共包含 StepAudio 2.5 TTS、StepAudio 2.5 Realtime 与 StepAudio 2.5 ASR 三款模型，覆盖 AI 语音生成全链路，现已全部上线。（袁宁）