Seed 端到端同声传译大模型发布:准确率接近真人,3s 延迟,实时声音复刻

来源:https://zhuanlan.zhihu.com/p/1931757228429411734

同声传译,被视为“翻译界的巅峰技能”。它需要译者在数秒的极短时间内转换语言,边“听”边“说”,要求极高。因此,对翻译技术研究者来说,同传一直是最具挑战的方向。

今天,字节跳动 Seed 团队正式发布端到端同声传译模型 Seed LiveInterpret 2.0。

Seed LiveInterpret 2.0 是首个延迟&准确率接近人类水平的产品级中英语音同传系统,在中英同传翻译质量达到业界 SOTA 的同时,实现了极低的语音延迟水平。

它基于全双工端到端语音生成理解框架,支持中英互译,可实时处理多人语音输入,像人类同传译员一样以极低的延迟 “边听边说”,一边接收源语言语音输入,一边直接输出目标语言的翻译语音。同时,Seed LiveInterpret 2.0 还支持 0 样本声音复刻,让沟通更加流畅自然。

在测试中,可以观察到,Seed LiveInterpret 2.0 面对 40 秒的大段中文表达,能够低延迟地丝滑输出同款音色的英语翻译。

Seed LiveInterpret 2.0 还能快速学习音色,无论是西游记里的猪八戒,还是红楼梦中的林妹妹,即便此前未“听”过角色的声音,依然能通过实时交互进行现场演绎。

真正实现“边听边说”

Seed LiveInterpret 2.0 的全双工语音理解和生成框架,让其可以持续 “边听边说”。

模型能一边理解语音输入,一边输出传译音频,还能同步输出文字(可选择原文或译文)。而传统级联同传系统必须等待文本完全生成后,再进行语音合成,导致语音延迟问题突出。

零样本实时声音复刻

同样得益于统一的语音理解生成框架,模型实现了精准还原说话者音色,无需提前采集声音样本,仅通过实时对话即可合成“原声”语音翻译。

同时,模型可以学习说话人声学特征和说话风格,确保输出语音在音色、语调和韵律上相对一致。

智能平衡实时性与准确性

Seed LiveInterpret 2.0 能够自动寻找翻译质量和延迟之间超参数的最佳值。

当输入语音流畅、清晰、标准,模型会以极快的响应速度传译。当输入语音不流畅,出现改口、重复表达时,模型会选择听到合适内容后再开始传译,保证更高的翻译准确率。

面向长时间的大段语音输入(例如演讲),Seed LiveInterpret 2.0 则 “懂得” 保持传译音频和输入音频节奏一致,避免生成语音过长,跟不上讲者节奏,导致演讲传译不同步。

专业人工评测表现突出,接近真人同声传译水平

为准确评估 Seed LiveInterpret 2.0,团队邀请了专业同传译者团队对模型翻译表现进行严格的人工评测。

评测基于 RealSI 数据集,这是一个包含中英双向各 10 个领域的公开测试集,人工评测团队以传达有效信息的占比(Valid Information Proportion)为指标,在中英方向上测试了包括 Seed LiveInterpret 2.0 在内多个业界领先的同传系统。

人工评测翻译准确率超 74%,平均延迟低至 3 秒内

评测结果显示,在语音到文本的同传任务中,Seed LiveInterpret 2.0 中英互译平均翻译质量的人类评分达到 74.8(满分 100,评估译文准确率),较排名第二的基准系统(47.3 分)超出 58%。

在语音到语音中英同传任务中,仅 3 个测评的翻译系统支持该能力,其中 Seed LiveInterpret 2.0 中英互译平均翻译质量达到 66.3 分(满分 100,除评估译文准确率,还评估语音输出时延、语速、发音、流畅性等指标),远超其他基准系统,达到接近专业真人同传的水平。同时,大部分基准系统也不支持声音复刻功能。

总体来看,Seed LiveInterpret 2.0 在句子级基准测试中,有效平衡了翻译质量与延迟。这不仅缓解了传统同传中 “译得准则慢,译得快则偏” 的痛点,配合音色复刻能力,让中英跨语言交流首次具备自然对话般的流畅感。

总结与展望

在本研究中,团队进一步认识到数据对模型训练的重要性。模型经过数十万小时语音数据的训练,数据质量中的任何瑕疵都可能在最终效果中被显著放大,这些潜在问题包括口音差异、准确读音、时间戳的准确预测,以及句子衔接的流畅度等关键要素。Seed LiveInterpret 2.0 良好的性能正是建立在海量优质训练数据之上。

同时,尽管 Seed LiveInterpret 2.0 已初步展现出一定优势,其边界仍有拓展空间。比如,在语言覆盖方面,目前模型主要支持中英互译,其他语种尚未较好支持。此外,其声音复刻的稳定性、语音表现力、情绪复刻能力、极复杂情况下的翻译准确性等仍有进步空间。

在未来研究中,我们希望进一步挖掘模型潜力,通过优化算法、增强数据及改进训练策略等方式,逐步拓展同传模型的能力边界,提升其在复杂场景下的适应性和性能表现。