翻译界的ChatGPT时刻!Meta发布新模型,几段示例学会冷门新语言

来源:https://mp.weixin.qq.com/s/s4C1eME0eRue5Tu2H3EFDQ

你或许很难想象,在世界上7000多种活跃语言中,只有几百种享受过现代语音技术的「宠爱」。

绝大多数人类语言的使用者——从非洲部落的土著、亚马逊雨林的族群,到乡野小镇仍讲着古老方言的老人—— 一直生活在数字时代的旁白之外。

语音助手、自动字幕、实时翻译,这些AI带来的便利仿佛只为少数「主流」语言而生,其余的语言社区仍被挡在技术大门之外。

这种数字鸿沟如今迎来了破局者。

Meta人工智能研究团队日前发布了Omnilingual ASR系统,一个可自动识别转录1600多种语言语音的AI模型族,让几乎所有人类语言都能被机器「听懂」。

这套系统以开源方式共享给全世界,并能由社区亲手拓展新的语言,让每一种声音都有机会登上AI的舞台。

论文地址:https://ai.meta.com/research/publications/omnilingual-asr-open-source-multilingual-speech-recognition-for-1600-languages/https://wxa.wxs.qq.com/tmpl/oj/base_tmpl.html项目地址:https://github.com/facebookresearch/omnilingual-asr?tab=readme-ov-file

1600种语言,只是开始

Meta此次推出的Omnilingual ASR创造了语音识别覆盖语言数量的新纪录,支持超过1600种语言,其中包括500种此前从未被任何AI系统转录过的语言。

相比之下,OpenAI开源的Whisper模型只支持99种语言,而Omnilingual ASR几乎将这一数字提升了一个数量级。

对于全球众多使用小语种的人来说,这无疑是一次「数字雪耻」:他们的母语第一次有了被AI流利听懂的可能性。

这套系统的识别性能在很多语种上已达到领先水平。

据Meta提供的数据,在所测试的1600多种语言中,有78%的语种其识别错误率(CER)低于10%,若以10小时以上语音数据训练的语种来看,这一比例更是达到95%。

即使对于训练语料极其稀少的低资源语言,仍有36%实现了CER低于10%的效果。

这些数字意味着,Omnilingual ASR不仅覆盖面广,而且在大多数语言上都能给出实用且高质量的转录结果。

然而,1600种语言还不是Omnilingual ASR的终点。

更大的意义在于,它打破了以往ASR模型支持语言范围固定死板的局限,让语言覆盖从「定量」走向「可扩展」。

Omnilingual ASR借鉴了大语言模型(LLM)的思路,引入了零样本的「上下文学习」机制。

这意味着即便某种语言最初不在支持列表中,用户也可以通过提供几段该语言的音频和对应文本作为示例,在推理过程中即时让模型学会一种新语言。

无需耗费数月收集大型语料、无需专业深度学习训练,只需简单的少样本学习(few-shot)即可学会新语言。https://wxa.wxs.qq.com/tmpl/oj/base_tmpl.html

凭借这种革新性的范式,Omnilingual ASR的潜在语言覆盖能力骤然扩张。

官方表示,理论上该系统可以扩展到超过5400种语言,几乎涵盖所有有文字记录的人类语言!

无论多冷门的口语,只要有对应的书写体系和几句示例,它就有机会被Omnilingual ASR捕捉记录。

在AI语音识别领域,这是从静态封闭走向动态自适应的范式转变——模型不再束缚于训练时预设的语言清单,而成为一个灵活开放的框架,鼓励各地社区自行加入新语言。

对于那些长期缺席于技术版图的族群来说,这无异于掌握了一把可以随时亲手「解锁」新语言的大门钥匙。