来源:https://mp.weixin.qq.com/s/iZBmZ6dtJ9peQvUaKQEhbQ
标题:
Beyond English: Toward Inclusive and Scalable Multilingual Machine Translation with LLMs
Arxiv:
github:
Huggingface:
在大语言模型(Large Language Models, LLMs)推动下,多语言机器翻译(Multilingual Machine Translation, MMT)正迈向新的阶段。然而,当前的多语言翻译模型在 1)广泛的语言覆盖,2)一致的翻译质量以及 3)对中文翻译方向的支持方面,仍存在显著的挑战。
为应对这些挑战,我们提出了以中文和英文为双中心的多语言翻译模型 LMT (Large-scale Multilingual Translation)。LMT覆盖60种语言、234个方向,包括英↔59语种及中↔58语种方向,覆盖了全球主要语言家族与广泛使用语言。
在 FLORES-200 基准上,LMT 在同等语言覆盖规模的模型中取得了SOTA性能,实现了较广泛的语言覆盖度和全面的翻译能力。
我们开源了LMT,共包含四种规模0.6B/1.7B/4B/8B,希望为多语言翻译的研究与实际应用提供一个语言覆盖广泛、中文方向支持友好、且翻译性能优异的多语言翻译大模型系统。
支持语言:
| 语言资源 | 语言列表 |
| 高资源13种 | 阿拉伯语(ar)、英语(en)、西班牙语(es)、德语(de)、法语(fr)、意大利语(it)、日语(ja)、荷兰语(nl)、波兰语(pl)、葡萄牙语(pt)、俄语(ru)、土耳其语(tr)、中文(zh) |
| 中资源18种 | 保加利亚语(bg)、孟加拉语(bn)、捷克语(cs)、丹麦语(da)、现代希腊语(el)、波斯语(fa)、芬兰语(fi)、印地语(hi)、匈牙利语(hu)、印度尼西亚语(id)、韩语(ko)、挪威语(no)、罗马尼亚语(ro)、斯洛伐克语(sk)、瑞典语(sv)、泰语(th)、乌克兰语(uk)、越南语(vi) |
| 低资源29种 | 阿姆哈拉语(am)、阿塞拜疆语(az)、藏语(bo)、希伯来语(he)、克罗地亚语(hr)、亚美尼亚语(hy)、冰岛语(is)、爪哇语(jv)、格鲁吉亚语(ka)、哈萨克语(kk)、高棉语(km)、柯尔克孜语(ky)、老挝语(lo)、中国蒙古语(mn_cn)、马拉地语(mr)、马来语(ms)、缅甸语(my)、尼泊尔语(ne)、普什图语(ps)、僧伽罗语(si)、斯瓦希里语(sw)、泰米尔语(ta)、泰卢固语(te)、塔吉克语(tg)、他加禄语(tl)、维吾尔语(ug)、乌尔都语(ur)、乌兹别克语(uz)、粤语(yue) |
01 数据建设
高质量的数据,是模型学习翻译能力的基础。然而,现有多语言语料体系存在着长期的结构性问题:
- 英语中心化:几乎所有开源平行数据都以英语为核心,非英语语对极度稀缺;
- 语料分布极不均衡:高资源语言动辄数亿句,而低资源语言常不足十万句;
- 中文方向性能薄弱:现有多语言模型往往对英↔多语表现良好,但在中↔多语方向效果不甚理想;
- 低资源语料噪声高:大量自动抓取语料存在对齐错误与语言混杂,难以直接使用。
为了解决这些问题,我们从覆盖、合成与质量三方面构建了一个系统化的数据pipeline,为后续post-training提供坚实的数据支撑。
对于单语,我们汇聚并整合了多类开源数据资源以保证覆盖与多样性:
对于双语,为了确保语言的覆盖度,我们广泛采集现有数据和数据合成两种方式来扩充规模:
- 以 OPUS 语料库为基础,尽可能收集可用的平行数据
- 构造大量单语句子,通过开源模型大规模合成平行数据
- 考虑到中文翻译方向的性能通常不如英文(特别是中低资源),因此我们也通过英语中枢翻译的方式来部分扩充Zh↔X 数据(En↔X 与 En→Zh)
最后,我们将上述得到的所有平行数据进行基于规则和模型的筛选过滤:
- 使用 OpusFilter 做语言识别、长度比、重复与低质量规则过滤
- 采用 CometKiwi 对平行句对进行打分,依据分数阈值过滤
经过广泛的数据收集,合成与严格的质量控制,我们构建了覆盖了117个翻译方向,约21亿条英文中心句对与29亿条中文中心句对的大规模平行语料库,并且确保大部分语言方向最终拥有超过百万级或千万级的高质量句对。
02 方法
LMT 基于 Qwen3 系列模型构建,采用主流的两阶段训练流程:
- 继续预训练(Continued Pre-training, CPT):在混合单语与双语的大规模语料上继续预训练,广泛提升模型的多语言翻译能力。
- 有监督微调(Supervised Fine-tuning, SFT):利用高质量的人工标注平行数据进行指令微调,进一步增强模型翻译性能。
其中,CPT的规模约 90B tokens,每个语言方向按照1:1:1 比例混合单语、中文中心双语与英文中心双语。
SFT使用公开的高质量人工标准数据集,包括FLORES-200 Dev, NTREX-128, SMol, WMT14-23,IWSLT17-24测试集共计约 567K 条,覆盖 117 个翻译方向,每个翻译方向大约 3K–20K条样本。
方向性退化问题(Directional Degeneration)
在SFT过程中,我们发现了一个此前被忽视的现象:方向性退化(Directional Degeneration)。
在SFT时,现有研究普遍会使用语言覆盖度较广的多路平行数据(如,NTREX-128,FLORES-200),一般做法是对每条数据对称式的使用(例如,对于En →X数据会反过来形成 X → En训练数据)。我们发现这种标准做法会导致模型在 X → En/Zh方向上性能的显著下降,表现为:模型经常产生与源文无关的幻觉内容,即译文流畅但语义偏离源文。我们将此现象命名为方向性退化(Directional Degeneration)。
我们进一步实验发现,这种现象并非特定于某个模型,而是在对称使用多路数据进行SFT时的一个广泛现象,并且随着语言规模越大,退化现象越明显。
不同家族模型:
不同规模语言:
我们推测,对称使用多路平行数据,会导致模型过度学习“多对一”映射。例如,在60种语言的设置中,对于英语而言,一条英文目标句会对应59个不同的源语言输入,导致模型过度重复学习有限的英文目标端数据, 从而造成译英方向的过拟合。
为解决此问题,我们提出了简单有效的策略性下采样(Strategic Downsampling, SD),通过在训练中仅采样约 5% 的反向样本(X→En/Zh),即可有效缓解方向退化问题(对比上图中的5%与100%)。
平行多语言提示(Parallel Multilingual Prompting, PMP)
为进一步提升模型的跨语言迁移能力,受到相关工作启发,我们还提出平行多语言提示(Parallel Multilingual Prompting, PMP)。
PMP 的思想是在标准翻译提示(一对一)的基础上,引入英语或者来自高资源的相似语种的平行句作为额外上下文,以帮助模型更充分地理解源语或者更容易地生成目标语。
标准的prompt和PMP prompt的对比如下图所示:
SFT时,PMP 与标准翻译提示 (STP) 按照一定比例混合训练,推理时,模型可以使用标准的 STP 提示进行翻译,也可以通过从外部 MT 系统,或者由模型自生成辅助句来使用PMP。
实验证明,在大规模多语言翻译中使用PMP 能促进模型的跨语言迁移能力和提升模型翻译质量 。
03 性能效果
在 FLORES-200 基准上,LMT 在具有相似语言覆盖范围的模型中取得了SOTA性能:
比如,LMT-60-4B在四个翻译方向上都超越了体量远大于它3倍的 Aya-101-13B 和13倍的 NLLB-54B 模型。
我们进一步进行了各组件的消融:
- Base + SFT 基线:证实了方向性退化的存在(X → En/Zh效果较差);
- + SD(策略性下采样):极大缓解了退化问题,在 X → En和Zh方向上分别带来了 +5.83和+11.45 COMET 的提升;
- + CPT(继续预训练):在所有方向上为模型带来了 3.80~8.23 分的全面基础能力提升 ;
- + PMP(平行多语言提示):在 CPT 模型基础上进一步带来了稳定的性能增益
推理时,我们可以使用PMP,对比标准prompt(DT),PMP能够带来显著的性能提升(PMP-O代表辅助翻译使用oracle,PMP-S代表模型自己生成):
这意味着,通过获得高质量的辅助翻译——无论是通过模型自我生成,还是引入外部高水平翻译系统——PMP 能作为一种推断时增强策略,进一步提升翻译质量。
更多详细内容可以参考论文:
Beyond English: Toward Inclusive and Scalable Multilingual Machine Translation with LLMs
Arxiv:
我们已经开源了LMT所有的模型,欢迎大家下载使用~
github:
Huggingface:
我们希望 LMT 能成为迈向通用的多语言翻译的一步,未来,我们将持续优化模型性能、扩展语言覆盖,为打破全球语言壁垒贡献一份力量。