TranslateGemma 开源机器翻译模型

来源:https://mp.weixin.qq.com/s/Pj-ifkqZ5bSOd0taod1J8A

TranslateGemma是谷歌基于 Gemma 3 基础模型开发的开源机器翻译模型套件,通过 两阶段微调(监督微调 SFT + 强化学习 RL)增强多语言翻译能力:SFT 阶段采用 “高质量合成平行数据(Gemini 生成,源自 MADLAD-400 语料)+ 人类翻译数据(SMOL/GATITOS 数据集)+30% 通用指令数据”,RL 阶段通过 MetricX-QE、AutoMQM、ChrF 等奖励模型集成优化翻译质量;在 WMT24++(55 种语言对)和 WMT25(10 种语言对)基准上验证,所有参数规模(27B/12B/4B)均优于基线 Gemma 3,且展现 效率优势(12B TranslateGemma 性能超 27B Gemma 3),同时保留 Gemma 3 的多模态能力,在 Vistra 图像翻译基准上性能提升,最终为研究社区提供可扩展的开源翻译工具。

  1. 背景机器翻译(MT)是全球沟通核心工具,LLM 推动 MT 发展,但需开源模型提升透明度与社区创新。
  2. 模型定义

TranslateGemma是 Gemma 3 基础模型的开源翻译变体,通过两阶段微
调增强翻译能力,同时保留多模态特性。核心目标
在多语言翻译任务中超越基线 Gemma 3;

  • 实现 效率优化(小模型性能匹配大模型);
  • 保持 多模态兼容性(图像翻译能力)。图片

二、训练数据:三类数据的构成与用途

数据类型来源 / 构成用途适用阶段
合成平行数据MADLAD-400 单语语料 + Gemini 2.5 Flash 生成,≤10K 样本 / 语言对覆盖高 / 低资源语言,提升翻译质量SFT、RL
人类平行数据SMOL(123 种语言)、GATITOS(170 种语言)补充低资源语言,增加脚本多样性SFT(仅)
通用指令数据30% Gemma 3 原始指令数据避免过拟合,保留通用指令能力SFT(仅)
  • 合成数据筛选逻辑
    1. 按文本长度分桶,每语言对采样 100 万源文本;
    2. Gemini 2.5 Flash 生成 2 个样本(贪心解码 + 温度 1.0);
    3. 用 MetricX 24-QE筛选 “样本比贪心解码提升最大” 的源文本;
    4. 最终生成 128 个样本,再经格式过滤(Gemini 2.5 Flash)确保质量。图片

图片

三、微调流程:两阶段优化(SFT+RL

1. 监督微调(SFT)
  • 基础设置
    • 初始模型:Gemma 3 27B、12B、4B checkpoint;
    • 工具:Kauldron SFT工具链;
    • 优化器:AdaFactor,学习率 1e-4,批大小 64,训练步数 200K
  • 关键处理
    • 冻结 嵌入层参数:预实验表明此操作可提升 SFT 数据未覆盖语言 / 脚本的翻译性能;
    • 数据混合:合成数据 + 人类数据 + 30% 通用指令数据,平衡翻译专注度与通用能力。
2. 强化学习(RL)
  • 核心机制在 SFT 模型基础上,通过 奖励模型集成优化翻译质量,支持 token 级与序列级奖励结合。
  • 奖励模型构成(5 类,覆盖不同评估维度):奖励模型功能描述输入要求MetricX-24-XXL-QE回归型指标(0 = 最优,25 = 最差), rescale 为 5.0-score源文本 + 假设(无参考)Gemma-AutoMQM-QEGemma 3 27B-IT 微调,基于 WMT 2020-2023 MQM 数据,输出 token 级错误标注源文本 + 假设(无参考)ChrF词汇重叠指标,缩放 2 倍以匹配其他奖励尺度源文本 + 假设 + 合成参考自然度评估器基于 RL 策略模型,惩罚 “非母语化表达”假设文本通用奖励模型适配多任务(推理、指令跟随、多语言),源自 Gemma 3 后训练设置多维度任务信号
  • 优化细节
    • 结合 token 级优势(AutoMQM / 自然度评估器)与 序列级奖励(MetricX/ChrF);
    • 对组合优势进行 批量归一化,提升训练效率。

四、评估结果:自动 + 人类 + 多模态验证

1. 自动评估(WMT24++ 基准,55 种语言对)
  • 核心指标MetricX(分数越低翻译质量越高)、Comet22(分数越高越好)。
  • 关键结果(与 Gemma 3 基线对比):
模型参数系统MetricX 分数(↓优)MetricX 相对降低Comet22 分数(↑优)Comet22 提升
27BGemma 34.0483.1
27BTranslateGemma3.0923.5%84.4+1.3
12BGemma 34.8681.6
12BTranslateGemma3.6025.9%83.5+1.9
4BGemma 36.9777.2
4BTranslateGemma5.3223.6%80.1+2.9
  • 效率亮点
    • 12B TranslateGemma 性能超过 27B Gemma 3(MetricX 3.60 < 4.04);
    • 4B TranslateGemma 性能接近 12B Gemma 3(MetricX 5.32 vs 4.86)。
2. 人类评估(WMT25 基准,10 种语言对)
  • 评估方法
    MQM(多维度质量评估),专业译者标注错误(类别 + 严重度),分数越低越好。
  • 覆盖场景高资源(英→德 / 意)、低资源(英→斯瓦希里 / 马拉地)、跨语系(日→英、捷→乌克)。
  • 关键结果
    • 低资源语言提升显著:英→马拉地(3.1 vs 4.7,+1.6 分)、英→斯瓦希里(4.2 vs 5.2,+1.0 分);
    • 例外情况:日→英翻译中,TranslateGemma 因 “命名实体误译” 性能退化(13.4 vs 11.6);
    • 模型规模影响:27B TranslateGemma 整体优于 12B 版本,且 12B 版本可媲美 27B Gemma 3。
3. 多模态评估(Vistra 图像翻译基准)
  • 任务翻译图像中的文本(无额外多模态训练),筛选 264 张含单一文本的图像。
  • 结果TranslateGemma 保留 Gemma 3 的图像处理能力,且翻译质量提升:
模型参数系统MetricX 分数(↓优)Comet22 分数(↑优)
27BGemma 32.0376.1
27BTranslateGemma1.5877.7
12BGemma 32.3374.9
12BTranslateGemma2.0872.8(例外)
4BGemma 32.6069.1
4BTranslateGemma2.5870.7

五、结论与价值

  1. 核心贡献
    • 提供 开源、多语言、高效的翻译模型,覆盖 55 + 语言对;
    • 验证 “两阶段微调” 有效性,实现 “小模型高性能”;
    • 保留多模态能力,拓展图像翻译应用场景。
  2. 局限
    • 部分语言对(如日→英)存在命名实体翻译退化;
    • 4B 模型多模态提升有限,受限于参数容量。
  3. 社区价值为机器翻译研究提供可复现、可扩展的基础工具,推动低资源语言翻译发展。

六、关键问题Q&A

问题 1:TranslateGemma 的两阶段微调(SFT+RL)中,数据筛选与奖励模型设计分别有哪些核心策略,目的是什么?

:- SFT 阶段数据筛选策略

  1. 源文本筛选:按长度分桶后采样 100 万源文本,用 Gemini 2.5 Flash 生成 2 个样本(贪心解码 + 温度 1.0),通过 MetricX 24-QE选择 “样本比贪心解码提升最大” 的源文本,目的是筛选出 “最能从多样本生成中获益” 的文本,提升合成数据质量;
  2. 数据混合:按 “合成数据 + 人类数据 + 30% 通用指令数据” 混合,目的是避免模型过拟合翻译任务,同时保留通用指令跟随能力。
  • RL 阶段奖励模型设计策略
    1. 多模型集成:结合 MetricX-QE(无参考质量评估)、AutoMQM(token 级错误标注)、ChrF(词汇重叠)、自然度评估器(母语化校验)、通用奖励模型(多任务适配),覆盖 “质量、错误、自然度” 多维度;
    2. 奖励融合:将 token 级优势(AutoMQM / 自然度评估器)与序列级奖励(MetricX/ChrF)结合并批量归一化,目的是实现细粒度信用分配,提升训练效率与翻译质量。

问题 2:TranslateGemma 在效率优化上有哪些具体表现?这些表现对实际应用有何意义?

:- 效率优化的具体表现(基于 WMT24++ 自动评估):

  1. 跨规模性能超越:12B TranslateGemma 的 MetricX 分数(3.60)低于 27B Gemma 3(4.04),即性能更优;4B TranslateGemma 的 MetricX 分数(5.32)接近 12B Gemma 3(4.86),差距显著缩小;
  2. 资源消耗降低:小参数模型(12B/4B)在保持高性能的同时,计算成本与推理延迟低于大参数基线(27B),如 27B 模型推理延迟通常是 4B 模型的 3-5 倍。
  • 实际应用意义
    1. 低成本部署:在边缘设备、中小规模企业场景中,可使用 4B/12B 模型实现接近 27B 模型的翻译质量,降低硬件与算力投入;
    2. 高并发支持:小模型推理速度更快,能支撑更高的翻译请求并发量,适配实时翻译(如跨境客服、实时字幕)场景;
    3. 低资源语言覆盖:小模型的高效性使其可在低资源语言翻译任务中快速迭代,降低 “多语言支持” 的落地成本。

问题 3:TranslateGemma 为何能保留 Gemma 3 的多模态能力?其在图像翻译任务中的表现有何特点?

:- 保留多模态能力的原因

  1. 微调数据设计:SFT 与 RL 阶段仅使用文本数据(无多模态数据),未覆盖或破坏 Gemma 3 原有的图像理解模块;
  2. 参数冻结策略:SFT 阶段冻结 嵌入层参数,而嵌入层是多模态数据(图像特征→文本嵌入)交互的关键组件,避免微调对多模态交互能力的损伤;
  3. 模型架构继承:TranslateGemma 完全基于 Gemma 3 的架构,未修改多模态相关的注意力机制或特征融合模块,保留了原有的图像处理基础。
  • 图像翻译任务的表现特点(基于 Vistra 基准):
    1. 性能提升:27B TranslateGemma 的 MetricX 分数从 2.03 降至 1.58(↓22.2%),Comet22 从 76.1 升至 77.7(↑2.1%),文本翻译优化正向迁移到图像文本翻译;
    2. 规模差异:27B/12B 模型提升显著,4B 模型提升微弱(MetricX 2.58 vs 2.60),说明多模态能力依赖一定的参数容量;
    3. 零额外训练:无需针对图像翻译任务进行微调,即可实现性能提升,降低多模态应用的开发成本,适用于 “文本 + 图像” 混合翻译场景(如跨境商品图片字幕、海外路标翻译)。

收录于开源机器翻译模型

阅读 11

多模态翻译模型应用