NPJ Digital Medicine IF=15.1 | 人机协同策略优化AI临床翻译:提升出院指导的多语言精准传达

来源:https://mp.weixin.qq.com/s/quuLDZRh6mH6cpR6UEDQRA

在人工智能技术日益融入医疗实践的背景下,利用大型语言模型(LLM)进行临床文本翻译已成为提升语言服务可及性的重要途径。然而,机器翻译在数字资源匮乏语言中的表现仍存在显著差异,且缺乏对多学科评估视角的系统性考察。

近期,一项发表于《npj Digital Medicine》的研究针对六种语言的出院指导翻译,比较了ChatGPT-4o、专业翻译及“人在回路”(AI生成后人工编辑)三种模式的翻译质量、偏好度与效率,为临床场景中安全、高效地应用机器翻译提供了实证依据。

基本信息

  • 图片• 文章标题:Evaluating human-in-the-loop strategies for artificial intelligence-enabled translation of patient discharge instructions: a multidisciplinary analysis
  • • 期刊:npj Digital Medicine
  • • 影响因子:15.1
  • • 发表时间:2025年10月24日
  • • 研究单位:波士顿儿童医院、哈佛医学院等
  • • 研究重点:评估人工智能辅助翻译患者出院说明的人类参与策略,比较ChatGPT-4o、专业翻译和人类参与后编辑三种翻译模式的质量和效率
  • • 数据集:20份儿科住院患者出院说明,翻译为阿拉伯语、亚美尼亚语、孟加拉语、简体中文、索马里语和西班牙语
  • • 文地:https://doi.org/10.1038/s41746-025-02055-6

创新点总结

  • • 人机协作翻译模式:提出并系统评估了“人在回路”的机器翻译策略(AI生成+专业语言学家后编辑),在医疗文书翻译中实现了质量与效率的平衡。
  • • 语言与多维度评估框架:涵盖六种代表性语言(包括数字资源不足语言),并首次整合语言学家、临床医生和家庭照顾者三方视角进行综合评价。
  • • 翻译质量与效率的双重优势:证明人机协作模式不仅在多语言翻译质量上达到或超越专业翻译水平,还能将平均翻译时间从16.8分钟显著缩短至7.1分钟。
  • • 临床实践应用价值:为医疗场景下安全、高效、公平地实施机器翻译提供了实证依据,特别针对出院指导等时效性强的临床沟通场景提出了可行方案。

研究内容与方法

本研究旨在评估人工智能辅助翻译在临床实践中的应用潜力,通过比较三种不同翻译方式在患者出院指导翻译中的表现:ChatGPT-4o自动翻译、人工参与循环和专业人工翻译。

研究采用多学科评估方法,邀请语言学家、临床医生和家庭护理人员对六种语言的翻译质量进行系统评价。以下是研究内容与方法的主要步骤和技术细节:

图片

每种语言的研究设计和评估方法

研究设计与翻译流程

研究选取了20份来自儿科住院患者的实际出院指导文本,这些文本经过脱敏处理去除个人身份信息。翻译过程采用三种模式并行进行:

  • • ChatGPT-4o翻译:使用特定提示词。如”想象您是一家儿童医院的翻译人员,请将以下信息翻译成[目标语言],这些信息将提供给患者及其家属”。
  • • 人工参与循环翻译:由ChatGPT-4o生成初始翻译,再由专业语言学家进行后期编辑。
  • • 专业翻译:由认证的第三方翻译服务提供完整人工翻译。翻译过程记录了每种模式完成所需的时间,以便进行效率比较。

评估团队组建与培训

研究招募了42名评估人员,包括:12名医学认证语言学家,16名儿科临床医生(医师和护士)和14名双语家庭护理人员。

所有评估者均以目标语言为母语,且具备专业英语水平。在正式评估前,所有参与者接受了全面培训,包括研究目标说明、评估指标解释以及通过示例翻译进行实践评分,直至达成内部共识。

数据分析方法

使用描述性统计总结评估者和源文本特征。对于每种语言,汇总各评估组在五个维度的平均评分。采用弗里德曼检验比较不同翻译模式间的评分差异,当检验结果显著时,使用威尔科克森符号秩检验进行事后两两比较。
通过组内相关系数评估评估者间的一致性,使用双尾t检验比较翻译完成时间。所有分析在R统计软件中完成,显著性水平设定为p < 0.05。

实验结果分析

ChatGPT-4o与专业翻译在多个语言中的表现对比

以下图表展示了ChatGPT-4o与专业翻译在六个语言(阿拉伯语、亚美尼亚语、孟加拉语、简体中文、索马里语和西班牙语)中的翻译质量对比。通过雷达图形式,比较了五个翻译领域(信息完整性、语法流畅性、语义准确性、临床风险性和整体质量)的评分。

结果显示,ChatGPT-4o在数字化代表性不足的语言(如亚美尼亚语和索马里语)中表现较差,而在孟加拉语和西班牙语中与专业翻译相当。

图片
图片
图片

领域水平评级

  • • 亚美尼亚语和索马里语的翻译质量显著较低:ChatGPT-4o在亚美尼亚语的整体质量评分为2.4(95% CI 2.1–2.7),远低于专业翻译的3.6(3.4–3.9)(p < 0.001)。索马里语翻译在多个领域(如信息完整性和语法流畅性)也表现不佳。
  • • 阿拉伯语和简体中文的翻译质量中等:ChatGPT-4o在这些语言中的评分略低于专业翻译,但差异较小。例如,阿拉伯语翻译在语义准确性上评分较低,可能与语言结构和术语复杂性有关。
  • • 孟加拉语和西班牙语的翻译质量接近专业水平:ChatGPT-4o在孟加拉语的整体质量评分为3.6(3.4–3.8),与专业翻译的3.5(3.2–3.7)无显著差异(p = 0.15)。西班牙语翻译在多个领域(如临床风险性)表现稳定。

人机协同翻译在质量与偏好上的优势

以下图表展示了人机协同翻译(AI生成后由专业语言学家编辑)与专业翻译在质量评分和偏好选择上的对比。人机协同翻译在大多数语言中达到或超过了专业翻译的质量,并成为最受 evaluators 偏爱的翻译方式。

图片

首选翻译源

  • • 翻译质量评分较高:人机协同翻译在亚美尼亚语、孟加拉语和西班牙语的整体质量评分显著高于专业翻译(例如,亚美尼亚语:3.9 [3.7–4.2] vs. 3.6 [3.4–3.9], p = 0.01)。在阿拉伯语、简体中文和索马里语中,评分与专业翻译相当。
  • • 翻译偏好占主导:人机协同翻译在大多数语言中最受青睐,偏好比例从阿拉伯语的42.9%到孟加拉语的53.6%不等。索马里语中人机协同翻译(38.3%)与专业翻译(42.5%)偏好相近。
  • • 语义和临床风险控制良好:人机协同翻译在语义准确性(如西班牙语评分4.7 [4.5–4.8])和临床风险性(如索马里语评分4.0 [3.7–4.2])上表现优异,确保了翻译的临床安全性和可理解性。

人机协同翻译在效率上的显著提升

以下图表比较了人机协同翻译与专业翻译的完成时间。结果显示,人机协同翻译在大多数语言中显著缩短了翻译时间,同时保持了高质量输出。

图片

人机协同翻译与专业翻译对比

  • • 翻译时间大幅减少:人机协同翻译的平均完成时间为7.1分钟(95% CI 5.4–8.8),而专业翻译为16.8分钟(13.7–19.9)(p < 0.001)。在阿拉伯语、孟加拉语、简体中文、索马里语和西班牙语中,人机协同翻译的完成时间均显著更短(例如,索马里语:3.9 [3.2–4.5] vs. 21.0 [17.5–24.5]分钟, p < 0.001)。
  • • 亚美尼亚语翻译时间相近:人机协同翻译(11.2 [9.3–13.1]分钟)与专业翻译(13.0 [10.8–15.2]分钟)无显著差异,可能与语言复杂性或编辑需求较高有关。
  • • 效率与质量的平衡:人机协同翻译在缩短时间的同时,未牺牲翻译质量,证明了其在临床实践中的可行性和优势,尤其适用于时间敏感的医疗沟通(如出院指导)。

优势与局限

优势

  • • 多语言与多模态评估:研究涵盖阿拉伯语、亚美尼亚语、孟加拉语、简体中文、索马里语和西班牙语六种语言,并整合了语言学家、临床医生和家庭照顾者三类评估者,全面评估翻译质量与临床适用性。
  • • 人机协同效率突出:人机协同(AI生成+人工校对)翻译在多数语言中达到或超越专业翻译质量,同时翻译时间显著缩短(平均7.1分钟 vs. 16.8分钟),兼顾效率与准确性。
  • • 聚焦数字弱势语言公平性:研究特别关注数字资源匮乏语言(如亚美尼亚语、索马里语),揭示纯AI翻译的局限性,并验证人机协同模式在提升语言公平性方面的潜力。
  • • 真实临床场景适用性强:采用实际儿科出院指导文本,涵盖可变阅读难度与临床内容,增强了研究成果在真实医疗环境中的外推价值。

局限

  • • 语言与文本覆盖有限:仅评估六种语言和少量源文本(20份),结论可能无法推广至其他语言、专业医疗内容或更复杂的临床文档。
  • • 评估者间一致性中等:多数语言的评估者间信度仅为中等水平(ICC 0.50–0.61),反映翻译质量评价中存在主观差异,可能影响结果稳定性。
  • • 未充分探索AI优化潜力:仅使用基础提示词生成翻译,未利用迭代提示工程或上下文学习等进阶技术,可能低估AI翻译的潜在性能。
  • • 统计多重比较风险未完全控制:虽预设比较方案,但未对多重检验进行严格校正,存在I类错误风险,部分显著性结果需谨慎解读。

参考文献

  1. 1. Performance of ChatGPT and Google Translate for Pediatric Discharge Instruction Translation Brewster et al., 2024:该研究评估了ChatGPT和谷歌翻译在儿科出院指导翻译中的表现,为本研究提供了机器翻译质量评估的基础框架和方法论参考,直接启发了多语言翻译质量的比较分析。
  2. 2. Human-in-the-loop machine learning: a state of the art Mosqueira-Rey et al., 2023:本文系统综述了人在回路机器学习的最新进展,为本研究设计人工编辑AI翻译的混合工作流程提供了理论依据,强调了人类监督在AI应用中的关键作用。
  3. 3. Assessing the use of Google Translate for Spanish and Chinese translations of emergency department discharge instructions Khoong et al., 2019:该研究评估了谷歌翻译在急诊科出院指导翻译中的应用,揭示了机器翻译在医疗场景中的局限性,为本研究关注数字化代表不足语言的安全问题提供了重要背景。
  4. 4. Association between parent comfort with English and adverse events among hospitalized children Khan et al., 2020:该论文发现了家长英语熟练度与住院儿童不良事件之间的关联,凸显了语言障碍对医疗安全的影响,为本研究解决医疗翻译需求提供了临床必要性证据。
  5. 5. Beyond English-centric multilingual machine translation Fan et al., 2020:该研究提出了超越英语中心的多语言机器翻译方法,指出了数字化代表不足语言的翻译挑战,为本研究观察到的语言间性能差异提供了技术解释。