来源:https://mp.weixin.qq.com/s/Rkw_EYu_UzJ5CcbhLyRkOA
文章原载于中国翻译2025,46(01):113-124
作者简介:赵政廷,上海外国语大学高级翻译学院讲师。研究方向:翻译教学、翻译技术。上海外国语大学高级翻译学院教授、博导。研究方向:翻译学。
摘要:人工智能的迅猛发展为翻译技术的深度应用提供了广阔空间。现有的翻译技术方案往往存在学习门槛高、部署成本昂贵以及关键流程覆盖不足等问题。对于中文术语提取、大规模平行语料库建设和本地大语言模型部署等可能对译者工作产生深远影响的任务,主流的技术工具无法有效应对。本文基于Python编程技术,针对译前、译中和译后的译者需求,提出了一个涵盖基础功能、专业应用和智能融合的三阶段技术实施方案,展示了如何通过Python编程实现翻译流程的自动化、智能化与高效化。通过具体的Python应用示例,本研究旨在探索翻译技术与人工智能的跨学科融合路径,为翻译实践提供高效且可行的技术解决方案,并为国内翻译行业的智能化升级提供有益参考。
关键词:翻译技术;Python编程;中文术语提取;大数据语料;本地大语言模型
人工智能技术正迎来第三次大发展的浪潮(Chollet,2018:12-13)。新技术革命提升了社会生产力,造就了社会转型与变革,也呼唤着教育数字化的转型(祝智庭等,2022:7)。面对这样的形势,国家先后发布《新一代人工智能发展规划》及《教育信息化2.0行动计划》,提出“以人工智能、大数据、物联网等新兴技术为基础,依托各类智能设备及网络,积极开展智慧教育创新研究和示范,推动新技术支持下教育的模式变革和生态重构”等要求(中华人民共和国教育部,2018)。对于翻译实践和翻译教学来说,这既是机遇也是挑战。
说机遇是因为,这些技术发展为翻译技术的应用及教学带来了重要资源。翻译技术需要使信息技术介入翻译过程,减轻译者工作负担,提高翻译生产力(王华树,2017:22)。而作为人工智能重要的方向之一的自然语言处理领域,不断有新成果发布和开源。最典型的代表是深度学习架构下的神经机器翻译技术(刘洋,2017),此外还有文本情感识别(饶元等,2018)、文本分类技术(叶雪梅等,2019)、语义抽取(姜文超等,2019)、分词(冯俐,2018)等技术。这些技术对专业翻译领域而言具有不可低估的潜在价值,因为现有的翻译技术方案中常常缺少合适的工具来覆盖完整的翻译流程(崔启亮、刘佳鑫,2016:73;王华树,2018:69),能够部分覆盖流程的方案也存在学习曲线陡峭(朱玉彬、陈坚林,2015:53)、部署成本高昂(周兴华,2015:79)、隐含合规及知识产权风险(黄海瑛:2018)等问题;此外,这些方案对于中文术语提取、大规模平行语料库构建等任务无计可施。而结合大数据应用的人工智能技术为解决这些问题带来了可能。
然而,除机器翻译之外,自然语言处理领域的新兴技术很少应用于翻译领域。这是因为上述技术大多以源代码形式发布在Git Hub等平台上,没有图形用户界面(GUI),更没有配套的说明文档。缺乏编程基础的译者如果没有外部技术团队的协助,很难将这些技术运用于翻译实践。
Python是人工智能领域广泛使用的编程语言,这是一种通用性极强的技术,可以通过简单易懂的命令集成各类现有的技术模块,按照用户需求开发功能。随着人工智能相关硬件的价格不断走低,开发环境的用户友好度、操作直观性及学习门槛不断降低,学会Python编程并非理工专业的专利,文科背景人士也能掌握(管新潮,2018:2)。本文将基于Python编程技术,从译前、译中、译后三个阶段,对翻译实践中的难题提出系统性解决方案。
一、现有翻译技术的困境
一个翻译项目的完成要经过翻译业务洽谈、审阅原稿、编写术语、分稿、译稿、合稿、审核译稿、排版、终审等多道工序(柴明熲,2010:16)。图1展示了一个典型笔译工作流程中出现的技术工具。在这个流程中,译者会使用不同的技术工具,来减轻工作负担和认知负荷,提升效率和工作质量。在翻译前期,译者需要通过邮件等在线工具与客户沟通,并用Excel等工具记录过程,在接单后还需要以Excel表格为基础记录各类财务流转信息。在项目中期,一个“充分自动化”的译者可能面临数量众多的翻译工具,从语料准备的OCR(光学识别)工具、术语提取、语料对齐、语料数据整理,到待译文件标准化处理、分稿切割、CAT翻译、CAT内外审校、合稿工具。而在完成项目后,还要使用QA(质量保证)、QC(质量控制)、排版等软件,并最终通过之前联系客户的工具交付稿件。对于上述笔译工作流程中出现的种类繁多的技术工具,译员通常遇到以下几大问题:
(1)学习成本高,通用性低。
以术语相关工作为例,仅这一流程就会涉及多种工具的运用。术语提取需要SDL Trados套件中的Multiterm Extract软件,术语管理则需使用Multiterm Convert和Multiterm Desktop,而管理语料和进行翻译则又要使用Trados Studio。如果译者想在译前准备阶段处理一些早期语料(legacy document),则又需要一整套例如ABBYY Aligner之类的工具。对于译者来说,虽然努力学习和适应了这些翻译技术软件,但仍然很难找到一种通用性较强的工具来全面应对翻译流程。
(2)重要流程无法覆盖。
传统CAT工具大都由基于规则的编程逻辑开发,少有融合最新的人工智能技术,因此存在无法攻克的难题,如中文分词和大规模平行语料获取这两项重要的语言资产类任务就是这些技术的盲点。时至今日,也并无理想的单机工具能够解决中文术语这一问题。近年来我国的外译项目逐年增多,中文术语的提取也是一项亟待解决的任务。目前有若干在线服务提供商通过技术手段做到了较为理想的中文术语提取,但使用在线服务又会带来新的问题。
(3)在线产品存在合规隐患。
倘若译者想在上述工作流程中纳入商用的在线平台,或者使用机器翻译产品(无论是直接通过浏览器访问机器翻译网站,还是通过API对接机翻引擎服务),即使这些产品是免费的,他们也要面临另一个问题。以谷歌翻译的服务为例,其服务条款如下(Google,2019):
当您将内容上传、提交、存储或发送到我们的服务,以及通过我们的服务上传、提交、存储、发送或接收内容时,您授予Google(以及我们的合作伙伴)一项全球性的许可,允许Google使用、托管、存储、复制、修改、创建衍生作品(例如,我们为了使您的内容更好地与我们的服务配合使用而进行翻译、改编或其他更改,由此产生的作品)、传播、出版、公开演示、公开展示和分发此类内容。您在此许可中授予的权限,仅能用于运营、宣传和改进我们的服务,以及开发新的服务。该项许可在您停止使用我们的服务后依然有效……
笔者在微软必应翻译的服务条款中也看到类似的内容。在新近一些国家的立法对用户数据的使用进行监管限制后,这些条款有所修改,但仍要求用户对输入内容拥有知识产权,Chat GPT平台也是如此。大多数职业译者对承担的项目文件不一定具有所有权,而在使用在线服务的同时,却通过这个服务条款让渡了文件内容的权限,可能造成法律纠纷。
(4)企业级产品部署成本高。
目前,具备一定实力的语言服务公司或大型企业的翻译部门会自主研发翻译管理系统(TMS)或定制机器翻译引擎。这些TMS基本能够做到从接单、财务、语料、协同、翻译、审校等全流程的技术支持,而机器翻译引擎由于是自主研发、定向训练,因此合规问题得以解决,特定文本类型下的翻译质量也超过免费的商用引擎。但对于普通译者来说,这类TMS和机翻引擎的软硬件成本是高不可及的,无论是采购服务器、开发工具、雇佣开发团队、维护团队,都是一笔高昂开支。
(5)自动化程度低,难以实现规模效应。
有时,译者在操作特定任务时,即使找来数十种软件,仍无法实现“自动化”。例如,负责译前准备的译员要将数千个doc文档转换为docx或TMX格式,或者是,语料库的维护人员需要对几千万句对记忆库中的特定表达进行批量微调,对于这些任务,如果相关人员不会使用编程语言写作基本的脚本,或者使用正则表达式(regular expression),就只能依靠简单的手工劳动,这将严重影响项目的执行效率。
面对这些问题,如果翻译工作者以操作某种既定的软件产品为解决问题的思路,就会受制于工具,难以发挥主观能动性,也就无法享受到技术工具带来的高效和便捷。如果我们能找到一种“元技术手段”,在工具的设计、编程、开发阶段就把翻译工作者的需求结合进去,那么这种工具也就会更有针对性和通用性。一旦我们能够打开这个设计阶段的大门,自然语言处理甚至其他人工智能领域的开源技术成果也就有机会直接应用于译者的工作流程,解决现有的翻译技术难题了。
二、Python编程作为一种翻译技术解决方案
谈到编程,可能会令没有软件开发背景的翻译工作者望而却步。然而,在大数据和人工智能技术飞速发展的今天,迅猛发展的软硬件条件为我们带来了很多机遇。Python是人工智能领域广泛使用的一种编程语言,功能强大,可通过简单易懂的命令集成各类技术模块,按照用户需求开发功能。它具有六大优点(Sarkar,2016:52-54):
(1)友好度高,简单易学。
作为一种解释性语言,Python更像是帮助人们进行编程的软件,它简单易学,国内外很多中小学已将其作为信息技术课程的一部分。因此,从技术上说,翻译工作者学会这种手段并不存在太大的障碍。
(2)风格简洁,可直观操控。
Python语言在设计阶段已经免去了各种繁琐的操作,用户无需处理复杂的底层硬件交互,只需使用简单的命令就能实现需要的功能。用户如要计算机输出一行“Hello World!”只需使用“print”命令即能完成,相比目前主流的编程语言C++和Java,Python的写法显然要简易很多。
(3)开发效率高。
Python语言用20行代码就能写出其他语言需要100行才能实现的功能,这也使得Python代码的开发、运行、调试、部署及维护比常用的C++、Java语言更加便捷。https://wxa.wxs.qq.com/tmpl/on/base_tmpl.html
(4)技术生态成熟。
从1980年代诞生至今,Python积累了庞大的技术资源,从网络应用、智慧系统、数据库到人工智能都有大量的开发成果,任何开发人员都可以在如Git Hub、Source Forge这样的平台上寻找前人的研究成果,避免重复劳动。笔者在翻译流程中实现中文分词、大规模语料获取和本地大语言模型部署,正是使用了这些成果中的Han LP、Requests和Langchain等模块。
(5)开源。
Python生态圈内的技术成果大都以GPL、BSD、MIT、Mozilla、Apache等开源协议发布,成果的代码开源可见,开发者只要遵守协议就能免费使用,安全性高,相应的经济成本则可忽略不计。
(6)扩展能力强大。
Python曾被戏称为“胶水语言”,一是由于它全平台的通用性——既能良好支持现有的Windows、mac OS、Linux等x86平台,又能在i OS、Android、Raspbian等ARM平台上运行;二是由于它能通过各类应用程序编程接口(API)进行调用;这些优点让开发者能够快速实现程序功能整合、叠加,实现规模效应。
除上述六点外,笔者认为以Python语言作为翻译技术的解决方案还存在软硬件方面的两大契机,一是目前硬件价格不断走低,如不处理深度学习等任务,200元左右的单片机或千元左右的赛扬笔记本已能胜任开发环境,而2023年起,拥有4GB以上显存的笔记本电脑甚至能够快速部署出一套本地大语言模型系统;二是当前大数据时代的信息优势使得互联网上储备了大量可供学习者查阅的资料,而译者所具备的查证能力也会帮助他们解决很多问题。管新潮在其语料库教学应用过程中即发现,Python编程并非理工专业的专利,文科背景人士也能掌握(2018:2)。他同时还总结了Python语料库能力三层次:掌握基础性代码;简单语料库实践;以创新方式解决复杂问题。这三个层次恰好也为翻译工作者学会使用Python指出了方向。
自2016年起,笔者开始与具有Python开发背景的工程师合作,尝试寻找自然语言处理领域的既有研究成果,来解决翻译领域中的部分问题。2023年起,笔者将一部分技术案例运用到上外高翻的翻译技术课程中,并对部分参与翻译项目的学生开展以翻译任务为导向的Python编程培训,至今在翻译流程自动化方面取得了一定进展。在下文中,笔者将根据管新潮的“三层次能力”,将翻译工作者掌握Python的过程归纳为基础功能、专业应用和智能融合三阶段,并根据Python编程在翻译任务中的具体应用展开分析。
三、案例分析
(一)基础功能阶段
在这个阶段,通过学会基础开发环境(IDE)操作,理解字符串、列表、字典等基本数据概念,将翻译流程中的需求分解为if/else/for/while逻辑,就能实现一些简易的功能,如分稿、合稿,以及审校分配等工作。
1)译前分工
如果没有TMS系统的协助,大型翻译项目的译前分工也会消耗译者较多精力,即使是主流的CAT工具,也需要诸如XLIFF Split这样的工具来干预,而这些工具需要一定的时间上手学习。在Python中,如果借助Pythondocx模块,就能轻易实现Word文档的分工。
以英译中项目为例,如果有两名译者,每人负责20000字,分工代码如下:
这段代码的主体思路是利用docx模块的paragraphs方法读取原文段落,先提取纯文字信息给变量n1,再将n1切分成单词输入n2,借助变量counter统计字数,一旦达到2万字,就在相应段落结尾插入“译者1结束,译者2开始”。变量write_ tr1相当于是第一个if分支的开关,当第一条分工信息写入文档后,这个if分支就被关闭。对于多名译者参与的大项目,可以逐块添加if分支。图2中的文档即经过了这段代码的处理,这是一个8万余字、由4名译者参与的项目。
2)译后合稿
译者在完成分工后的稿件后,译文分别位于译者各自的分工文件上,这时就需要进行合稿。对于大型项目,如果进行手动复制、粘帖操作,显然是费时费力,有时甚至会破坏原稿的排版。
使用Python-docx模块,也能实现Word文档的批量合稿功能,主体代码如下:
变量p1和p2分别包含了两个文档的段落内容,我们通过第一个for循环将文档1内的所有文字连接成一个字符串,并在第二个for循环中,将文档2中增加的文字插入文档1相应的段落下。
3)审校/QA分配
图3展示了参与一个项目的20名译者信息,在完成初译后,他们要进行一对一的互校工作。在匹配译审这个环节上,Python可以通过不同方法进行配对。
较为简单的方法是进行随机配对,可通过引入random函数完成,代码如下:
我们既可以将全部译审的姓名赋值给变量string,也可以调用Pandas模块直接读取excel表格中的“姓名”一栏,再通过随机函数每次随机配对两人,最后通过for循环在剩余的译审中继续配对。
配对结果如图4,以上代码只是展现了一种配对方法,如果想要按照译审的级别、过往表现、报价等因素进行匹配,则可以将这些参数写入相应的模块进行筛选。
(二)专业应用阶段
在这个阶段,如果能够了解语言服务行业专用的数据结构,结合Python生态圈中的科学包、功能库等外部模块,并掌握如何根据这些结构调用外部模块,就能实现一些复杂的功能。
1)汉译外项目中的中文术语提取
中文术语提取(亦称“术语登录”、“关键词提取”)问题是人工智能领域研究的重点(逯万辉等,2013:46),具体包括候选关键词生成、特征工程和关键词提取3个主要步骤(常耀成等,2018:2046)。目前自然语言处理领域已有诸如Jieba(利用人民日报1998年中文标注语料库和BMES法设计模型)、Han LP(基于互信息和左右信息熵来提取文本短语)等成熟的中文分词模块,通过一定设计,可完成分词、N-gram及词性标注的工作。完成分词后,则可利用词频、长度、位置、外部知识库、主题、词嵌入向量等特征,提取翻译工作中需要的术语。
以笔者参与的《人民政协组织架构和运作程序》外译项目为例,我们选用题材领域相近的1998年《人民日报》(1-6月)中的18707篇新闻,训练了TF-IDF词典,并据此提取术语。TF-IDF是一种无监督的提取方法,适合用于提升翻译流程的自动化水平。该方法的实现相对简单,但提取效果较好(同上:2062)。如果能配合N-gram、词性标注、主题特征等技术,则可能进一步获得更佳的分词结果。
简易情况下,调用Jieba模块进行分词只需要使用import命令以及jieba.cut方法。全部代码可以写成:
在以上代码中,我们使用Counter来对切分后的高频术语进行计数,完成统计后可以直接将结果输出到命令行中,也可以加载xlwt模块,将数据到处至excel表格。
在对8万字的文稿进行处理后,我们可以在图5左侧看到Python程序输出的高频术语统计结果。图5右侧展示了Han LP模块提取的短语,该模块使用了另一套算法,因此提取模式和排序与Jieba不同。
2)术语提示https://wxa.wxs.qq.com/tmpl/on/base_tmpl.html
完成术语提取之后,我们通常会对这些术语做一些手工调整,然后进行预翻译,并以数据表的形式储存。
如果不使用CAT工具,很难在普通Word界面下向参与项目的译者精准展示这些预翻译的术语,他们只能频繁在Word和术语表之间进行切换、查询的操作,严重影响效率。为了解决这个问题,我们可以尝试以下代码:
首先利用Pandas库读取术语表,将其中的原文、译文导入Python词典dic_term中。随后,可以参照“译后合稿”一节的思路,将待译全文以段落为单位导入一个列表中,对于列表中的每一个段落,如出现dic_term中的键(key)则在段尾写入键值(key and value),效果如图6。由于此节开始涉及代码较多,限于篇幅,后文不再列出代码部分。
3)早期语料批量转换标准记忆库格式
笔者所在团队拥有数十GB的Word文档,大都以中英对照方式保存,需要将这些文件制作成标准的翻译记忆交换格式(TMX文件),才能充分利用这些语料的价值。通过调用上文提到的Python-docx模块,我们顺利地将这些文件转换成了翻译记忆库。
在转换过程中,为了充分保留段落信息,我们选择了“段落对齐”作为单位,因此算法相对简易。若想以“句段对齐”为单位,则可以考虑通过Py Win32调用第三方软件如ABBYY Aligner等工具的窗口句柄实现。
(三)智能融合阶段
基于前两个阶段的基础,在这个层面,我们可以利用现有的互联网、人工智能、大数据等技术,开发出智能翻译技术解决方案,实现多领域跨学科互动,产生聚合效应。
1)从脚本到UI、从本地到云端的翻译解决方案
前两个阶段的应用仅限于在IDE中编写代码,这些代码还不是真正意义上的程序,译者如想将代码功能分享给团队成员并不方便。对于完整的程序开发而言,还应包含用户界面(UI)的设计,在Python中实现用户界面非常方便,其默认自带的Tkinter和Py QT皆能较好地实现用户界面设计。
图7展示了利用Tkinter为上一节TMX转換工具创建的UI,借助Python全平台的通用性,配合Py Installer,我们可以将搭配UI的程序分发给Windows、mac OS、Linux下的团队成员使用。当然,如果想做到异地成员无缝衔接,我们也可以利用其他Python网络模块的资源,搭建云平台运行服务,让团队能在全球各地访问到这个程序。在笔者的教学过程中,亦有对Python展现出浓厚兴趣的学生陆续开发出双语文档分割、合并、TMX语料预览等增强功能模块,一同集成在这个软件界面中,为学生团队的翻译项目带来了便利。
2)本地大语言模型部署
进入2024年,本地大语言模型领域不断迎来新的技术突破,尤其是Ollama等本地大语言模型架构的问世,以及大模型开源和GPU性能提升,使得大模型的应用门槛大大降低(Touvron et al.,2023),相关技术逐步成为翻译行业的一项可行且高效的解决方案。
在翻译实践中,客户特定需求的参考文档(如术语表、行业报告等)对翻译任务的指导作用显而易见,尤其是对于术语一致性、背景理解等方面。这些文档通常包含重要信息,但由于数据安全和隐私问题,直接上传到如Chat GPT等在线平台进行处理并不可行。因此,基于Python编程、Chroma DB向量数据库和Web UI前端框架结合本地大语言模型的RAG(Retrieval-Augmented Generation)技术,成为一个理想的解决方案(图8)。目前,该框架支持的大模型包括Llama、Mistral、Qwen、Gemma等,Llama是Meta推出的第三代大语言模型,参数规模高达700亿;而阿里巴巴研发的通义千问(Qwen)则提供了最大1000亿参数的版本,专为中文场景优化。借助该架构,翻译团队可在本地顺畅、安全地运行大模型,结合客户提供的参考文档及团队积累的语言资产,高效地完成翻译任务,同时有效规避数据外泄等合规风险。图9展示了笔者团队在翻译项目中,对本地部署的Qwen 2.5模型输入客户参考文档数据后的问答界面。
3)大数据语料库建设
平行语料库建设是翻译团队重要的工作,例如在教学过程中组织学生创建一定规模的集体共享语料库(Colina,2003:67)。而传统手工方法收集平行文本等语料效率低下,个体自建可行性差(阳琼,2018:27)。笔者团队在实践中,由于需要启动、切换不同工具,同时耗费大量时间进行对齐操作,一个5人组成的语料团队一小时只能建立约2万字的语料库。显然,这样的规模会影响语料库的参考价值。
随着人工智能、大数据技术的发展,部分研究者开始利用自动化工具建立规模化的语料库,涉及语种不但包括英语,也包括意大利语(Zanettin,2014:195)、阿拉伯语(Atwell,20:102)等。在这些建库方案中,不少人借助了Baroni等人开发的工具Boot Ca T(2004)。正如上文提到的,此类软件工具存在一定学习成本,灵活度较低。而另一些学者则开始将IT领域的技术运用到语料库建设中,如美国当代英语语料库(COCA)的建设过程中,Davies利用VB.NET结合关系数据库技术,实现了亿级字数规模的语料库收集工作(Davies,2005:309;2009:163)。但上述方案中,作者并未公开技术细节,对缺乏软件开发背景的翻译团队而言,存在较高的技术门槛,很难在实践中运用这些技术。
不过,如果我们将Python、Requests、Beautiful Soup(或Xpath)三者结合,就能设计出类似的大规模获取在线语料的工具(赵政廷、柴明熲,2024)。Requests库为用户提供了便捷的http访问,我们在分析网页的结构、定位语料位置后,就能使用这个库来请求数据,而Beautiful Soup则为用户提供了方便的XML语言过滤功能,我们甚至不用使用正则表达式,就能从HTML网页中提取到文本文件(Dale,2016:162)。最后,只要熟悉TMX文件的结构,我们就可以直接利用Python将这些内容写入TMX,甚至利用开源关系数据库如My SQL等工具,建立安全性更高、访问效率更佳的SQL语料库。具体的操作流程如图10。
通过以上方法,程序在几分钟内即可收集32万字的中英双语平行语料,效率远高于人工(赵政廷、柴明熲,2024)。此外,已经编写完的功能模块可以像乐高积木一样排列组合,满足译者各种任务需求。若在程序头部加入批量导入网络资源的功能,那么这个程序收集语料的规模将能够扩展至干万甚至数亿字数的规模。
四、结语
专业翻译领域的翻译技术应当通过友好的用户界面、直观的操控、流畅的体验、全方位多维度的资源、强大的任务完成能力来帮助译者,减轻译者在沟通客户、协调团队、翻译理解和表达过程中的体力与脑力负担,实现最高效的决策,产出高质量的译文。
通过笔者展示的案例,我们可以看到,对于翻译工作者而言,将Python编程技术引入翻译技术中具有以下优势:
(1)直面现有翻译技术的困境,解决学习曲线陡峭、部署成本高昂、隐含合规风险等问题;(2)融合人工智能和大数据技术,实现中文术语提取、大规模平行语料库构建和本地语言大模型部署等功能;(3)Python强大的通用性和扩展能力可以覆盖完整的翻译流程,消除工作自动化的盲点;(4)将能改变传统依赖某一类软件操作的技术范式,帮助译者转向“元技术”层面的应用,大幅提升工作质量和效率。
这种融合对翻译人才的培养也是大有裨益的。有学者指出,随着社会的高速发展,翻译专业人才的需求也从原来单一的语言类人才向语言、技术、管理、市场等多元技能融合的复合型人才发展(柴明熲,2019:6)。信息技术的进步、学习方式的转变,逼迫教育方式必须进行相应的变革(胡加圣、陈坚林,2013:12)。过去的一些成见可能认为学习有“文科理科”之分,编程语言这类理工色彩浓厚的技能学习会让文科背景占比较大的翻译专业学生勉为其难。然而,Python平缓的学习曲线和大数据时代取之不尽的学习资料将极大降低这种学习难度,因此它仍适合对翻译技术有兴趣的学生学习。笔者在教学过程中也发现,在一堂课的讲解后,英美文学背景的学生也能快速写出正则表达式,完美解决语料库和翻译文件中出现的标签(tag)问题;在几次练习之后,也能渐渐懂得利用动态规划(dynamic programming)解决类似斐波纳契数列求和算法性能的问题。此外,将Python编程纳入翻译技术教学也将有利于翻译跨学科研究,正如有学者指出,“翻译的跨学科研究往往是翻译学与一门其他学科的结合,但翻译活动的复杂性决定了某些翻译问题需要多个学科的共同参与才能有效解决,翻译学中的很多问题需要使用超学科的手段,把人文社会科学与自然科学知识结合起来解决”(谢柯、邱进,2018)。Python正是这样一种可以用语言驾驭的“超学科手段”。在国家发布《新一代人工智能发展规划》及《教育信息化2.0行动计划》的背景下,我们要用好这件工具,通过它来探索翻译学科和人工智能技术之间的融合点。