Covid-19带来了历史上最大的翻译挑战
谷歌翻译仅能支持100种语言,然而世界上还有其他语言游离在大家视线之外,当Covid-19袭来时,使用这些语言的人如何获得有效的信息呢?要知道在这段时间,我们面对的挑战不仅仅是一种或几种语言的翻译问题,而是上千种。
最近Covid-19的信息充斥在生活的方方面面,从洗手的海报,社交疏导的宣传,到戴口罩的教学视频,你随时随地都可以看到它。
当新冠病毒在全球范围内爆发时,将更多的信息传递给世界上的所有人变得非常有必要,这意味着需要将Covid-19的公益广告以准确而合适的方式翻译成尽可能多的语言。
在以英语为母语的互联网上,人们很容易忽视语言的使用对健康问题的影响,当你遇到“头疼的时候怎么办?”之类的问题时,只需在维基百科或WebMD(美国互联网医疗健康信息服务平台)上快速搜索即可得到很多答案。但对于世界上超过一半的人来说,人们无法通过Google来查询症状,甚至无法从医生那里得到病情诊断手册,因为他们使用的语言这些平台都不支持。
语言差异带来的翻译挑战
语言差异带来的挑战并不是Covid-19特有的。位于危地马拉的Wuqu' Kawoq(发音为woo-ku-ka-woke)玛雅健康联盟是一个非营利性组织,在过去的13年中一直以基切语、喀克其奎语等玛雅土著语言为当地居民提供健康支持。Wuqu' Kawoq的客户中有一位说喀克其奎语的妇女,她知道自己患有“糖尿病”——她记住了医生告诉她的这个词,但是并不清楚这意味着什么。治疗糖尿病的重要方式之一就是通过精心控制摄入的食物来平衡血糖,但这个未翻译的名字并没有教她这些东西。
Wuqu' Kawoq在与医学专家的协商下,将糖尿病翻译成一个喀克其奎语的词语—— kab'kïk'el,字面意思是“甜蜜的血液”。这个新的名词让Wuqu' Kawoq的医护人员很容易向患者解释这种疾病:你的血液太甜了,你需要通过少吃甜食来降低血液的甜味。有了这些信息,这位妇女就可以回去向家人解释她的食物需要做出什么改变了。
与糖尿病一样,Covid-19的治疗和我们的生活方式相关——在疫苗研发出来之前,我们应对这种疾病的最佳办法是改变我们的生活方式。目前我们将面对的是通信紧急状况——世卫组织称之为 “信息流行病”。(信息流行病指的是,在此次新冠肺炎疫情爆发期间,线上线下过多的信息——有些准确有些不准确,使得人们在有需要的时候难以找到可信赖的消息源和可靠的指导。)
过去Wuqu' Kawoq的任务通常是服务如糖尿病、助产和儿童营养不良等初级保健问题,陪同本土客户到讲西班牙语的医院进行口译。而在过去的几个月里已经改变了,他们现在需要担任翻译工作,用玛雅语言制作关于Covid的播客,然后在当地电台播出——这对于并非总是可以使用互联网服务的农村偏远地区来说是最有效的传播方式。
2
Covid-19翻译项目正在进行的努力
这段时间世界各地涌现了众多Covid-19翻译项目,Adivasi Lives Matter(印度帮助原住民的机构)一直在用印度当地的多种语言制作信息表,包括可达古语、马拉他语和奥里雅语;澳大利亚北领地政府使用民族语言制作疫情相关的视频,包括雍古语、平图皮-鲁利加语、窝尔皮里语;西雅图的金县用当地移民和难民社区使用的语言,如阿姆哈拉语、高棉语和马绍尔语,来制作新冠病毒说明;喀麦隆当地组织在制作使用喀麦隆语言的视频,包括奥西语、亚罕语和巴福特语,并由当地知名的社区成员担任传播官。中国前段时间也在发布湖北话、蒙古语、彝语、朝鲜语等多种语言的信息。
一份由“濒危语言项目”维护并定期更新的列表显示,在政府、非营利组织和志愿团体的共同努力下,已经有超过500种语言的关于Covid-19的信息被创建,并且数量还在不断增加,其中包括400多个覆盖了150种语言的视频。一些项目专注于提供更短,更标准化的信息,例如将世卫组织的五项指南海报翻译成220多种语言,或者将辟谣简报翻译成60多种语言。
这些工作很大部分是由个人或当地团体进行的,他们觉得自己有这方面的责任。
然而现实情况也没那么乐观。南非政府被批评主要用英语进行疫情简报,而不是在其余10种官方语中选择至少2种;因为没有像苏格兰、威尔士和北爱尔兰那样在政府例行简报中加入手语翻译,英格兰政府已经面临法律诉讼。
3
过往的全球流行疾病提供了一些经验借鉴
总的来说,人们已经认识到语言是Covid响应的重要组成部分,这种理解来自于来之不易的经验。当呼吸系统疾病专家谈论Covid-19之前的例子时,他们往往会谈论SARS和MERS;当语言专家谈论疫情大流行时,有两个例子不断出现:2010年的海地地震、西非(2013-2016年)和刚果民主共和国(自2018年以来)的埃博拉疫情。
在这两起事件中,当地人说的语言都不是救援人员广泛使用的语言。在海地, 这导致了一项名为“4636”的计划,当发现被困在建筑物内的人或需要医疗救助时,海地人可以给“4636”号码发送求助消息,来自世界各地的海地移民的志愿者将数以万计的信息从海地克里奥尔语翻译成英语,并在10分钟之内转发给援助人员。
而埃博拉疫情的语言挑战更大。刚果民主共和国至少有七种主要语言——法语、刚果语(基图巴语)、林加拉语、斯瓦希里语、茨卢巴语、非洲法语国家手语和美国手语——还有更多更小众的语言。
无国界翻译组织(TWB)最近的一项研究反应了人们对网络医疗的普遍愿望:研究参与者对诸如“您必须早点前往埃博拉治疗中心才能治愈”之类的信息表示沮丧。他们希望获得关于治疗药物的工作原理以及为什么选择这些药物的更详细的解释。人们希望获得详细信息以帮助他们做出决定,并且希望以“社区语言”——即他们熟悉并且能够理解的语言和概念来表达他们的意思。
对刚果民主共和国的妇女来说,她们更有可能只讲南德语和其他地方语言,而依赖法语和斯瓦希里语等通用语言的医疗健康系统可能会对她们造成伤害。
语言对Covid-19的防治来说同样重要:提供有关疾病如何传播的详细的信息,使人们能够在意外情况下制定合理的预防措施,并以适当的社区语言发布这些信息,这有助于取得人们的信任。
4
机器翻译会带来帮助吗?
在这段时间,我们面对的挑战不仅仅是一种或几种语言的翻译问题,而是上千种。当今世界上已知的语言有7000种,其中至少有1000-2000种正在使用。
在某些情况下,机器翻译可能会有所帮助,但需要谨慎对待。下面是一个出错的例子:用谷歌翻译将“洗手”翻译成日语时结果是手を洗いなさい(te o arainasai),而这种语法更多发生在父母与孩子的谈话中,当这个词出现在面向成年人的海报时很容易给人留下不好的印象。
对于欧洲语言,谷歌翻译倾向于使用非正式的、单数形式的“you”,这在官方海报中不常用——在这种场合人们倾向于使用更礼貌的形式(法语中的人称代词可相当复杂)。我们测试了十几种语言,发现只有两种语言的结果是完全准确的:韩语和斯瓦希里语。虽然这一点看起来无关紧要,但想象一下,你的医生问你“有人伤害了你的肚子吗?”(通常对儿童使用这样的语言),而不是问你是否肚子痛,是不是很奇怪?
这并不是说机器翻译一点用都没有,在这个时候,迅速得到要点比细微翻译要重要得多,比如当人们在密切关注是否出现新的谣言时,可以用机器翻译快速排序和筛选信息。
机器翻译的更大问题是,有很多语言它并不支持。机器翻译往往适用于资源丰富的语言,比如有大量可以用作训练数据的新闻网站和词典,就像法语和西班牙语。而无国界翻译组织面对的情况是,他们正在将Covid-19的信息翻译成89种语言,其中25种(约三分之一)根本不在谷歌翻译中,比如卡努里语、达里语和提格里尼亚语。
谷歌翻译支持109种语言,必应翻译支持71种,维基百科也只支持309种语言——与濒危语言项目列出的500多种语言相比,这些数字都显得苍白无力。自3月中旬以来一直在维护语言列表的安娜·贝露告诉我,她每天都要增加十几种语言,而且这个数字还被低估了——该列表故意排除那些资源丰富的语言,例如荷兰语。
5
缺陷和潜力并存
疫情大流行暴露了社会系统中存在的缺陷和机遇。一方面,汽车和飞机出行的减少意味着空气质量的改善和碳排放的减少;另一方面,受到Covid-19影响最大的是那些已经被边缘化的人,包括移民工人,难民和土著人民。
互联网语言结构的缺陷在于,科技平台主要支持大约30到100种主要的、资源富裕的语言——自2016年我开始跟踪这些语言以来,这些数字并没有显著增加。
潜力在于,由专业人员和志愿者组成的分布式翻译网络能够在几个月内以500多种语言提供Covid-19信息——这些人创造的语言资源是维基百科19年积累的两倍,是谷歌翻译14年积累的五倍。
科技平台需要弄清楚如何跟上新的现实,人们应该有更丰富的语言权利,获得更多的信息,而不仅仅是简单的Covid 公益广告。
从长远来看,无国界翻译组织也希望通过一个名为“Covid-19翻译倡议”(TICO-19)的项目来帮助解决这一技术问题。他们正与卡耐基梅隆大学以及微软、谷歌、Facebook和亚马逊等大型科技公司的研究人员合作,将Covid-19的相关信息翻译成36种语言,然后将这些翻译材料用于训练机器翻译——机器翻译和自动语音识别等工具需要大量的文本和录音材料进行训练。
虽然这个数字不是500,但这是一个新的开始。正在从事TICO-19工作的CMU博士后安东尼斯·阿纳斯塔索普洛斯说:“我希望所有弱势语言的翻译项目可以用纯文本格式发布数据,这样更易于在社交媒体上共享,而不是采用难以阅读的PDF格式或图像文件。”
TICO-19项目之所以能够快速运转起来,也是因为无国界翻译组织自2017年以来一直在进行类似的小项目——与科技公司合作,将几种弱势语言的翻译材料作为训练材料,让技术产品支持这些语言,例如卡努里语语(针对尼日利亚东北部的国内流离失所者)和罗兴迦语(针对孟加拉国的罗兴迦难民)。
正如我们为抗击病毒所做的努力一样——待在家里、洗手、费力地测试候选疫苗,通信方面也是如此。技术仍然有作用,比如向翻译人员提供海报模板和视频脚本,跟踪最新的语言列表以避免重复工作,在通讯工具群发海报和视频,在互联网时代之前,所有这些都是不可能的,尤其是在社会距离遥远的情况下。
但可惜的是,这些工作依靠的是共享电子表格、电子邮件列表和手机摄像头等简陋的、以人为媒介的工具,而不是“神通广大”的人工智能。
历史学家和小说家阿达帕默指出, 这是人类历史上首次对流行病有这么丰富的了解,实际上我们已经知道如何防止情况恶化——即保持社交距离,等待疫苗的研发。我们有责任分享这些信息,一同搭建一个遍及全球每个角落的语言服务网络。
原文标题:Covid-19 Is History’s Biggest Translation Challenge
原文地址:https://www.wired.com/story/covid-language-translation-problem/
原文作者:Gretchen McCulloch