Google翻译
谷歌翻译(英语:)是一项由Google于2006年开始提供的翻译文段及网页的服务[3]。与其他网站巴别鱼、美国在线及雅虎使用的SYSTRAN引擎不同的是,Google使用自己开发的翻译软件。至2015年6月,Google翻译每天需要处理超过10亿笔字词[4]。2016年,Google翻译正式于英语-拉丁语翻译中引入Google神经机器翻译系统,并已于2017年3月前成功将其拓展至所有语言上[5]。
![]() | |
网站类型 | 机器翻译 |
---|---|
语言 | 133种 |
持有者 | |
创始人 | |
网址 | |
商业性质 | 是 |
注册 | 否 |
推出时间 | 2006年4月28日统计机器翻译)[1]
2016年11月15日 (神经机器翻译)[2] | (
现状 | 活跃 |
Google翻译提供即时翻译功能(即时输入即时翻译),用户可以在左边的输入字段输入文本,翻译结果会即时在右边的结果框显示。将鼠标移到翻译结果文本上可以看到其对应的原文。此外,Google翻译亦提供朗读功能(包括原文和译文),用户亦可查看中文的拼音、日文的罗马字、及韩文似,Google翻译亦有其自身功能局限。虽然用户可以通过其帮助来大致理解以外文书写的文章大意,但Google翻译服务无法提供准确的译文,也不能提供可用于出版的内容,例如,它经常会不依据上下文来翻译词汇,而且会在翻译时不遵守语法规则,这是因为其机器翻译算法与传统的基于语法分析的算法不同,采用的是基于统计分析的算法。而Google翻译的质量也与语种有关,当源语言是一种欧盟语言,而目标语言是英语时,往往质量较好。2010年的分析显示,法语到英语的翻译相对准确[6],2011年和2012年的分析显示意大利语到英文的翻译同样相对准确[7]。2021年,加州大学洛杉矶分校医学中心(UCLA Health)的一项研究表明,英语翻译至西班牙语的准确率有94%,英语翻译至亚美尼亚语的准确率只有55%[8]。然而,当所翻译的文本较短时,其他规则法机器翻译(rule-based machine translation)却表现得更好,这在中文到英语的翻译中尤为明显[6]。

使用较广泛的语言都有“朗读”功能,对多中心语言而言,朗读采用的口音取决于所在地区。
方法
Google翻译采用的翻译方法称作“统计机器翻译”,具体而言,采用的是基于Franz-Josef Och参加2003年美国国防部高级研究项目局(DARPA)的机器速度翻译竞赛时获奖的研究成果。Och现在领衔Google机器翻译小组。
根据Och的说法[9],若想要开发一个可用于翻译一对全新语言对的统计机器翻译系统,必须做好如下的数据基础搜集才能有保障:一个拥有百万的单字数量级别的双语文本语料库(或者其平行库集合),以及属于这两种语言的单语语料库,各自得拥有十亿以上的单字。然后,用于翻译这一对语言的机器翻译结果就会通过这些数据产生的统计模型而得出。
为了获取这种海量容量的语言学数据,Google采用了联合国文档作为语料库内容来源。[10]由于同样的一份联合国文档通常会有属于六种联合国官方语言的译本,因此,Google如今就拥有了一个相当于经人工翻译了两百万单字的七种语言的语料库。
而这一点很可能就是Google翻译之所以一开始专注的是开发英语和阿拉伯语、中文之间的翻译系统,而非英语和日语或英语和德语这两对语言之间的翻译系统的原因。因为阿拉伯语和中文属于联合国六种官方语言,而日语、德语不是。
翻译语言
目前Google支持翻译133种语言。
2008年5月以前(按开始提供的时间顺序排列)
2009年6月19日开始
2010年1月25日开始
2012年9月开始
2013年4月开始
2022年5月开始
正在开发的语言
这些语言还没有被Google翻译支持,但在翻译社群中有提供。[16]
- 粤语
- 切罗基语
- 罗曼什语
- 西西里语
- 塔玛哲特语(tzm)
- 藏语
- 沃洛夫语
- 阿法尔语
- 博多语
- 布列塔尼语
- 车臣语
- 恰蒂斯加尔语
- 吉汤加语(Chitonga,尚比西语 Zambezi)
- 吉大港语
- 卢欧语
- 迪欧拉语
- 伊多语
- 埃菲克语
- 埃桑语
- 丰语
- 嘉华语
- 哈里亚纳语
- 伊努克提图特语
- 卡姆巴语,Kikamba (基坎巴语)
- 基库尤语
- 卢巴加丹加语
- 摩揭陀语
- 马尔瓦里语
- 米南佳保语
- 黑山语
- 莫西语
- 尼日尔利亚皮钦语
- 尼瓦尔语
- 北萨米语
- 北索托语
- 邦板牙语
- 萨德里语
- 萨莫吉提亚语
- 塞拉诺语
- 茨瓦纳语
- 南恩德贝莱语
- 苏贾普尔语
- 刚果斯瓦希里语(民主刚果,swc)
- 卢巴开赛语(Luba-Kasai,西卢巴语 Western Luba,齐鲁巴语/奇卢伯语 Ciluba/Tshiluba)
- 文达语
- 瓦尔哈迪-那加普里语
- 宗喀语
- 茨瓦语
- 桑塔利语
- 克什米尔语
停止开发的语言
- 卢欧-阿乔利语(Luo)(Acholi 阿乔利语)
- 奥里贝什文(2015年11月推出,2016年2月删除)
人声朗读
女声
中性声音
男声
集成
浏览器
划取翻译功能是现代浏览器的重要基础功能,翻译的集成意味着打破文化壁垒,Opera和Firefox的翻译插件亦是利用谷歌翻译API作为扩展进程的内核外部接口。不过当下许多浏览器厂商,在浏览器大战背景下,出于激烈竞争,已经做出了一站式服务,例如Windows10中自带的MicrosoftEdge,微软专门为此定制了浏览器插件版的微软必应翻译。
字典软件
开发者可以利用谷歌提供的API,对软件集成联网翻译功能。这些软件通常是通过集成翻译功能,实现对原有用途的用户需求满足,所完善而来。例如阅读软件、在线资料搜索时集成的WebJS小进程,由于信息技术的普遍应用和入口之争以及成熟度,目前已不再有着垄断地位,也就不存在增加翻译功能需要收费或是插广告,除非是态度问题,否则一般会作为硬性标准。
掌上翻译进程/电子词典
当今智能手机和平板电脑平台上,亦有很多基于Google翻译而衍生成的翻译软件。不但在今日动则几十M的软件膨大趋势下做到了体积小巧,而且可以下载离线字典调用,甚至可以翻译屏幕上光标停按的部分。
争议
中文政治类误译事件
中文谷歌翻译曾多次在两岸关系、中国内地与香港关系等政治类议题上出现误译,引发争议。
2006年、2007年,谷歌翻译相继出现「辱华」翻译,「I thought this was shame(我认为这是一个耻辱)」被误译为「我认为这是中国的耻辱」,「物极必反」被误译为「Taiwan independence(台湾独立)」。[17]
2012年,有网友发现「Taiwan is not a part of China(台湾不属于中国)」被误译为「台湾是中国的一部分」。若将句中的台湾换成其他国家,误译同样成立。另外无论输入「Diaoyu Islands is not a part of Taiwan」或「Diaoyu Islands is not a part of Taiwan」,均会出现「钓鱼岛属于台湾」。[18]
2018年,谷歌翻译在「A比B厉害」这一类句子的翻译上出现错误,「中国比台湾厉害」被翻译成「China is worse than Taiwan」,即「中国比台湾差」[19][20]。
2019年香港反对逃犯条例修订草案运动期间,网友发现「so sad to see Hong Kong became China(很难过看到香港变成中国)」被误翻译为「很高兴看到香港变成中国」。网友猜测有组织对谷歌翻译进行攻击,从而影响翻译结果。[21]
2020年,台湾网友指谷歌翻译即使在选择繁体中文的情况下,仍会出现较多中国大陆习惯用语,如「President Tsai Ing Wen(蔡英文总统)」竟被翻译成「蔡英文主席」。同样的错误在微软翻译中也有发生。有台湾网友担忧台湾习惯用语会因翻译软件流行而被大陆习惯用语取代。[22]
2021年1月,有网友发现「China breaks promise(拉)」被误译为「中国信守承诺」。但将中国替换成其他国家后并不会出现错误翻译。[23]
2021年11月26日,有中国大陆网友发现,在谷歌翻译的英文翻中文进程中,在英文对话框输入“艾滋病毒”等相关词汇,对应的中文翻译就会出现恶毒攻击中国的词汇[24]。该消息经部分媒体及安徽团省委的微博发布后,一度登上微博热搜,并导致大批中国大陆网友在评论区表示抗议,称该事件为“人为导致”,也有网友在验证后发现部分结果还出现攻击美国、俄罗斯等国的词语。同日晚间,Google官方微博@Google黑板报先是在北京时间22:03发布微博,表示“我们已经了解到Google翻译出现的问题并正在解决。”随后在23:14分,Google在微博上表示问题已经解决,并称“Google翻译是一个自动翻译器,通过数百万已有翻译的模式为用户找到最佳翻译,然而有些模式会导致错误的翻译。”[25]而有网友在验证后表示,该事件疑似为有预谋及通过机械学习等行为操纵的行为,所谓“辱华”流程的验证逻辑与用户的正常使用习惯不同,该次事件与2009年谷歌涉黄事件之中出现“儿子母亲不正当关系”等“涉黄”联想词的行为类似[26]。
俄文误译事件
2022年4月9日,据多家俄罗斯媒体报道,在谷歌翻译的英文翻俄文进程中,在英文对话框中输入词组“亲爱的俄罗斯人(dear russians)”后,进程会建议将该词组替换成“死去的俄罗斯人”,并且在翻译后的俄文对话框中该词组中的形容词“亲爱的”会被替换成“死去的”,但是在翻译该词组中带有其他国家的名称时,则没有出现上述错误。[27]目前Google已纠正该错误。
于中国大陆之现状
2014年5月31日起,Google所有服务(各个IP段)在中国被大规模干扰至今[28],但因为翻译及地图网页版服务有域名后缀为.cn的入口,并且使用了专门设立在中国境内的服务器和IP地址,所以翻译及地图网页版仍然能正常服务。
2017年3月29日起,中国大陆用户可以直接使用Google翻译而不需要使用代理。在此之前,翻译需使用代理而无法直接翻译,但下载离线翻译包后可使用离线翻译进行翻译。[29][30]
2021年9月初,大量用户表示谷歌翻译app在不使用代理的情况下仅可使用转录,但网页版还能正常使用。
2022年9月26日,谷歌中国搜索页面到Google翻译的链接被移除[31]。9月29日,Google将位于.cn域名的Google翻译网站关闭,只留下一个到.hk域名的跳转页面,并像搜索页面一样标记“请收藏我们的网址”[32][33],这意味着Google翻译服务已不在谷歌中国的网站上提供。9月30日,一名Google发言人告诉TechCrunch关闭该服务的原因是“使用率低”[34][35]。这一变化影响了中国用户的文档查看器KOReader等应用进程的翻译功能,以及Chrome的内置翻译功能[35][36][37]。
参考数据
- Orch, Franz. . Google Research Blog. April 28, 2006 [December 1, 2016]. (原始内容存档于2017-03-20).
- Turovsky, Barak. . The Keyword Google Blog. November 15, 2016 [January 11, 2017]. (原始内容存档于2017-04-07).
- . [2019-01-24]. (原始内容存档于2016-02-14).
- . ETtoday新闻云. 2015-06-24 [2015-06-27]. (原始内容存档于2019-12-11).
- . [July 9, 2017]. (原始内容存档于2021-01-12).
- . (原始内容存档于2011-02-10).
- . [2013-08-29]. (原始内容存档于2013-11-07).
- . [2021-03-20]. (原始内容存档于2021-04-19).
- 于2005年机器翻译峰会上的主旨演讲
- . [2009-01-06]. (原始内容存档于2021-01-18).
- . Google. 2010-05-13 [2010-10-11]. (原始内容存档于2016-05-27) (英语).
- . Google. 2010-09-30 [2010-10-11]. (原始内容存档于2020-11-09) (英语).
- . Google Translate Blog. [2020-10-10]. (原始内容存档于2020-12-30).
- . Google. 2012-02-22 [2012-03-17]. (原始内容存档于2016-03-05) (英语).
- . IT之家. 2020-02-27 [2020-03-21]. (原始内容存档于2020-03-21).
- . [2016-06-07]. (原始内容存档于2017-09-15).
- . donews. [2021-12-09]. 原始内容存档于2007-05-09.
- . 自由时报. [2021-12-09]. (原始内容存档于2022-04-21).
- . 新浪. [2021-12-09]. (原始内容存档于2022-04-06).
- . 自由时报. [2021-12-09]. (原始内容存档于2022-04-21).
- . 自由时报. [2021-12-09]. (原始内容存档于2022-04-21).
- . 自由时报. [2021-12-09]. (原始内容存档于2022-04-21).
- . 自由时报. [2021-12-09]. (原始内容存档于2022-04-21).
- 丁洁芸. . 环球网. [2021-11-27]. (原始内容存档于2022-04-21).
- . 俄罗斯卫星通讯社. [2021-11-27]. (原始内容存档于2021-11-27).
- . 微博. [2021-11-27]. (原始内容存档于2022-04-21).
- . 环球网. [2022-04-12]. (原始内容存档于2022-04-21).
- . Google. 2014-05-31 [2014-07-08]. (原始内容存档于2017-05-15).
- . [2017-03-29]. (原始内容存档于2017-03-30).
- . [2017-03-29]. (原始内容存档于2017-03-30).
- 移除前:26日5:58的存档,存档于(存盘日期 2022-09-26)
移除后:26日9:26的存档,存档于(存盘日期 2022-09-26) - . Solidot. 2022-09-29 [2022-09-29]. (原始内容存档于2022-09-29).
- . [2023-09-09]. 原始内容存档于2022-09-29.
- Kyle Wiggers. . TechCrunch. 2022-09-30 [2022-10-01]. (原始内容存档于2022-10-01).
- ugmbbc. . 中文业界资讯站. 2022-10-01 [2022-10-01]. (原始内容存档于2022-10-01).
- 蔡苡柔. . 香港01. 2022-10-03.
- 唐正. . 新唐人电视台. 2022-10-03 [2022-10-06]. (原始内容存档于2022-12-02).
- Aamoth, Doug. . Time. [2019-09-25]. (原始内容存档于2018-05-04).