TA的每日心情 | 擦汗 2022-12-14 14:46 |
---|
签到天数: 6 天 [LV.2]偶尔看看I
|
作为一个科技从业者,阅读AI顶会的最新论文、浏览国内外创新的最新动向,是我工作的重要部分。平时接触的开发者、科学家、企业研究人员等,工作生活中也涉及大量专业阅读。5 r6 ?3 |* V5 g0 ? v; r4 Z
1 r. Y8 ~7 A% r, V/ J! K7 @于是乎,我就会经常听到这样的抱怨:
1 j; q+ P9 x- W" Z: A
& H: `" n7 @! P% ?/ e) d, N! z: ZPDF格式的论文,很多翻译软件需要手动复制粘贴,效率还不如直接查字典;
1 v o& T1 m/ D) l9 d6 B% X$ l
# j0 Y6 ~: ^5 A0 M1 M. e4 d不动脑子按段落甚至句子直译,信达雅一个都没有,机翻完我还要花时间二次review;
: k/ {6 H2 g$ _. V/ G' N- X
) v0 q6 `( O/ b) P: Q R海外开发社区的技术文档专业词汇太多,翻译得不准,好几天的代码都白写了……
5 F- I1 U" ]) l6 r! T
h- }7 X. V/ v; p: N& B$ U这可能是AI技术里非常容易让人迷惑的地方。近几年随着AI技术快速进步,机器翻译水平也大幅提升,结果一遇到外文文献、外刊投稿、办公文档、商业报告、海外网站技术文档之类的专业翻译需求,很多产品还是不能满足。: r' A7 D# |3 r3 ^; r* ~ L3 r
& k* o1 x* `4 V' c8 r
! j/ D8 W& u7 b8 [0 `, s' m9 H这些问题说明,总体可读可懂,满足出国旅游、购物娱乐等日常沟通的场景,只是机器翻译的基本功能。进一步的市场需求,是深度专业内容的跨语言交流,让商业、科研、技术等专业信息可以实现无缝对接。
2 Y9 Z; x; {) F1 W. c+ h7 q, I8 E; o; }7 t" G# @4 `1 E
跨越这堵语言之墙,也成为一场NLP领域的全球竞赛。一直深耕机器翻译的百度翻译团队,从来没有停止过攀登的脚步。
/ ^% B! K9 H& a1 f* }+ {. c- E( Y
+ |0 i: {$ F" M$ O- W我们从机器翻译的新技术动向说起,聊聊百度给机器翻译带来的新可能。
. M( h# m1 j' s9 X7 ]6 Q' b) _0 y7 t/ K$ [) R/ y
机器翻译的技术攀登:百度引领NMT革新2 s- T3 `# c+ z, }+ H5 n f
: P0 ~1 i: b) A) B: z; r
跨越语言之墙还需要哪些技术突破?想要回答这个问题,有必要先回答:机器翻译今天发展到哪一步了。
( }! A. j7 Y5 f
3 g2 l& \7 V* E- G# L: f/ Z4 ~) S过去几十年间,人们一直在探索如何使得机器翻译达到人类的翻译水平,翻译方法不断迭代。基于规则的机器翻译,依靠人工编纂的双语词典和专家总结的规则进行翻译;基于实例的机器翻译,从双语对照的实例库中选择与原文相似度高的实例,通过模仿和修改进行翻译;基于统计的机器翻译,对翻译过程进行数学建模,并从大量的训练数据中自动学习翻译知识。8 M& N% B* S4 y) o1 }0 H1 G
+ x' |' \& |9 [. C* ?
变革发生在2014年,通过循环神经网络(RNN)来对语言向量进行编码解码,并且使用长短期记忆网络(LSTM)来增强长句翻译能力的神经机器翻译(NMT),为机器翻译领域带来新的研发范式。百度、谷歌、微软等一批NLP领域的优等生推进深度学习在机器翻译领域的研发和应用,百度翻译在2015年发布了全球首个互联网NMT系统,领先谷歌1年多。现在,大家用翻译软件进行日常交流、旅游商务等活动,已经基本没有问题了。
& F. E, D0 L a
" [6 @( P" l$ U
9 N; u$ T9 ~5 c- F% d5 z: Q而专业领域的翻译想要令人惊喜的进展,总的来说需要做到两件事:
2 I! L( l3 f3 j" } Z Y6 t ^2 @5 M- g1 w7 V
一是技术突破。推动机器翻译不断接近专业翻译能力。头部厂商主要从几个方面努力:1. 预训练大模型,例如文心、GPT-3、BERT;2. 多语言统一建模和翻译;3. 面向垂直领域的高精度翻译模型。其中,百度作为更早进入NMT时代的科技企业,就在机器翻译技术上取得了国际领先的成果。2020 年,咨询机构Gartner在 《Hype Cycle for Natural Language Technologies》报告中,就将百度翻译列为神经网络机器翻译标杆机构。3 H* N' q) N8 g8 P* h7 m4 ?
8 C+ k+ y; L; _! E二是产品设计。技术有所突破,还要通过成熟的产品设计和应用体验,让用户感知到专业机器翻译的价值。一些机器翻译产品可能技术很强,但由技术人员来主导产品设计,导致用户体验很糟糕。在这方面,具备互联网产品设计相关经验的厂商,自然能够更好地实现技术落地。比如百度翻译就打造了非常丰富的产品矩阵,支持PC端、移动端等各类终端设备,面向C端、B端的多种应用;支持文本、文档、图片、语音等多模态翻译,全方位满足各种翻译需求。百度翻译的产品优势,让普通用户可以低门槛、更便捷地用上专业机器翻译能力,目前日均响应的翻译请求已达千亿字符。
" `/ K, t' a+ i0 z! t% p
$ L% o7 Y( |# H5 E从这个角度来看,百度翻译是国内少有的,能够同时占据技术和产品两个机器翻译高地的科技企业。那么,百度翻译究竟是如何翻越专业翻译的语言之墙? |
|