掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 246|回复: 0

[闲聊吐槽] 跨越专业翻译的语言之墙:百度翻译的技术攀登

[复制链接]
  • TA的每日心情
    擦汗
    2022-12-14 14:46
  • 签到天数: 6 天

    [LV.2]偶尔看看I

    发表于 2022-12-6 10:39:58 | 显示全部楼层 |阅读模式
    作为一个科技从业者,阅读AI顶会的最新论文、浏览国内外创新的最新动向,是我工作的重要部分。平时接触的开发者、科学家、企业研究人员等,工作生活中也涉及大量专业阅读。5 r' p  z' G% u: @% h

    9 V! _' N; G2 ^+ Q( f  i! m: X于是乎,我就会经常听到这样的抱怨:9 e, E) N) q  ^
    - x! `" T4 `7 C, W) i
    PDF格式的论文,很多翻译软件需要手动复制粘贴,效率还不如直接查字典;
    * p7 a  ?) S0 O0 Q( P: f* l4 y8 |0 ]7 C+ s+ e( w
    不动脑子按段落甚至句子直译,信达雅一个都没有,机翻完我还要花时间二次review;
    - r5 v8 M$ u1 p) z  U5 C1 n6 `* l
    : v% V* I- S/ W2 z; e7 p" @+ |! u海外开发社区的技术文档专业词汇太多,翻译得不准,好几天的代码都白写了……
    2 h/ }  Z7 w7 X' a$ E% _: S/ T& X- x
    这可能是AI技术里非常容易让人迷惑的地方。近几年随着AI技术快速进步,机器翻译水平也大幅提升,结果一遇到外文文献、外刊投稿、办公文档、商业报告、海外网站技术文档之类的专业翻译需求,很多产品还是不能满足。& u! l+ W8 u7 ~9 Y/ r+ L; |) X, N
    4 B7 ]# I/ }( @7 Z* z+ v
    4 U# t6 B% i6 i8 }) ]* T8 w
    这些问题说明,总体可读可懂,满足出国旅游、购物娱乐等日常沟通的场景,只是机器翻译的基本功能。进一步的市场需求,是深度专业内容的跨语言交流,让商业、科研、技术等专业信息可以实现无缝对接。
    & X* }3 f  u3 ]# z1 l
    6 E% X1 j1 j' b3 ~  ^- M4 H+ K: G跨越这堵语言之墙,也成为一场NLP领域的全球竞赛。一直深耕机器翻译的百度翻译团队,从来没有停止过攀登的脚步。  Y, l' h- o3 B8 p

    4 e7 F6 n+ x. }$ p1 T7 x. J我们从机器翻译的新技术动向说起,聊聊百度给机器翻译带来的新可能。2 q, A: M$ j+ p& N- q
    2 H: C! S1 ^, y; z
    机器翻译的技术攀登:百度引领NMT革新
    ) `1 N9 @. S; F: ?$ _, R
    ) R- [- P( C# t' m. v- I跨越语言之墙还需要哪些技术突破?想要回答这个问题,有必要先回答:机器翻译今天发展到哪一步了。
    : ^. g% s! U7 }2 L( U/ s" q0 ^2 }+ I1 u- ~) j- ]
    过去几十年间,人们一直在探索如何使得机器翻译达到人类的翻译水平,翻译方法不断迭代。基于规则的机器翻译,依靠人工编纂的双语词典和专家总结的规则进行翻译;基于实例的机器翻译,从双语对照的实例库中选择与原文相似度高的实例,通过模仿和修改进行翻译;基于统计的机器翻译,对翻译过程进行数学建模,并从大量的训练数据中自动学习翻译知识。4 [- I) s7 C; w) N( E2 \; q4 n

    3 j/ E/ K. k' O1 Y变革发生在2014年,通过循环神经网络(RNN)来对语言向量进行编码解码,并且使用长短期记忆网络(LSTM)来增强长句翻译能力的神经机器翻译(NMT),为机器翻译领域带来新的研发范式。百度、谷歌、微软等一批NLP领域的优等生推进深度学习在机器翻译领域的研发和应用,百度翻译在2015年发布了全球首个互联网NMT系统,领先谷歌1年多。现在,大家用翻译软件进行日常交流、旅游商务等活动,已经基本没有问题了。
    ! Y( d2 S+ ~& Y5 B- ^, M4 H, W3 d" \! K9 K

    4 D( Q& \- I2 X而专业领域的翻译想要令人惊喜的进展,总的来说需要做到两件事:
    . Q6 v0 @# g8 c- A6 C! h1 G' }$ a
    1 }  i% D1 d$ V' q8 F0 k8 K) c1 r一是技术突破。推动机器翻译不断接近专业翻译能力。头部厂商主要从几个方面努力:1. 预训练大模型,例如文心、GPT-3、BERT;2. 多语言统一建模和翻译;3. 面向垂直领域的高精度翻译模型。其中,百度作为更早进入NMT时代的科技企业,就在机器翻译技术上取得了国际领先的成果。2020 年,咨询机构Gartner在 《Hype Cycle for Natural Language Technologies》报告中,就将百度翻译列为神经网络机器翻译标杆机构。  p( j) p9 f, _1 V; C2 K) z' }

    8 l. \9 O1 k7 W4 |$ q二是产品设计。技术有所突破,还要通过成熟的产品设计和应用体验,让用户感知到专业机器翻译的价值。一些机器翻译产品可能技术很强,但由技术人员来主导产品设计,导致用户体验很糟糕。在这方面,具备互联网产品设计相关经验的厂商,自然能够更好地实现技术落地。比如百度翻译就打造了非常丰富的产品矩阵,支持PC端、移动端等各类终端设备,面向C端、B端的多种应用;支持文本、文档、图片、语音等多模态翻译,全方位满足各种翻译需求。百度翻译的产品优势,让普通用户可以低门槛、更便捷地用上专业机器翻译能力,目前日均响应的翻译请求已达千亿字符。2 O% f; j2 A+ L6 m. u" y

    0 G7 C, K8 ?' |/ ]1 B从这个角度来看,百度翻译是国内少有的,能够同时占据技术和产品两个机器翻译高地的科技企业。那么,百度翻译究竟是如何翻越专业翻译的语言之墙?
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-5-14 12:30 , Processed in 2.054769 second(s), 9 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表