神经机器翻译:基础、原理、实践与进阶
简介
作者
推荐序
专家推荐
后记
媒体
勘误表
节选
资源
本书写作之初,天津大学和华为诺亚方舟两个团队各自独立开展撰写工作,后因涉及同一主题,两个团队合并,共同撰写本书。本书由熊德意负责全书内容规划、统筹及校对,具体写作分工如下:熊德意执笔基础篇、进阶篇及所有章节短评,张檬执笔原理篇,李良友执笔实践篇。
写作本书的主要原因包含两个方面:一是力求系统介绍神经机器翻译技术,二是希望能展现并反思机器翻译从统计范式向神经网络范式变迁的过程,以及在该过程中产生的技术变革、创新与争议。本书三位作者经历了机器翻译两代技术的不同发展阶段。本书第一作者在攻读博士学位的初期,正好是统计机器翻译全面取代基于规则的机器翻译的阶段。他在博士期间及博士毕业后5年开展机器翻译研究的过程中,见证了统计机器翻译的鼎盛发展。自2013年开始,又见证了统计机器翻译逐步进入瓶颈阶段、统计机器翻译与神经网络相结合、神经机器翻译萌芽、神经机器翻译快速发展、神经机器翻译全面取代统计机器翻译、神经机器翻译开辟更多新领域的整个过程。本书第二作者攻读博士学位期间,正好是统计机器翻译由盛转弱、神经机器翻译逐步兴起的时期。本书第三作者则是在神经机器翻译完全成为主流机器翻译技术时期完成了博士学位。三位作者虽然经历了机器翻译的不同发展阶段,但均对机器翻译技术的快速发展、迭代与创新具有强烈的感受,这些感受及对技术发展的单纯的原生兴趣为合力撰写本书提供了源源不断的动力。
在神经机器翻译发展初期,本书第一作者曾受到多个国内外出版社邀约撰写书稿介绍神经机器翻译,但当时神经机器翻译技术刚出现,发展非常迅速,如果在彼时撰述神经机器翻译,很多内容很快就会过时。不仅如此,当时对该技术的介绍也很可能受限于彼时的认识,达不到全面深入。而在神经机器翻译快速发展6年之后的2020年,本书第一作者认为时机已然成熟,原因有两点:一是大部分神经机器翻译技术已经出现并逐步成熟,二是神经机器翻译的广泛应用吸引了越来越多的人对该技术的浓厚兴趣。因此,本书作者认为现在是对该技术进行全面审视,并撰写相关书籍向更多人介绍的最好时刻。
本书第一作者在2017年全国机器翻译研讨会中曾组织了一个主题为“机器翻译研究范式变迁:我们该何去何从?”的专题讨论,其中讨论的议题包括:
从过去几次研究范式更替中,我们学到什么?哪些值得我们更深入思考?
面对当下范式更替(神经机器翻译颠覆统计机器翻译),我们该做什么?
您觉得神经机器翻译的平台期将在什么时候出现,平台期出现之前会有哪些重要发展?
您觉得神经机器翻译能解决机器翻译难题吗?(神经机器翻译是终极解决方案吗?)
神经机器翻译之后的新范式或颠覆技术将会是什么
我们该如何准备未来新范式?
有些议题在当时来说是比较超前的,比如关于神经机器翻译的平台期问题,在当时进行讨论显然为时过早,放到现在讨论,也依然为时过早,因为神经机器翻译依然在高速发展中。相比于统计机器翻译,神经机器翻译不仅仅是性能上的显著超越,还为机器翻译开辟了更多的新疆域,如多语言、多模态机器翻译。这两片新疆域,犹如经典物理学天空漂浮的两朵乌云,可能预示着机器翻译技术未来的重大突破。本书作者希望本书可以激起更多人对机器翻译的研究兴趣,吸引更多机器翻译爱好者加入机器翻译的研究和应用,共同推进机器翻译技术向更高目标发展。
本书在写作过程中得到了作者多位同行、老师的指导。华为诺亚方舟实验室语音语义首席科学家刘群教授,是本书写作背后最强有力的支持者和指导者。本书起初的两个独立写作团队是在刘群老师的指导下才合并为一个统一的写作团队的。本书写作过程中,刘群老师也多次参与讨论与指导,对书中的短评提出了很多宝贵的建议,在此表示最诚挚的感谢!
特别感谢钱跃良老师对本书写作的关心和支持。本书第一作者熊德意在20年前(博士期间)有幸参与了钱老师主持的“中文信息处理与人机交互技术的评测方法”863计划项目,深刻感受到语音识别、语音合成、机器翻译等人机交互技术的魅力。
特别感谢梅宏院士在百忙之中为本书作序。梅院士从计算机学科发展的角度,指出机器翻译、自然语言处理乃至人工智能的研究要“保持开放的思维,保持研究探索的多样性”,避免跟风式研究,避免方法思维上的“极化”,在寻求技术突破的同时,“不能忘记探究其后的科学问题”,为机器翻译未来的发展提出了非常重要的指导建议!
特别感谢北京语言大学李宇明教授、清华大学孙茂松教授、新加坡国立大学李海洲教授、创新工场首席科学家周明博士、字节跳动人工智能实验室总监李航博士以及华为诺亚方舟实验室语音语义首席科学家刘群教授为本书撰写推荐语。
大连理工大学黄德根教授、哈尔滨工业大学赵铁军教授、中译语通CTO程国艮在本书的写作中也提供了大力支持,在此一并表示感谢!
天津大学自然语言处理实验室多位同学参与了本书的素材采集与制图工作。刘妍、李上杰、贺杰、曾致远、金任任、王德鑫、黄武伟整理、收集和提供了进阶篇原始素材及相关文献,郭紫珊、黄宇菲、董威龙、杜江村参与了全书的制图工作,在此表示感谢!
感谢本书编辑宋亚东约稿及对全书的审校工作!
本书第一作者熊德意在此特别感谢家人的全力支持与理解。此书成稿之时,恰逢犬子琛琛诞生,没有妻子的理解、支持和无私付出,笔者无法沉浸于书稿的规划、统筹与写作。本书第一作者的第一本专著Linguistically Motivated Statistical Machine Translation: Models and Algorithms出版之时正逢小女诞生,两个孩子的到来为写书增添了无数童趣和快乐。每每改稿疲倦之时,看看犬子乌黑清澈、童真无邪的眼睛,听听牙牙学语的童声,顿感倦意立刻消退。本书献给犬子与小女!
熊德意
2021年12月5日于北洋园