神经机器翻译：基础、原理、实践与进阶

机器翻译：科学 vs. 技术

老友钱跃良嘱我为其同事熊德意新作写个序，按说我不从事这个领域的研究，并不合适。但是，出于两个原因，我还是接受了：一是新世纪初，我刚进入国家“863计划”计算机主题专家组时的首个任务，就是担任人机接口专题的责任专家，曾在较长时间内和机器翻译领域的学者频繁交流，算是学习了该领域的一些基本知识；二是当前正处于人工智能的热潮中，而自然语言处理被誉为人工智能“皇冠上的明珠”，机器翻译则是自然语言处理领域极具挑战性的研究方向，我也想从计算机学科这个大同行的视角谈一些认识和思考。

使用自然语言进行交流是人类区别于动物的重要标志。随着智人走出非洲，在漫长的“全球化”进程中诞生了无数种语言。农业革命后，人类开启了现代意义的全球化。工业革命后，全球化更是明显加速，其中需要解决的难题之一就是语言交流障碍！解决途径无外乎二，一是靠时间、靠融合，在这个过程中，很多语言退出了历史舞台；二是靠语言翻译，长期以来依赖掌握“双语”或“多语”的人才。

能否用机器来实现语言间的自动翻译？我没有去查文献做详细的调研，但我相信一定有不少古人产生过这种“梦想”，在早期的科幻小说中也出现过这种“机器”。20世纪初，有科学家开始了这种研究尝试，但直到计算机诞生，才使得利用机器进行语言自动翻译的想法具备了现实可行性。从1949年机器翻译思想的正式提出，迄今已七十余年，众多学者在此领域做出了艰辛的探索，机器翻译经历了一条曲折的螺旋式上升的发展道路。从早期的过分乐观、过度承诺，到20世纪60年代中期开始的10年遇冷；从20世纪70年代中期研究的恢复及其成果的成功商用，到20世纪80年代末统计机器翻译方法的兴起；再到新世纪深度学习方法带来的翻译质量的大幅跃升及随后的“井喷式”发展，这实际上也是观察人工智能几度兴衰的一个视角。可喜的是，“热度”在变，方法在变，但梦想未变；需忧的是，跟风仍在，“过度”仍在，应避免“极化”！

机器翻译是一个多学科交叉领域，面临的既有技术问题，也有科学问题，一方面需要依赖语言学、认知科学等学科关于语言表示、理解与生成的科学发现和科学理论，另一方面也需要在技术和工程上设计和实现高效的机器模型、算法及系统。规律和原理的发现是技术突破的基础，在追求技术突破和规模化发展的同时，不能忘记探究其后的科学问题，二者的平衡才是学科健康发展的前提。

机器翻译在70多年的发展过程中，形成了两大技术途径：基于规则的方法和基于数据的方法，也称规则驱动和数据驱动。规则驱动方法偏重于语言的抽象表示、语言学理论、知识表示等原理性探索，分别出现了提供自然语言抽象表示的中间语言途径、语言学理论指导的基于转换的途径，以及基于语义和知识的途径等。数据驱动方法则依赖语料库和计算力，发展出基于实例的机器翻译、统计机器翻译，以及现在的神经机器翻译等模式。统计机器翻译从早期的不被认可，到随计算力的不断提高及平行语料规模的不断增长，逐步成为机器翻译的主要模式。最近10年，深度学习技术提升了机器翻译模型从数据中获取知识的能力，深度学习驱动的神经机器翻译也因此成为新一代主流机器翻译技术，其生成的译文质量与人工译文质量之间的距离不断缩小，应用场景和范围不断扩大，如在线机器翻译，已成为人们在互联网上交流不可或缺的工具。

深度学习方法的显著成效带来了新一轮人工智能热潮，热潮中更多呈现的是现有方法的应用。不可回避的是，深度学习模型的强表达能力及高计算特性，使得包括机器翻译在内的很多人工智能领域的研究在科学与技术、理性主义与经验主义之间出现了向技术、经验主义一端“极化”的态势。然而，我们也都认识到，当前的深度学习技术本身存在着诸多问题，如不可解释、鲁棒性差、耗能高等，人工智能的未来发展应该是何走向？我以为，还是应该保持开放的思维，保持研究探索的多样性。规则驱动是否可能随认知科学、语言学等相关学科研究的深入再次螺旋回归？数据驱动结合规则驱动是否能体现“科学”和“技术”的平衡？类脑途径能否成为实现人工智能的通用模式？如此等等。作为非该领域专家，我不敢妄言，只是从科研的基本规律出发，谈自己的期望。

本书介绍的是当前的主流——神经机器翻译技术。全书按两条主线组织，内容主线分四篇，覆盖神经机器翻译的基础知识、神经网络模型原理、引擎实现和部署以及若干前沿研究主题，理论和实践相结合；短评主线交织穿插于内容主线网络中，将相关内容与更广泛的主题关联，如机器翻译的发展历史、自然语言处理研究范式、软件开源、数据驱动、技术创新、实验可复现性、人工智能伦理等。可贵的是，书中的某些短评探讨了被机器翻译技术快速发展掩盖的机器翻译背后的科学问题，并呼吁机器翻译研究需在科学与技术间再平衡；在技术创新发展的同时，机器翻译研究需与其他学科交叉融合，使得相关科学理论可以支撑机器翻译未来更大的发展和突破。同时，作者也从科学研究范式的本源上深入思考了机器翻译的未来。

本书作者熊德意等长期从事机器翻译领域的研究工作，熟悉统计机器翻译和神经机器翻译技术，书中不少思想和观点来源于作者长期的研究、观察、实践及思考。

本书可作为计算机科学及相关专业，对自然语言处理和机器翻译感兴趣的高年级本科生和研究生的学习教材，也可供自然语言处理、机器翻译领域的研究人员和工程技术人员参考。希望读者通过阅读本书，能够了解自然语言处理、机器翻译技术的发展和现状，并对其中乃至人工智能中的科学问题有更深入的思考。

是为序。

梅宏
中国计算机学会理事长
壬寅孟春于北京