# MTBook **Repository Path**: davylw/MTBook ## Basic Information - **Project Name**: MTBook - **Description**: 《机器翻译:统计建模与深度学习方法 (第二版)》肖桐 朱靖波 著 - Machine Translation: Statistical Modeling and Deep Learning Methods (2nd Version) - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2020-12-11 - **Last Updated**: 2020-12-19 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # **机器翻译:统计建模与深度学习方法 (第二版) - 基础篇** # **Machine Translation: Statistical Modeling and Deep Learning Methods (2nd Version)** *作者:肖桐 (Tong Xiao)* *朱靖波 (Jingbo Zhu)* *单位:东北大学自然语言处理实验室 (NEUNLPLab) / 小牛翻译 (NiuTrans Research)* *顾问:姚天顺 (Tianshun Yao)* *王宝库 (Baoku Wang)* *网站:*[https://opensource.niutrans.com/mtbook/index.html](https://opensource.niutrans.com/mtbook/index.html) *GitHub:*[https://github.com/NiuTrans/MTBook](https://github.com/NiuTrans/MTBook) :sunny: **谢谢大家的关注,我们对内容进行了重构和修改,现在是第二版了!** :grin: 这是一个教程,目的是对机器翻译的统计建模和深度学习方法进行较为系统的介绍。其内容被编纂成书,可以供计算机相关专业高年级本科生及研究生学习之用,亦可作为自然语言处理,特别是机器翻译相关研究人员的参考资料。本书用tex编写,所有源代码均已开放。 本书共分为四个部分,每部分由若干章节组成,章节的顺序参考了机器翻译技术发展的时间脉络,同时兼顾了机器翻译知识体系的内在逻辑。各部分的主要关系如下(如果无法显示图片可以稍后再试):
## 内容 封面、前言和目录 **Part I 机器翻译基础** 1. 机器翻译简介 * 1.1 机器翻译的概念 * 1.2 机器翻译简史 * 1.3 机器翻译现状及挑战 * 1.4 基于规则的方法 * 1.5 数据驱动的方法 * 1.6 推荐学习资源 2. 统计语言建模基础 * 2.1 概率论基础 * 2.2 掷骰子游戏 * 2.3 *n*-gram 语言模型 * 2.4 预测与搜索 * 2.5 小结及拓展阅读 3. 词法分析和语法分析基础 * 3.1 问题概述 * 3.2 中文分词 * 3.3 命名实体识别 * 3.4 句法分析(短语结构分析) * 3.5 小结及拓展阅读 4. 翻译质量评价 * 4.1 译文质量评价所面临的挑战 * 4.2 人工评价 * 4.3 有参考答案的自动评价 * 4.4 无参考答案的自动评价 * 4.5 小结及拓展阅读 **Part II 统计机器翻译** 5. 基于词的机器翻译建模 * 5.1 词在翻译中的作用 * 5.2 一个简单实例 * 5.3 噪声信道模型 * 5.4 统计机器翻译的三个基本问题 * 5.5 IBM 模型1 * 5.6 小结及拓展阅读 6. 基于扭曲度和繁衍率的模型 * 6.1 基于扭曲度的模型 * 6.2 基于繁衍率的模型 * 6.3 解码和训练 * 6.4 问题分析 * 6.5 小结及拓展阅读 7. 基于短语的模型 * 7.1 翻译中的短语信息 * 7.2 数学建模 * 7.3 短语抽取 * 7.4 翻译调序建模 * 7.5 翻译特征 * 7.6 最小错误率训练 * 7.7 栈解码 * 7.8 小结及拓展阅读 8. 基于句法的模型 * 8.1 翻译中句法信息的使用 * 8.2 基于层次短语的模型 * 8.3 基于语言学句法的模型 * 8.4 小结及拓展阅读 **Part III 神经机器翻译** 9. 人工神经网络和神经语言建模 * 9.1 深度学习与人工神经网络 * 9.2 神经网络基础 * 9.3 神经网络的张量实现 * 9.4 神经网络的参数训练 * 9.5 神经语言模型 * 9.6 小结及拓展阅读 10. 基于循环神经网络的模型 * 10.1 神经机器翻译的发展简史 * 10.2 编码器-解码器框架 * 10.3 基于循环神经网络的翻译建模 * 10.4 注意力机制 * 10.5 训练及推断 * 10.6 小结及拓展阅读 11. 基于卷积神经网络的模型 * 11.1 卷积神经网络 * 11.2 基于卷积神经网络的翻译建模 * 11.3 局部模型的改进 * 11.4 小结及拓展阅读 12. 基于自注意力的模型 * 12.1 自注意力机制 * 12.2 Transformer 架构 * 12.3 位置编码 * 12.4 基于点乘的多头注意力机制 * 12.5 残差网络和层标准化 * 12.6 前馈全连接网络子层 * 12.7 训练 * 12.8 推断 * 12.9 小结及拓展阅读 **Part IV 机器翻译前沿** 13-18 进行中... **Part V 附录** * 附录 A:开源机器翻译系统 * 附录 B:评测任务及基准数据集 * 附录 C:IBM模型2-5训练方法 **参考文献** **索引** 注:本书的pdf版本可以从GitHub仓库获取[https://github.com/NiuTrans/MTBook/blob/master/mt-book.pdf](https://github.com/NiuTrans/MTBook/blob/master/mt-book.pdf) ## 源代码 本书的tex源代码地址为:[https://github.com/NiuTrans/MTBook](https://github.com/NiuTrans/MTBook) 编译前需要安装[MikTeX](https://miktex.org/),并在MikTeX Console中下载并更新编译所需宏包。之后,编译src目录下的mt-book-xelatex.tex即可得到pdf文件,编译指令如下: ```shell xelatex mt-book-xelatex biber mt-book-xelatex makeindex mt-book-xelatex xelatex mt-book-xelatex ``` 在编译中可能会遇到内存不足的问题,可以通过以下方式解决: #### Windows下使用MiKTeX或CTEX 1. 运行cmd打开命令行窗口,输入:`initexmf --edit-config-file=xelatex` 2. 在弹出的文件中输入以下内容:`main_memory=5000000 extra_mem_bot=5000000 font_mem_size=5000000 pool_size=5000000 buf_size=5000000` 3. 在cmd窗口输入: `initexmf --dump=xelatex` 更新latex格式文件 #### TeXLive & MacTeX(Linux,OS X等) 1. 打开texmf.cnf文件,更改其内容为:`main_memory=5000000 extra_mem_bot=5000000 font_mem_size=5000000 pool_size=5000000 buf_size=5000000` 2. 调用texhash更新latex格式文件 注:编译tex文件会依赖一些宏包。如果有任何编译错误,建议将宏包更新至最新版本。 ## 课件 本教程部分章节的课件已开放。pdf版本的地址为[https://github.com/NiuTrans/MTBook/tree/master/slides](https://github.com/NiuTrans/MTBook/tree/master/slides) ## 开源协议 本书的开源内容基于The Creative Commons Attribution-NonCommercial 4.0 Unported License([link](https://creativecommons.org/licenses/by-nc/4.0)) ## 致谢 感谢为本书做出贡献的小牛团队(部分)成员 *曹润柘、曾信、孟霞、单韦乔、周涛、周书含、许诺、李北、许晨、林野、李垠桥、王子扬、刘辉、张裕浩、冯凯、罗应峰、魏冰浩、王屹超、李炎洋、姜雨帆、田丰宁、刘继强、张哲旸、陈贺轩、刘晓倩、牛蕊、杜权、胡驰、王泽洋、刘腾博、刘兴宇、徐萍、赵闯、高博、张春良、王会珍、张俐、杨木润、宁义明、李洋、秦浩、胡明涵、马安香* ## 联系我们 有任何问题请联系xiaotong [at] mail.neu.edu.cn (肖桐) 或 854581319 [at] qq.com(曹润柘)