基于简单循环单元的深层神经网络机器翻译模型

基于简单循环单元的深层神经网络机器翻译模型

张文1，2 冯洋1，2 刘群1，3

1.中国科学院计算技术研究所智能信息处理重点实验室；2.中国科学院大学；3.都柏林城市大学ADAPT中心计算学院

生成PDF 清样下载

复制成功

摘要:

基于注意力机制的神经网络机器翻译模型已经成为目前主流的翻译模型，在许多翻译方向上均超过了统计机器翻译模型，尤其是在训练语料规模比较大的情况下，优势更加明显。该模型使用编码器—解码器框架，将翻译任务建模成序列到序列的问题。然而，在基于门控循环单元(gated recurrent unit，GRU)的编码器—解码器模型中，随着模型层数的增加，梯度消失的问题使模型难以收敛并且严重退化，进而使翻译性能下降。该文使用了一种简单循环单元(simple recurrent unit，SRU)代替GRU单元，通过堆叠网络层数加深编码器和解码器的结构，提高了神经网络机器翻译模型的性能。我们在德语—英语和维语—汉语翻译任务上进行了实验，实验结果表明，在神经网络机器翻译模型中使用SRU单元，可以有效地解决梯度消失带来的模型难以训练的问题；通过加深模型能够显著地提升系统的翻译性能，同时保证训练速度基本不变。此外，我们还与基于残差连接(residual connections)的神经网络机器翻译模型进行了实验对比，实验结果表明，我们的模型有显著性优势。

关键词: 门控循环单元；梯度消失；残差连接；简单循环单元；

DOI:

基金资助:

查看本期封面目录

中文研究

ISSN：3007-9896

所属期次： 2018.9

为你推荐

学术共建