神经机器翻译中数据泛化与短语生成方法研究

神经机器翻译中数据泛化与短语生成方法研究

李强1 韩雅倩1 肖桐1，2 朱靖波1，2

生成PDF 清样下载

复制成功

摘要:

该文对神经机器翻译中的数据泛化方法和短语生成方法进行研究。在使用基于子词的方法来缓解未登录词和稀疏词汇问题的基础上，提出使用数据泛化的方法来进一步优化未登录词和稀疏词汇的翻译，缓解了子词方法中出现的错译问题。文中对基于子词的方法和基于数据泛化的方法进行了详细的实验对比，对两种方法的优缺点进行了讨论和说明。针对数据泛化的处理方法，提出了一致性检测方法和解码优化方法。由于标准的神经机器翻译模型以词汇为基础进行翻译建模，因此该文提出了一种规模可控的短语生成方法，通过使用该文方法生成的源语言短语，神经机器翻译的翻译性能进一步提高。最终，在汉英和英汉翻译任务上，翻译性能与基线翻译系统相比分别提高了1.3和1.2个BLEU值。

关键词: 自然语言处理；神经机器翻译；数据泛化；短语生成；

DOI:

基金资助:

查看本期封面目录

中文研究

ISSN：3007-9896

所属期次： 2018.3

为你推荐

学术共建