PDF下载
基于迭代式回译策略的藏汉机器翻译方法研究

慈祯嘉措1,2 桑杰端珠1,2 孙茂松3 周毛先1,2 色差甲1,2

1.青海师范大学藏文信息处理教育部重点实验室;2.青海省藏文信息处理与机器翻译重点实验室;3.清华大学计算机系

摘要: 该文通过稀缺语言资源条件下机器翻译方法的研究以提高藏汉机器翻译质量,同时希望对语言资源匮乏的其他少数民族语言机器翻译研究提供借鉴。首先该文使用164.1万句对藏汉平行语言资源数据在Transformer神经网络翻译模型上训练一个基线系统,作为起始数据资源,然后结合翻译等效性分类器,利用迭代式回译策略和译文自动筛选机制,实现了稀缺资源条件下提升藏汉神经网络机器翻译性能的有效模型,使最终的模型比基准模型在藏到汉的翻译上有6.7个BLEU值的提升,在汉到藏的翻译上有9.8个BLEU值的提升,证实了迭代式回译策略和平行句对过滤机制在汉藏(藏汉)机器翻译中的有效性。
关键词: 藏汉;回译;稀缺资源;自动筛选;神经网络
DOI:
基金资助:
文章地址: