
题名
基于RNN的中文二分结构句法分析
DOI
作者
谷波1 王瑞波2 李济洪2 李国臣3
作者单位
1.山西大学计算机与信息技术学院;2.山西大学软件学院;3.太原工业学院
摘要
为了构建一个简单易扩展的中文句法分析器,我们依据朱德熙和陆俭明先生的中文二分结构的层次分析句法理论,手工构建了一个3万句的二分结构的中文句法树库,并使用哈夫曼编码方式来简化表示完全二叉树的层次结构。该文将中文句法分析转换为迭代二分的序列标注问题,并根据该任务的特点,提出了在词的间隔上进行标记的序列标注模型(RNN-Interval,RNN-INT),与常用的循环神经网络模型(RNN,LSTM)和条件随机场模型(CRF)进行对比实验,使用mx2交叉验证序贯t-检验来比较模型。实验结果表明,RNN-INT模型在窗口为1的词特征就可达到最好的性能,并好于其他窗口大小和其他序列标注模型(RNN,LSTM,CRF)。最后,在测试集上,在人工分词下,RNN-INT在短语级别的F1值(块F1)达到71.25%,在句子级别的准确率达到约43%。
关键词
层次句法分析;循环神经网络(RNN);m×2CV序贯t-检验
刊名
当代中文学刊
ISSN
3008-0282
年、卷(期)
20193
所属期刊栏目
人文社科
打印