PDF下载
基于序列标注的引语识别初探

贾泓昊 罗智勇

北京语言大学信息科学学院

摘要: 句间引用关系自动识别是篇章分析中一项重要内容。句间引用关系影响着对句群篇章的分析,而目前自然语言处理中对引用这一句间关系的研究较少。句间引用关系主要体现在引语中的引用句上。引语由引导句和引用句组成,一般分为直接引语和间接引语,其中间接引语的识别难度最大。引导句和引用句相对位置不定、不同领域语料的引语与非引语比例极不均衡等进一步增加了引语自动识别的难度。该文主要尝试对引用这一句间关系进行初步探索,采用条件随机场(CRF)以及双向长短期记忆网络与条件随机场相结合(BLSTM-CRF)的方法对引语进行自动识别,并引入引导句中管领词特征进行实验对比。实验结果表明,CRF模型和BLSTM-CRF模型对引语的识别精确率分别达到85.49%和80.19%,F值分别达到78.75%和79.60%。
关键词: 引语的识别;序列标注;条件随机场;双向长短期记忆网络
DOI:
基金资助:
文章地址: