PDF下载
基于词向量的中文事件发现及表示

张斌 胡琳梅 侯磊 李涓子 ​

清华大学计算机科学与技术系知识工程研究室

摘要: 已有的事件发现方法主要基于词频-逆文档频率文档表示,维度较高,语义稀疏,效率和准确率都较低,不适用于大规模在线新闻事件发现.因此,文中提出基于词向量的文档表示方法,降低文档表示维度,缓解语义稀疏问题,提高文档相似度计算效率和准确性.基于该文档表示方法,提出动态在线新闻聚类方法,用于在线新闻事件发现,同时提高事件发现的准确率和召回率.在标准数据集TDT4和真实数据集上的实验表明,相比当前通用的基线方法,文中方法在时间效率和事件质量上都有显著提高.
关键词: 词向量;事件发现;动态在线聚类
DOI:
基金资助:
文章地址: