PDF下载
基于文体和词表的突发事件信息抽取研究

邱奇志 周三三 刘长发 陈晖

武汉理工大学计算机科学与技术学院

摘要: 非结构化数据的结构化任务是大数据环境下管理信息系统面临的新课题。该文从文体的角度研究自由文本的特性,提出了从Web新闻中抽取突发事件属性的方法,该方法首先分析研究了Web文本和新闻文体的特征,利用Google Word2Vec对领域专家构建的词表进行扩展,针对突发事件的不同属性制定了不同的抽取方法:采用词表实现事件分类,采用文体特征进行时间、事件摘要的抽取,采用文体和词表进行地点、伤亡情况和经济损失属性的抽取。实验表明,采用基于文体和词表方法在爬取的Web新闻语料库和公开语料库进行突发事件的属性进行抽取时,平均准确率分别为87.89%、91.29%,平均召回率分别为81.76%、87.91%,能满足应急管理需求。
关键词: 文体;词表;信息抽取;突发事件
DOI:
基金资助:
文章地址: