请选择 目标期刊

面向工业互联网资讯的中文关键词抽取 下载:75 浏览:490

陈硕1 殷锋2 袁平3 《计算机研究与应用》 2020年9期

摘要:
为了获取工业互联网领域中文资讯的关键词,提出一种基于特征的中文关键词抽取算法。该算法主要从分词、候选词选取和特征选取三个方面做改进。首先,在分词阶段,通过从大量工业互联网资讯中抽取的特定词语和利用搜狗输入法的领域词库的词典创建了两个用户自定义词典,解决工业互联网领域文本中存在大量未登录词的问题,提高分词的准确率,进而提高关键词抽取的准确率;然后通过实验仿真选取合适数量的候选词,提高算法的效果和效率;其次,在特征的选择方面不仅考虑词频类、位置类和长度类等特征,还考虑了语义方面的特征,共选取6大类21种特征。最终通过随机森林将21种特征相结合,训练出一个关键词分类器,经实验测评,在精确率、召回率和F值三个评价指标中,该算法的效果都获得提升。
[1/1]
在线客服::点击联系客服
联系电话::400-188-5008
客服邮箱::service@ccnpub.com
投诉举报::feedback@ccnpub.com
人工客服

工作时间(9:00-18:00)
官方公众号

科技成果·全球共享