基于知网相关概念场的中文词向量
摘要: 词向量是词的低维稠密实数向量表示,在自然语言处理的各项任务中都扮演了重要角色。目前词向量大多都是通过构造神经网络模型,在大规模语料库上以无监督学习的方式训练得到,这样的模型存在着两个问题:一是低频词词向量的语义表示质量较差;二是忽视了知识库可以对该模型提供的帮助。该文提出了利用知网相关概念场来提升词向量语义表示质量的模型。实验结果表明,在词语相似度任务、词语相关度任务和词语类比任务上,该模型使得斯皮尔曼相关性系数和准确率都得到了显著的提升。