请选择 目标期刊

基于Transformer的AMR-to-Text生成 下载:37 浏览:281

朱杰 李军辉 《中文研究》 2020年5期

摘要:
抽象语义表示到文本(AMR-to-Text)的生成任务是给定AMR图,生成相同意义表示的文本。可以把此任务当成一个从源端AMR图到目标端句子的翻译任务。然而,传统的序列到序列(seq2seq, S2S)方法使用循环递归网络进行编码,并不能很好地解决长距离依赖的问题。当前最好的性能是图到序列(graph2seq, G2S)的模型,使用了图模型直接对AMR图结构进行编码,但是,该方法对于非直接相连的节点依然会损失大量的结构信息。针对上述问题,基于seq2seq框架,该文提出了一种直接而有效的AMR-to-Text生成方法。在这项工作中,引入了当前最优的seq2seq模型Transformer作为基准模型,并且使用字节对编码(BPE)和共享词表的方法来联合处理未登录词(OOV)的问题。在现有的两份英文标准数据集上,实验结果都得到了显著的提升,达到了新的最高性能。

基于多源信息融合的分布式词表示学习 下载:25 浏览:440

冶忠林1,2,3,4 赵海兴1,2,3,4 张科1,3,4 朱宇1,3,4 《中文研究》 2019年6期

摘要:
分布式词表示学习旨在用神经网络框架训练得到低维、压缩、稠密的词语表示向量。然而,这类基于神经网络的词表示模型有以下不足:(1)罕见词由于缺乏充分上下文训练数据,训练所得的罕见词向量表示不能充分地反映其在语料中的语义信息;(2)中心词语的反义词出现于上下文时,会使意义完全相反的词却赋予更近的空间向量表示;(3)互为同义词的词语均未出现于对方的上下文中,致使该类同义词学习得到的表示在向量空间中距离较远。基于以上三点,该文提出了一种基于多源信息融合的分布式词表示学习算法(MSWE),主要做了4个方面的改进:(1)通过显式地构建词语的上下文特征矩阵,保留了罕见词及其上下文词语在语言训练模型中的共现信息可以较准确地反映出词语结构所投影出的结构语义关联;(2)通过词语的描述或解释文本,构建词语的属性语义特征矩阵,可有效地弥补因为上下文结构特征稀疏而导致的训练不充分;(3)通过使用同义词与反义词信息,构建了词语的同义词与反义词特征矩阵,使得同义词在词向量空间中具有较近的空间距离,而反义词则在词向量空间中具有较远的空间距离;(4)通过诱导矩阵补全算法融合多源特征矩阵,训练得到词语低维度的表示向量。实验结果表明,该文提出的MSWE算法能够有效地从多源词语特征矩阵中学习到有效的特征因子,在6个词语相似度评测数据集上表现出了优异的性能。

基于细粒度词表示的命名实体识别研究 下载:26 浏览:336

林广和1 张绍武1,2 林鸿飞1 《中文研究》 2018年12期

摘要:
命名实体识别(NER)是自然语言处理中的一项基础任务,其性能的优劣极大地影响着关系抽取、语义角色标注等后续任务。传统的统计模型特征设计难度大、领域适应性差,一些神经网络模型则忽略了词本身所具有的形态学信息。针对上述问题,该文构建了一种基于细粒度词表示的端到端模型(Finger-BiLSTM-CRF)来进行命名实体识别任务。该文首先提出一种基于注意力机制的字符级词表示模型Finger来融合形态学信息和单词的字符信息,然后将Finger与BiLSTM-CRF模型联合进行实体识别,最终该方法以端到端、无任何特征工程的方式在CoNLL 2003数据集上取得了F1为91.09%的结果。实验表明,该文设计的Finger模型显著提升NER系统的召回率,从而使得模型的识别能力显著提升。

社交媒体;词表征;触发器;行为演化 下载:63 浏览:318

赵礼强 姜崇靖可 《中文研究》 2018年8期

摘要:
内容分发网络(CDN)以推(Push)和拉(Pull)作为两种主要的内容分发策略。拉是服务器对用户请求给予回应的方式,在面对高并发请求时,以推方式预分发到服务器上的内容将有效辅助改善服务器过载的情况,并实现热度内容的主动推送。预分发内容的热度高低直接决定了内容的边缘命中率和用户的启动延迟,有效减少预分发内容替换的频率和对源服务器访问时的网络堵塞,因此在网络小说服务器中依据网络小说热度对内容分发策略的部署就显得更为重要。目前针对网络小说服务器的内容分发策略的研究较少,缺乏对网络小说热度科学有效的评价标准。以服务器管理人员的主观经验判断和低命中的预分发内容的不断替换来实现内容推送的策略,不仅主观性强,同时内容的不断替换更极大地增加了服务器负担。针对这一问题,该文通过定义网络小说热度概念,对在起点中文网爬取到的数据进行预处理,数据拟合显示数据符合幂律分布规律,并建立热度等级评价标准,分别采用贝叶斯网络、随机森林算法与Logistic回归建立预测模型,对网络小说热度预测进行对比研究。结果显示,随机森林算法的预测正确率达到97.097%,均方误差为0.112 8,分类预测效果更优,且误差率更低。因此选用随机森林算法,依据网络小说热度评价标准,能够有效解决网络小说CDN系统内容部署不准确而导致低命中内容的不断替换和用户访问延迟的问题,为内容分发策略提供有效指导,从而提高内容命中率,提升网络小说CDN系统运作效率。

基于社交媒体的企业行为事件挖掘 下载:60 浏览:449

邓文君 袁华 钱宇 《中文研究》 2018年8期

摘要:
社交媒体快速发展,越来越多的企业利用它发布信息,这些信息具有重要的商业和研究价值。但是社交媒体数据具有强噪音、多类型、多主题等特点,这导致企业行为演化分析面临巨大挑战。为此,该文提出了一种企业行为识别及演化分析的方法。首先利用识别方法对企业信息进行行为识别,然后再运用已识别企业行为数据进行企业行为演化分析,最后根据演化分析结果,为竞争性企业提供营销建议。实验结果表明,该文提出的企业行为识别及演化分析的方法具有重要的应用价值。

基于社交媒体的企业行为事件挖掘 下载:70 浏览:352

邓文君 袁华 钱宇 《中文研究》 2018年7期

摘要:
社交媒体快速发展,越来越多的企业利用它发布信息,这些信息具有重要的商业和研究价值。但是社交媒体数据具有强噪音、多类型、多主题等特点,这导致企业行为演化分析面临巨大挑战。为此,该文提出了一种企业行为识别及演化分析的方法。首先利用识别方法对企业信息进行行为识别,然后再运用已识别企业行为数据进行企业行为演化分析,最后根据演化分析结果,为竞争性企业提供营销建议。实验结果表明,该文提出的企业行为识别及演化分析的方法具有重要的应用价值。

基于文体和词表的突发事件信息抽取研究 下载:39 浏览:396

邱奇志 周三三 刘长发 陈晖 《中文研究》 2018年5期

摘要:
非结构化数据的结构化任务是大数据环境下管理信息系统面临的新课题。该文从文体的角度研究自由文本的特性,提出了从Web新闻中抽取突发事件属性的方法,该方法首先分析研究了Web文本和新闻文体的特征,利用Google Word2Vec对领域专家构建的词表进行扩展,针对突发事件的不同属性制定了不同的抽取方法:采用词表实现事件分类,采用文体特征进行时间、事件摘要的抽取,采用文体和词表进行地点、伤亡情况和经济损失属性的抽取。实验表明,采用基于文体和词表方法在爬取的Web新闻语料库和公开语料库进行突发事件的属性进行抽取时,平均准确率分别为87.89%、91.29%,平均召回率分别为81.76%、87.91%,能满足应急管理需求。

基于叙词表的领域知识图谱初始种子集自动生成算法 下载:42 浏览:261

韩其琛 赵亚伟 姚郑 付立军 《中文研究》 2018年4期

摘要:
随着认知计算的飞速发展,通用知识图谱的自动构建取得了极大的进步,但在垂直领域由于缺乏本体等语义信息,导致进展缓慢。叙词表广泛分布于各个专业领域且蕴藏着丰富的语义信息,如能对这些语义信息进行合理的提取和利用,必然能在一定程度上帮助领域知识图谱的自动构建。该文提出两个假设,利用假设可以从叙词表内部结构中提取实体类型和关系类型,进而设计了一种基于叙词表的领域知识图谱初始种子集自动生成算法。最后,以地质领域和林业领域的叙词表作为实验对象,采用Bootstrapping算法,利用由叙词表自动生成的初始种子集进行抽取工作,通过对抽取到的结果进行分析,结果表明利用叙词表得到的初始种子集可以取得同人工设计种子比较接近的效果。此外,所提模型具有通用性,为叙词表在构建领域知识图谱中的应用提供了一种新的思路。

基于描述约束的词表示学习 下载:78 浏览:493

冶忠林1,2,3 赵海兴1,4,2,3 张科4,2,3 朱宇4,2,3 《当代中文学刊》 2019年12期

摘要:
词语作为语言模型中的基本语义单元,在整个语义空间中与其上下文词语具有很强的关联性。同样,在语言模型中,通过上下文词可判断出当前词的含义。词表示学习是通过一类浅层的神经网络模型将词语和上下文词之间的关联关系映射到低维度的向量空间中。然而,现有的词表示学习方法往往仅考虑了词语与上下文词之间的结构关联,词语本身所蕴含的内在语义信息却被忽略。因此,该文提出了DEWE词表示学习算法,该算法可在词表示学习的过程中不仅考量词语与上下文之间的结构关联,同时也将词语本身的语义信息融入词表示学习模型,使得训练得到的词表示既有结构共性也有语义共性。实验结果表明,DEWE算法是一种切实可行的词表示学习方法,相较于该文使用的对比算法,DEWE在6类相似度评测数据集上具有优异的词表示学习性能。

基于细粒度词表示的命名实体识别研究 下载:43 浏览:248

林广和1 张绍武1,2 林鸿飞1 《当代中文学刊》 2018年12期

摘要:
命名实体识别(NER)是自然语言处理中的一项基础任务,其性能的优劣极大地影响着关系抽取、语义角色标注等后续任务。传统的统计模型特征设计难度大、领域适应性差,一些神经网络模型则忽略了词本身所具有的形态学信息。针对上述问题,该文构建了一种基于细粒度词表示的端到端模型(Finger-BiLSTM-CRF)来进行命名实体识别任务。该文首先提出一种基于注意力机制的字符级词表示模型Finger来融合形态学信息和单词的字符信息,然后将Finger与BiLSTM-CRF模型联合进行实体识别,最终该方法以端到端、无任何特征工程的方式在CoNLL 2003数据集上取得了F1为91.09%的结果。实验表明,该文设计的Finger模型显著提升NER系统的召回率,从而使得模型的识别能力显著提升。
[1/1]
在线客服::点击联系客服
联系电话::400-188-5008
客服邮箱::service@ccnpub.com
投诉举报::feedback@ccnpub.com
人工客服

工作时间(9:00-18:00)
官方公众号

科技成果·全球共享