请选择 目标期刊

基于改进Apriori算法的问题模板无监督抽取方法 下载:34 浏览:404

柯文俊1,2,3 高金华1 沈华伟1,2 刘悦1 程学旗4 《中文研究》 2020年3期

摘要:
在面向限定领域的事实型问答系统中,基于模板匹配的问答是一种有效且稳定的方法。然而,现有的问题模板构建方法通常是在有监督场景下进行的,导致其严重依赖于人工标注数据,同时领域间可扩展性较差。因此,该文提出了一种改进Apriori算法的无监督模板抽取方法。对于限定领域问题样本,加入短语有序特征来挖掘频繁项集,将频繁项作为问题模板的框架词;同时,使用TF-IDF来度量模板的信息量,去除信息量小的模板;特别地,为了获取项数较长的模板,为Apriori算法引入了支持度自适应更新机制;最终,借助命名实体识别进行槽位识别,并组合框架词和槽,得到问题模板。实验表明,该方法可以在限定领域的问答数据集上有效挖掘问题模板,并取得了比基线模型更好的抽取效果。

基于深度学习的关系抽取研究综述 下载:25 浏览:349

庄传志1,2 靳小龙1,2 朱伟建1,2 刘静伟1,2 白龙1,2 程学旗1,2 《中文研究》 2019年12期

摘要:
关系抽取(RE)是为了抽取文本中包含的关系,是信息抽取(IE)的重要组成部分。近年来,研究人员利用深度学习技术在该领域开展了深入研究。由于神经网络类型丰富,基于深度学习的关系抽取方法也更加多样。该文从关系抽取的基本概念出发,对关系抽取方法依据不同的视角进行了类别划分。随后,介绍了基于深度学习的关系抽取方法常用的数据集,并总结出基于深度学习的关系抽取框架。在此框架下,对关系抽取方法在面向深度学习的输入数据预处理、面向深度学习的神经网络模型设计等方面的具体工作进行了分析与评述,最后对未来的研究方向进行了探讨和展望。

基于联合注意力机制的篇章级机器翻译 下载:30 浏览:316

李京谕1,2 冯洋1,2 《中文研究》 2019年11期

摘要:
近年来,神经机器翻译(neural machine translation, NMT)表现出极大的优越性,然而如何在翻译一个文档时考虑篇章上下文信息仍然是一个值得探讨的问题。传统的注意力机制对源端的所有词语进行计算,而在翻译当前句子时篇章中大量的信息中只有小部分是与之相关的。在篇章级机器翻译中,采用传统的注意力机制建模篇章信息存在着信息冗余的问题。该文提出了一种联合注意力机制,结合"硬关注"和"软关注"的机制对篇章上下文的信息进行建模。关键思想是通过"硬关注"筛选出与翻译当前句子相关的源端历史词语,然后采用"软关注"的方法进一步抽取翻译中所需的上下文信息。实验表明,相比于基线系统,该方法能使翻译性能获得明显提升。

基于生成对抗模型的异质信息网络语义表征方法研究 下载:51 浏览:335

赵瑜1 谭海宁2,3 刘志方4 武超5 《中文研究》 2019年8期

摘要:
近些年,网络表示学习问题吸引了大量研究者的关注,而异构信息网络由于其丰富的结构语义信息及其广阔的应用领域,更是成为了网络表示学习领域的重中之重。目前面向异构信息网络的表示学习模型主要可以分为基于生成式模型的表示学习方法和基于判别式模型的表示学习方法,但是很少有工作同时结合两种模型进行表示学习的优化。该文提出了结合生成式模型和判别式模型的异构信息网络表示学习模型HINGAN,主要是将对抗生成思想融入异构信息网络表示学习过程中,达到优化网络表示结果的目的。该模型首先在元路径的引导下构建带权信息网络图,然后在带权图上计算更新构造的生成器和判别器参数,通过生成对抗的博弈思想来获取最大收益。在AMiner和DBLP两个真实学术图谱数据集上的实验结果表明,HINGAN在多标签分类、链路预测以及可视化方面都能比现在主流的网络表示方法取得更优的效果,并且HINGAN可以应用于大规模的异构网络数据的表示和计算。除此之外,该文还总结了已有研究成果并对未来研究可能面临的挑战进行了展望。

基于远程监督的关系抽取研究综述 下载:44 浏览:370

白龙1 靳小龙2 席鹏弼2 程学旗2 《中文研究》 2019年6期

摘要:
关系抽取作为信息抽取的一项关键技术,在知识库自动构建、问答系统等领域有着极为重要的意义,一直以来受到人们的关注。远程监督关系抽取技术通过外部知识库作为监督源,自动对语料库进行标注,能够大量节省人工标注成本,因而受到了研究者们的重视。该文针对远程监督关系抽取技术做了较为系统性的梳理,将已有方法分为基于概率图的、基于矩阵补全的和基于嵌入的三大类,并且对其当前面临的挑战进行了探讨,最后总结并展望了远程监督关系抽取技术未来的发展。

高职院校图书馆的服务创新思考 下载:64 浏览:370

孔祥爱1 夏桂敏2 王伟3 《国际科技论坛》 2018年2期

摘要:
高职学校图书馆的服务创新主要有:网上信息服务、移动平台创新服务、地方文献特色服务。如何拓展服务模式,促进科技信息资源共享,是高职图书馆面临的重要课题。

融合图结构与节点关联的关键词提取方法 下载:20 浏览:203

马慧芳1,2 王双1 李苗1 李宁3 《中文研究》 2019年2期

摘要:
单篇文本的关键词提取可应用于网页检索、知识理解与文本分类等众多领域。该文提出一种融合图结构与节点关联的关键词提取方法,能够在脱离外部语料库的情况下发现单篇文本的关键词。首先,挖掘文本的频繁封闭项集并生成强关联规则集合;其次,取出强关联规则集合中的规则头与规则体作为节点,节点之间有边当且仅当彼此之间存在强关联规则时,边权重定义为关联规则的关联度,将强关联规则集合建模成关联图;再次,综合考虑节点的图结构属性、语义信息和彼此的关联性,设计一种新的随机游走算法计算节点的重要性分数;最后,为了避免抽取的词项之间有语义包含关系,对节点进行语义聚类并选取每个类的类中心作为关键词提取结果。通过设计关联图模型参数的选取、关键词的提取规模、不同算法对比3个实验,在具有代表性的中英文数据上证明了该方法能够有效提升关键词提取的效果。

基于联合标注和全局推理的篇章级事件抽取 下载:71 浏览:409

仲伟峰1 杨航1,2 陈玉博2 刘康2 赵军2 《中文研究》 2019年2期

摘要:
事件抽取可以帮助人们从海量的文本中快速、准确地获取感兴趣的事件知识。然而,目前事件抽取的研究主要集中在从单一句子中抽取事件,由于事件构成的复杂性和语言表述的多样性,多数情况下多句才能完整地描述一个事件。因此,从篇章中抽取出完整的结构化事件信息,显得更有价值和意义。该文首先利用基于注意力机制的序列标注模型联合抽取句子级事件的触发词和实体,与独立进行实体抽取和事件识别相比,联合标注的方法在F值上提升了1个百分点。然后利用多层感知机判断实体在事件中扮演的角色。最后,在句子级事件抽取的基础上,利用整数线性规划的方法进行全局推理,融合句子级事件信息,实现篇章级事件抽取,与基线模型相比,这种基于全局推理的篇章级事件抽取在F值上提升了3个百分点。

维吾尔语词缀变体搭配规则研究及算法实现 下载:28 浏览:416

艾孜麦提·艾尼瓦尔1,2,3 董军1,3 李晓1,3 《中文研究》 2018年12期

摘要:
该文介绍了维吾尔语词干结构特征、词缀结构特征及维吾尔语语音和谐律;以维吾尔语语音和谐律为基础,在充分考虑基本搭配规则和特殊规则的前提下,提出一种基于词干、词缀结构特征的维吾尔语词缀变体搭配算法;验证词干、词缀结构特征提取的正确性和完整性,并对500个名词词干和300个动词词干进行词缀变体搭配,分别生成9 000个名词和37 800个动词。借助维吾尔语文字校对系统和人工验证的方法,对生成的所有单词进行词缀变体搭配准确性验证;实验结果表明,名词和动词词干搭配词缀准确率分别为98.40%和96.49%,整体搭配准确率为96.86%;最后对搭配错误原因进行了分析。

基于协同表示学习的个性化新闻推荐 下载:27 浏览:365

梁仕威1,2 张晨蕊1,2 曹雷1 程军军3 许洪波1 程学旗1,2 《中文研究》 2018年11期

摘要:
新闻推荐是互联网推荐系统的研究热点之一,传统的协同过滤算法应用于新闻推荐中会面临严重的新闻冷启动问题,而且也没有考虑新闻内容本身包含的丰富的语义信息。该文将文档与词的表示学习模型与基于矩阵分解的协同过滤算法结合起来,提出一种用于推荐领域的协同表示学习模型,能同时学习带有语义信息的用户和文档的表示向量。在真实的新闻点击数据集上的实验表明,该文提出的模型优于其他基准模型。

基于相似消息的流行度预测方法 下载:56 浏览:412

高金华1,2 沈华伟1,2 程学旗1,2 刘悦1 《中文研究》 2018年11期

摘要:
社交网络中消息的流行度预测问题在很多应用领域都有着重要意义。传统的流行度预测方法包括基于特征的方法和基于点过程的方法。基于点过程的方法无法利用历史消息的信息,而基于特征的方法则使用一个统一的模型来对所有的消息进行预测,没有考虑消息的特异性。因此,该文提出了一种基于相似消息的流行度预测方法。对于待预测微博,我们从历史消息选取出与之最相似的前K条消息来进行预测。在计算消息相似度时,我们借助了文档建模领域的LDA模型来学习消息的表示。在数据集上的实验结果表明,该方法可以有效发现在传播模式上与待预测消息相似的历史消息,并在流行度预测任务上取得了比对比模型更好的预测效果。

基于BiDAF多文档重排序的阅读理解模型 下载:28 浏览:452

杨志明1,2,3 时迎成3 王泳2 潘昊杰3 毛金涛3 《中文研究》 2018年10期

摘要:
随着互联网的兴起和发展,数据规模急速增长,如何利用机器阅读理解技术对海量的非结构化数据进行解析,从而帮助用户快速、准确地查找到满意答案,是目前自然语言理解领域中的一个热门课题。该文通过对机器阅读理解中的深度神经网络模型进行研究,构建了RBiDAF模型。首先,通过对DuReader数据集进行数据探索,并对数据进行预处理,从中提取出有利于模型训练的特征。其次在BiDAF模型的基础上提出了基于多文档重排序的RBiDAF机器阅读理解模型,该模型在BiDAF模型四层网络框架的基础上添加了ParaRanking层。其中在ParaRanking层,该文提出了多特征融合的ParaRanking算法,此外在答案预测层,提出了基于先验知识的多答案交叉验证算法,进而对答案进行综合预测。在"2018机器阅读理解技术竞赛"的最终评测中,该模型表现出了不错的效果。

地理社会网络数据可视化分析研究综述 下载:76 浏览:476

李恒1,2 沈华伟3,4 黄蔚2 程学旗3,4 《中文研究》 2018年10期

摘要:
随着移动互联网与社会网络的深度融合,基于位置服务(Location Based Service,LBS)的社交媒体应用更加流行,成为地理社会网络(Geo-Social Networks,GSN)的研究重点。基于位置信息的社会网络(Location Based Social Network,LBSN)由于具有时空特性,其海量数据可视化不同于传统信息可视化,必须结合其地理信息特征进行表达。该文以GSN中抽取出的海量时空数据为分析对象,从LBSN时空数据抽取、海量时空数据可视化等方面进行综述,对地理社会网络时空数据交互可视化分析技术开展研究,以期能够实现比较方便、快速、直接地从地理社会网络的海量数据中提取出有用、可靠、可知识化的综合信息,并通过信息可视化方式进行直观表达、展示与分析。

基于简单循环单元的深层神经网络机器翻译模型 下载:41 浏览:454

张文1,2 冯洋1,2 刘群1,3 《中文研究》 2018年9期

摘要:
基于注意力机制的神经网络机器翻译模型已经成为目前主流的翻译模型,在许多翻译方向上均超过了统计机器翻译模型,尤其是在训练语料规模比较大的情况下,优势更加明显。该模型使用编码器—解码器框架,将翻译任务建模成序列到序列的问题。然而,在基于门控循环单元(gated recurrent unit,GRU)的编码器—解码器模型中,随着模型层数的增加,梯度消失的问题使模型难以收敛并且严重退化,进而使翻译性能下降。该文使用了一种简单循环单元(simple recurrent unit,SRU)代替GRU单元,通过堆叠网络层数加深编码器和解码器的结构,提高了神经网络机器翻译模型的性能。我们在德语—英语和维语—汉语翻译任务上进行了实验,实验结果表明,在神经网络机器翻译模型中使用SRU单元,可以有效地解决梯度消失带来的模型难以训练的问题;通过加深模型能够显著地提升系统的翻译性能,同时保证训练速度基本不变。此外,我们还与基于残差连接(residual connections)的神经网络机器翻译模型进行了实验对比,实验结果表明,我们的模型有显著性优势。

基于融合策略的机器翻译自动评价方法 下载:47 浏览:318

马青松1,2,3 张金超1,2,3 刘群1,4 《中文研究》 2018年6期

摘要:
机器翻译自动评价发展至今,各种自动评价方法不断涌现。不同的自动评价方法从不同的角度评价机器译文的质量。该文提出了基于融合策略的自动评价方法,该方法可以融合多个自动评价方法,多角度地综合评价机器译文质量。该文主要在以下几个方面探索进行:(1)对比分别使用相对排序(RR)和直接评估(DA)两种人工评价方法指导训练融合自动评价方法,实验表明使用可靠性高的DA形成的融合自动评价方法(Blend)性能更好;(2)对比Blend分别使用支持向量机(SVM)和全连接神经网络(FFNN)机器学习算法,实验表明在当前数据集上,使用SVM效果更好;(3)进而在SVM基础上,探索使用不同的评价方法对Blend的影响,为Blend寻找在性能和效率上的平衡;(4)把Blend推广应用到其他语言对上,说明它的稳定性及通用性。在WMT16评测数据上的实验,以及参加WMT17评测的结果均表明,Blend与人工评价的一致性达到领先水平。

基于多编码器多解码器的大规模维汉神经网络机器翻译模型 下载:50 浏览:363

张金超1,2,3 艾山·吾买尔4 买合木提·买买提4 刘群1,5 《中文研究》 2018年6期

摘要:
为提升维汉机器翻译模型的翻译能力,该文提出使用多编码器多解码器的结构,搭建大规模的维汉神经网络机器翻译模型。相比于单编码器单解码器的浅层的小模型,多编码器多解码器模型具有多个编码器,可以对源语言进行多层次、多视角的压缩表示;同时具有多个解码器,可以增强目标语言的生成能力。实验证明,在大规模的训练数据上,使用该方法搭建的大规模维汉神经网络机器翻译模型,译文质量可以大幅度地超过基于短语的统计机器翻译模型和基本的神经网络翻译模型。该文还针对维汉翻译源端语言和目标端语言的翻译单元粒度进行了实验,发现维吾尔语端使用字节对编码单元、汉语端使用字单元,可以消除对汉语分词器的依赖,做到和双端都使用字节对编码单元可比的效果。

基于叙词表的领域知识图谱初始种子集自动生成算法 下载:42 浏览:265

韩其琛 赵亚伟 姚郑 付立军 《中文研究》 2018年4期

摘要:
随着认知计算的飞速发展,通用知识图谱的自动构建取得了极大的进步,但在垂直领域由于缺乏本体等语义信息,导致进展缓慢。叙词表广泛分布于各个专业领域且蕴藏着丰富的语义信息,如能对这些语义信息进行合理的提取和利用,必然能在一定程度上帮助领域知识图谱的自动构建。该文提出两个假设,利用假设可以从叙词表内部结构中提取实体类型和关系类型,进而设计了一种基于叙词表的领域知识图谱初始种子集自动生成算法。最后,以地质领域和林业领域的叙词表作为实验对象,采用Bootstrapping算法,利用由叙词表自动生成的初始种子集进行抽取工作,通过对抽取到的结果进行分析,结果表明利用叙词表得到的初始种子集可以取得同人工设计种子比较接近的效果。此外,所提模型具有通用性,为叙词表在构建领域知识图谱中的应用提供了一种新的思路。

基于协同过滤Attention机制的情感分析模型 下载:47 浏览:441

赵冬梅1,2 李雅2 陶建华2 顾明亮1 《中文研究》 2018年1期

摘要:
该文主要研究在评论性数据中用户个性及产品信息对数据情感类别的影响。在影响数据情感类型的众多因素中,该文认为评价的主体即用户以及被评价的对象等信息对评论数据的情感至关重要。该文提出一种基于协同过滤Attention机制的情感分析方法(LSTM-CFA),使用协同过滤(CF)算法计算出用户兴趣分布矩阵,再将矩阵利用SVD分解后加入层次LSTM模型,作为模型注意力机制提取文档特征、实现情感分类。实验表明LSTMCFA方法能够高效提取用户个性与产品属性信息,显著提升了情感分类的准确率。

基于专利数据的智能语音产业研究——生命周期视角 下载:50 浏览:410

张婧宜1,2 张越2 靳景1,2 余江1,2 《中国科学与管理》 2019年8期

摘要:
基于德温特数据库专利数据,以专利分析为手段,应用生命周期理论和Logistic模型,对智能语音行业进行研究,划分智能语音技术的发展阶段,发现当前智能语音行业正处于技术发展成熟期,根据当前技术发展的特点和专利分布情况,将对智能语音发展从企业层面和政府层面提出建议。

科技强国视域下合肥市创新能力评估与提升路径比较研究 下载:52 浏览:393

陈套 《中国科学与管理》 2019年4期

摘要:
对科技强国下城市创新能力的内涵进行了界定,从6个维度25项解释性指标构建评价体系,运用VIKOR法测度2016年合肥市创新能力,并进行比较研究。结果表明,合肥市创新能力提升较快,与天津、重庆处于同一层次且略微领先,与北京、上海尚有较大差距。基于6个维度及与四大直辖市的比较分析,提出了提升路径建议。
在线客服::点击联系客服
联系电话::400-188-5008
客服邮箱::service@ccnpub.com
投诉举报::feedback@ccnpub.com
人工客服

工作时间(9:00-18:00)
官方公众号

科技成果·全球共享