中文研究
中文研究
《中文研究》系开放获取期刊,本刊旨在为从事语言文字研究的教学、科研工作者及语言文字爱好者提供优秀的精神产品。以传承文明,传承学术为使命,提倡学术创新,反映国内外本学科的最新研究成果。以繁荣人文社会科学研究,服务学科建设与发展,提升社会精神文明生态为办刊方针。

ISSN: 3007-9896

《中文研究》在线投稿系统

*文章题目:
*作者姓名:
*电子邮箱:
*通讯地址:
*联系方式:

  备      注:

*上传稿件:

支持上传.doc,.docx,.pdf,.txt,.wps文件

投稿须知:

1、审稿结果将于1~7个工作日以邮件告知,请注意查收(包含录用通知书、审稿意见、知网CNKI查重报告)。

2、提交投稿后,若7个工作日之内未接到录用通知,则说明该文章未被录用,请另投他刊。

3、凡投寄本刊稿件,如在内容上有侵权行为或不妥之处,均应文责自负。本刊有权对来稿进行文字编辑、加工和修改,如不同意,请附说明,以便妥善处理。

4、多作者文稿署名时须征得其他作者同意,排好先后次序,通知用稿后不再改动。

5、凡投往本刊稿件一经录用发表,其版权归本刊所有。

6、本刊已全文录入中国知网、万方、维普等数据库,如作者不同意被收录,请提前申明,未申明者,本刊一律视为同意被收录。

7、请勿一稿多投。



提示文字!

注:我们将于1~7个工作日告知您审稿结果,请耐心等待;

您也可以在官网首页点击“查看投稿进度”输入文章题目,查询稿件实时进程。

  • 从高频词等级相关角度探析《红楼梦》作者 下载:56 浏览:329
  • 马创新1 陈小荷2 《中文研究》 2018年11期
  • 摘要:
    该文提出一种"基于高频词等级相关度的方法"来探析存疑文献的作者信息,把各份语料中的词型均按照出现频次递减排列并确定等级,然后通过计算出语料之间高频词等级的相关度,来推断语料之间语言风格的相似度,并且把这种方法与"基于词型共现率的方法"和"基于词例共现率的方法"相比较。把《红楼梦》的120回均分为12份语料,使用"基于高频词等级相关度的方法"计算这12份语料两两之间的相关度。研究发现《红楼梦》的前8份语料两两之间相关度高,后4份语料两两之间相关度也高,而前8份语料与后4份语料这两部分语料之间相关度低。推断《红楼梦》前80回应是同一人所写,后40回应是另一人所写。
  • ACMF:基于卷积注意力模型的评分预测研究 下载:64 浏览:415
  • 商齐1 曾碧卿1,2 王盛玉1 周才东1 曾锋1 《中文研究》 2018年11期
  • 摘要:
    评分数据稀疏是影响评分预测的主要因素之一。为了解决数据稀疏问题,一些推荐模型利用辅助信息改善评分预测的准确率。然而大多数推荐模型缺乏对辅助信息的深入理解,因此还有很大的提升空间。鉴于卷积神经网络在特征提取方面和注意力机制在特征选择方面的突出表现,该文提出一种融合卷积注意力神经网络(Attention Convolutional Neural Network,ACNN)的概率矩阵分解模型:基于卷积注意力的矩阵分解(Attention Convolutional Model based Matrix Factorization,ACMF),该模型首先使用词嵌入将高维、稀疏的词向量压缩成低维、稠密的特征向量;接着,通过局部注意力层和卷积层学习评论文档的特征;然后,利用用户和物品的潜在模型生成评分预测矩阵;最后计算评分矩阵的均方根误差。在ML-100k、ML-1m、ML-10m、Amazon数据集上的实验结果表明,与当前取得最好预测准确率的PHD模型相比,ACMF模型在预测准确率上分别提高了3.57%、1.25%、0.37%和0.16%。
  • 基于相似消息的流行度预测方法 下载:56 浏览:405
  • 高金华1,2 沈华伟1,2 程学旗1,2 刘悦1 《中文研究》 2018年11期
  • 摘要:
    社交网络中消息的流行度预测问题在很多应用领域都有着重要意义。传统的流行度预测方法包括基于特征的方法和基于点过程的方法。基于点过程的方法无法利用历史消息的信息,而基于特征的方法则使用一个统一的模型来对所有的消息进行预测,没有考虑消息的特异性。因此,该文提出了一种基于相似消息的流行度预测方法。对于待预测微博,我们从历史消息选取出与之最相似的前K条消息来进行预测。在计算消息相似度时,我们借助了文档建模领域的LDA模型来学习消息的表示。在数据集上的实验结果表明,该方法可以有效发现在传播模式上与待预测消息相似的历史消息,并在流行度预测任务上取得了比对比模型更好的预测效果。
  • 地理社会网络数据可视化分析研究综述 下载:76 浏览:470
  • 李恒1,2 沈华伟3,4 黄蔚2 程学旗3,4 《中文研究》 2018年10期
  • 摘要:
    随着移动互联网与社会网络的深度融合,基于位置服务(Location Based Service,LBS)的社交媒体应用更加流行,成为地理社会网络(Geo-Social Networks,GSN)的研究重点。基于位置信息的社会网络(Location Based Social Network,LBSN)由于具有时空特性,其海量数据可视化不同于传统信息可视化,必须结合其地理信息特征进行表达。该文以GSN中抽取出的海量时空数据为分析对象,从LBSN时空数据抽取、海量时空数据可视化等方面进行综述,对地理社会网络时空数据交互可视化分析技术开展研究,以期能够实现比较方便、快速、直接地从地理社会网络的海量数据中提取出有用、可靠、可知识化的综合信息,并通过信息可视化方式进行直观表达、展示与分析。
  • D-Reader:一种以全文预测的阅读理解模型 下载:75 浏览:332
  • 赖郁婷1 曾俋颖1 林柏诚2 萧瑞辰2 邵志杰1 《中文研究》 2018年10期
  • 摘要:
    该文针对2018机器阅读理解技术竞赛提出一个基于双向注意流(BiDAF)BiDAF的阅读理解模型,实作于DuReader中文问答数据集。该文观察到基线系统采用与问题最相近的段落,作为预测的筛选条件,而改以完整段落来预测答案,结果证实优于原方法。并利用fastText训练词向量以强化上下文信息,最后通过集成学习优化结果,提升效能与稳定性。此外,针对DuReader的是非类题型,该文集成两个分类模型,分别基于注意力机制(attention)与相似性机制(similarity)来预测答案类别。该模型最终在"2018机器阅读理解技术竞赛"的评比中得到了ROUGE-L 56.57与BLEU-4 48.03。
  • T-Reader:一种基于自注意力机制的多任务深度阅读理解模型 下载:47 浏览:364
  • 郑玉昆1 李丹2 范臻1 刘奕群1 张敏1 马少平1 《中文研究》 2018年10期
  • 摘要:
    该文介绍THUIR团队在"2018机器阅读理解技术竞赛"中的模型设计与实验结果。针对多文档机器阅读理解任务,设计了基于自注意力机制的多任务深度阅读理解模型T-Reader,在所有105支参赛队伍中取得了第八名的成绩。除文本信息外,提取了问题与段落精准匹配等特征作为模型输入;在模型的段落匹配阶段,采用跨段落的文档级自注意力机制,通过循环神经网络实现了跨文档的问题级信息交互;在答案范围预测阶段,通过进行段落排序引入强化学习的方法提升模型性能。
  • 基于BiDAF多文档重排序的阅读理解模型 下载:28 浏览:444
  • 杨志明1,2,3 时迎成3 王泳2 潘昊杰3 毛金涛3 《中文研究》 2018年10期
  • 摘要:
    随着互联网的兴起和发展,数据规模急速增长,如何利用机器阅读理解技术对海量的非结构化数据进行解析,从而帮助用户快速、准确地查找到满意答案,是目前自然语言理解领域中的一个热门课题。该文通过对机器阅读理解中的深度神经网络模型进行研究,构建了RBiDAF模型。首先,通过对DuReader数据集进行数据探索,并对数据进行预处理,从中提取出有利于模型训练的特征。其次在BiDAF模型的基础上提出了基于多文档重排序的RBiDAF机器阅读理解模型,该模型在BiDAF模型四层网络框架的基础上添加了ParaRanking层。其中在ParaRanking层,该文提出了多特征融合的ParaRanking算法,此外在答案预测层,提出了基于先验知识的多答案交叉验证算法,进而对答案进行综合预测。在"2018机器阅读理解技术竞赛"的最终评测中,该模型表现出了不错的效果。
  • 一种基于数据重构和富特征的神经网络机器阅读理解模型 下载:52 浏览:380
  • 尹伊淳 张铭 《中文研究》 2018年10期
  • 摘要:
    该文描述了ZWYC团队在"2018机器阅读理解技术竞赛"上提出的机器理解模型。所提出模型将机器阅读理解问题建模成连续文本片段抽取问题,提出基于富语义特征的神经交互网络模型。为了充分使用答案标注信息,模型首先对数据进行细致的重构,让人工标注的多个答案信息都能融合到数据中。通过特征工程,对每个词构建富语义表征。同时提出一种简单有效的问题和文档交互的方式,得到问题感知的文档表征。基于多个文档串接的全局表征,模型进行答案文本预测。在最终测试集上,该模型获得了目前先进的结果,在105支队伍中排名第2。
  • 一种新的朝鲜语词性标注方法 下载:45 浏览:364
  • 金国哲 崔荣一 《中文研究》 2018年9期
  • 摘要:
    朝鲜语词性标注是朝鲜语信息处理的基础,其结果直接影响后续朝鲜语自然语言处理的效果。首先为了解决朝鲜语词性标注中遇到的形态素实际写法与原形不一致的问题,该文提出了一种在seq2seq模型的基础上融合朝鲜语字母信息的朝鲜语形态素原形恢复方法;其次,在恢复形态素原形的基础上,利用LSTM-CRF模型完成朝鲜语分写及词性标注。实验结果表明,该文提出的方法词性标注F1值为94.75%,优于其他方法。
  • 藏文字同现网络的小世界效应和无标度特性 下载:19 浏览:201
  • 才智杰1 孙茂松2 才让卓玛1 《中文研究》 2018年9期
  • 摘要:
    复杂网络具有自组织、自相似、吸引子、小世界、无标度中部分或全部性质,而语言文字作为人类智慧和文明的结晶,是经过漫长演化形成的复杂网络。该文对藏语诗歌、散文、政治、佛教、教材和口语等六类具有代表性的体裁语料,每类各取15篇共90篇文章构建了97个藏文字同现网络,分析了藏文字同现网络的最短路径长度、聚类系数和度分布,实验数据显示97个藏文字同现网络都具有小世界效应和无标度特性,表明藏文字同现网络都具有小世界效应和无标度特性。
  • 基于简单循环单元的深层神经网络机器翻译模型 下载:41 浏览:449
  • 张文1,2 冯洋1,2 刘群1,3 《中文研究》 2018年9期
  • 摘要:
    基于注意力机制的神经网络机器翻译模型已经成为目前主流的翻译模型,在许多翻译方向上均超过了统计机器翻译模型,尤其是在训练语料规模比较大的情况下,优势更加明显。该模型使用编码器—解码器框架,将翻译任务建模成序列到序列的问题。然而,在基于门控循环单元(gated recurrent unit,GRU)的编码器—解码器模型中,随着模型层数的增加,梯度消失的问题使模型难以收敛并且严重退化,进而使翻译性能下降。该文使用了一种简单循环单元(simple recurrent unit,SRU)代替GRU单元,通过堆叠网络层数加深编码器和解码器的结构,提高了神经网络机器翻译模型的性能。我们在德语—英语和维语—汉语翻译任务上进行了实验,实验结果表明,在神经网络机器翻译模型中使用SRU单元,可以有效地解决梯度消失带来的模型难以训练的问题;通过加深模型能够显著地提升系统的翻译性能,同时保证训练速度基本不变。此外,我们还与基于残差连接(residual connections)的神经网络机器翻译模型进行了实验对比,实验结果表明,我们的模型有显著性优势。
  • 适应多领域多来源文本的汉语依存句法数据标注规范 下载:24 浏览:215
  • 郭丽娟 李正华 彭雪 张民 《中文研究》 2018年9期
  • 摘要:
    近十年来,依存句法分析由于具有表示形式简单、灵活、分析效率高等特点,得到了学术界广泛关注。为了支持汉语依存句法分析研究,国内同行分别标注了几个汉语依存句法树库。然而,目前还没有一个公开、完整、系统的汉语依存句法数据标注规范,并且已有的树库标注工作对网络文本中的特殊语言现象考虑较少。为此,该文充分参考了已有的数据标注工作,同时结合实际标注中遇到的问题,制定了一个新的适应多领域多来源文本的汉语依存句法数据标注规范。我们制定规范的目标是准确刻画各种语言现象的句法结构,同时保证标注一致性。利用此规范,我们已经标注了约3万句汉语依存句法树库。
  • 《现代汉语动词语义知识词典》的开发与应用 下载:57 浏览:498
  • 孙道功1 亢世勇2 《中文研究》 2018年9期
  • 摘要:
    该文吸收已有动词研究的相关成果,提出了动词语义词典开发的相关原则和研制思路,界定并描写了词典中所涉及的相关属性信息,并对词典的总体文件结构及其各个库的信息进行了描写和说明。最终开发了融合词汇语义和句法语义,涵盖词形、词性、释义、义类、义场、句法范畴信息、语义范畴信息、语义句模等多种信息参数的开放性的动词语义知识词典。该词典可以在歧义分化、词义关系考察、句法—语义接口、句模抽取等方面提供支持。
  • 基于社交媒体的企业行为事件挖掘 下载:60 浏览:449
  • 邓文君 袁华 钱宇 《中文研究》 2018年8期
  • 摘要:
    社交媒体快速发展,越来越多的企业利用它发布信息,这些信息具有重要的商业和研究价值。但是社交媒体数据具有强噪音、多类型、多主题等特点,这导致企业行为演化分析面临巨大挑战。为此,该文提出了一种企业行为识别及演化分析的方法。首先利用识别方法对企业信息进行行为识别,然后再运用已识别企业行为数据进行企业行为演化分析,最后根据演化分析结果,为竞争性企业提供营销建议。实验结果表明,该文提出的企业行为识别及演化分析的方法具有重要的应用价值。
  • 社交媒体;词表征;触发器;行为演化 下载:63 浏览:318
  • 赵礼强 姜崇靖可 《中文研究》 2018年8期
  • 摘要:
    内容分发网络(CDN)以推(Push)和拉(Pull)作为两种主要的内容分发策略。拉是服务器对用户请求给予回应的方式,在面对高并发请求时,以推方式预分发到服务器上的内容将有效辅助改善服务器过载的情况,并实现热度内容的主动推送。预分发内容的热度高低直接决定了内容的边缘命中率和用户的启动延迟,有效减少预分发内容替换的频率和对源服务器访问时的网络堵塞,因此在网络小说服务器中依据网络小说热度对内容分发策略的部署就显得更为重要。目前针对网络小说服务器的内容分发策略的研究较少,缺乏对网络小说热度科学有效的评价标准。以服务器管理人员的主观经验判断和低命中的预分发内容的不断替换来实现内容推送的策略,不仅主观性强,同时内容的不断替换更极大地增加了服务器负担。针对这一问题,该文通过定义网络小说热度概念,对在起点中文网爬取到的数据进行预处理,数据拟合显示数据符合幂律分布规律,并建立热度等级评价标准,分别采用贝叶斯网络、随机森林算法与Logistic回归建立预测模型,对网络小说热度预测进行对比研究。结果显示,随机森林算法的预测正确率达到97.097%,均方误差为0.112 8,分类预测效果更优,且误差率更低。因此选用随机森林算法,依据网络小说热度评价标准,能够有效解决网络小说CDN系统内容部署不准确而导致低命中内容的不断替换和用户访问延迟的问题,为内容分发策略提供有效指导,从而提高内容命中率,提升网络小说CDN系统运作效率。
  • 基于密度及文本特征的新闻标题抽取算法 下载:53 浏览:306
  • 彭圳生1,2 巩青歌1 高志强1,2 段妍羽1 曾子贤1 《中文研究》 2018年8期
  • 摘要:
    为从大量的复杂非规范网页结构中自动抽取出新闻标题,该文提出一种基于密度和文本特征的新闻标题抽取算法(title extraction with density and text-features,TEDT)。主要通过融合网页文本密度分布和语言特征的语料判定模型,将网页划分为语料区和标题候选区,选取语料后通过TextRank算法计算对应的key-value权重集合,最后采用改进的相似度计算方法从标题候选区抽取新闻标题。该算法能有效划分语料和标题区域,降低网页噪声干扰,准确抽取出新闻标题。实验结果表明,TEDT的准确率和召回率均优于传统的基于规则和相似度的新闻标题抽取算法,证明了TEDT不仅对主流新闻网站有效,而且对复杂非规范网页也广泛适用。
  • 基于多模型的新闻标题分类 下载:55 浏览:430
  • 董孝政 宋睿 洪宇 朱芬红 朱巧明 《中文研究》 2018年8期
  • 摘要:
    该文研究中文新闻标题的领域分类方法(domain-oriented headline classification,DHC)。现有研究将DHC限定为一种短文本分类问题,并将传统分类模型和基于卷积神经网络的分类模型应用于这一问题的求解。然而,这类方法忽视了新闻标题的内在特点,即为"标题是建立在凝练全文且弱相关的词语之上的一种强迫性的语义表述"。目前,融合了序列化记忆的循环神经网络在语义理解方面取得了重要成果。借助这一特点,该文将长短时记忆网络模型(long-short term memory,LSTM)及其变型——门控循环单元(gated recurrent unit,GRU)也应用于标题的语义理解与领域分类,实验验证其性能可达81%的F1值。此外,该文对目前前沿的神经网络分类模型进行综合分析,尝试寻找各类模型在DHC任务上共有的优势和劣势。通过对比"全类型多元分类"与"单类型二元分类",发现在领域性特征较弱和领域歧义性较强的样本上,现有方法难以取得更为理想的结果(F1值<81%)。借助上述分析,该文旨在推动DHC研究在标题语言特性上投入更为充分的关注。
  • 局部几何保持的Laplacian代价敏感支持向量机 下载:34 浏览:383
  • 周国华1,2 宋洁1 殷新春2 《中文研究》 2018年8期
  • 摘要:
    不平衡数据广泛存在于现实生活中,代价敏感学习能有效解决这一问题。然而,当数据的标记信息有限或不足时,代价敏感学习分类器的分类精度大大下降,分类性能得不到保证。针对这一情况,该文提出了一种局部几何保持的Laplacian代价敏感支持向量机(LPCS-LapSVM),该模型基于半监督学习框架,将代价敏感学习和类内局部保持散度的思想引入其中,从考虑内在可分辨信息和样本的局部几何分布两方面来提高代价敏感支持向量机在标记信息有限的场景中的分类性能。UCI数据集上的实验结果表明了该算法的有效性。
  • 基于分形几何的甲骨文字形识别方法 下载:40 浏览:417
  • 顾绍通 《中文研究》 2018年7期
  • 摘要:
    甲骨文是流行于我国古代商朝的成熟文字系统,本质上是一种平面图形,笔画和结构不是非常稳定。很多字形具有图画性质,难以区分明显的结构,难写难记。已有的编码输入方法受众面小,效率很低,使用受限。该文分析了甲骨文字形的分形性质,在此基础上,通过字形的重心建立二维平面直角坐标系,将甲骨文字形的平面图形划分为四个象限。利用分形几何的原理,通过计算字形以及各个象限的分形维数,将甲骨文字形形式化为一组分形描述码。再通过与甲骨文字形的分形特征库进行配准,从而识别甲骨文字形。实验结果显示,利用分形几何可以较好地识别甲骨文字形。
加入编委加入审稿人
中文研究  期刊指标
出版年份 2018-2025
发文量 689
访问量 130587
下载量 39862
总被引次数 406
影响因子 1.192
为你推荐