中文研究
中文研究
《中文研究》系开放获取期刊,本刊旨在为从事语言文字研究的教学、科研工作者及语言文字爱好者提供优秀的精神产品。以传承文明,传承学术为使命,提倡学术创新,反映国内外本学科的最新研究成果。以繁荣人文社会科学研究,服务学科建设与发展,提升社会精神文明生态为办刊方针。

ISSN: 3007-9896

《中文研究》在线投稿系统

*文章题目:
*作者姓名:
*电子邮箱:
*通讯地址:
*联系方式:

  备      注:

*上传稿件:

支持上传.doc,.docx,.pdf,.txt,.wps文件

投稿须知:

1、审稿结果将于1~7个工作日以邮件告知,请注意查收(包含录用通知书、审稿意见、知网CNKI查重报告)。

2、提交投稿后,若7个工作日之内未接到录用通知,则说明该文章未被录用,请另投他刊。

3、凡投寄本刊稿件,如在内容上有侵权行为或不妥之处,均应文责自负。本刊有权对来稿进行文字编辑、加工和修改,如不同意,请附说明,以便妥善处理。

4、多作者文稿署名时须征得其他作者同意,排好先后次序,通知用稿后不再改动。

5、凡投往本刊稿件一经录用发表,其版权归本刊所有。

6、本刊已全文录入中国知网、万方、维普等数据库,如作者不同意被收录,请提前申明,未申明者,本刊一律视为同意被收录。

7、请勿一稿多投。



提示文字!

注:我们将于1~7个工作日告知您审稿结果,请耐心等待;

您也可以在官网首页点击“查看投稿进度”输入文章题目,查询稿件实时进程。

  • 基于地理空间数据的知识图谱构建技术研究 下载:20 浏览:242
  • 刘俊楠1 刘海砚1 陈晓慧1 郭漩2 朱新铭1 《中文研究》 2020年7期
  • 摘要:
    随着3S技术迅猛发展,地理空间数据呈现出爆发式增长趋势,基于地理空间数据构建知识图谱,实现数据到空间知识的转换成为亟待解决的科学问题。针对通用知识图谱仅以属性和语义关系表示空间知识,以及空间关系相对缺失等问题,该文首先描述了空间关系的表示方法;其次,提出了基于空间关系的知识图谱构建技术流程,重点研究空间关系抽取和表示以及多源地理空间数据融合的问题,实现了地理知识图谱构建;最后,论述知识图谱在地理空间领域的应用方向。该研究可以促进地理空间数据和语义网技术的整合,实现网络文本空间化、空间数据语义化,进一步提高智能化服务水平。
  • 汉语中介语的依存句法标注规范及标注实践 下载:55 浏览:352
  • 肖丹1,2 杨尔弘1,2 张明慧1,2 陆天荧1,2 杨麟儿1,2 《中文研究》 2020年7期
  • 摘要:
    汉语中介语是伴随着汉语国际教育产生的,随着汉语学习在全球的不断开展,汉语中介语的规模不断增长,由于这些语料在语言使用上有其独特性,使得中介语成为语言信息处理和智能语言辅助学习的独特资源。依存语法分析是语言信息处理的重要步骤,英语中介语的依存语法标注语料已经有很好的应用,目前汉语中介语语料库对句法的关注度较低,缺乏一个充分考虑汉语中介语特点的依存句法标注规范。该文着眼于汉语中介语的依存句法标注语料库的建构,探讨依存标注规范,在充分借鉴国际通用依存标注体系(Universal Dependencies)的基础上,制定了汉语中介语的依存标注规范,并进行了标注实践,形成了一个包括汉语教学语法点的中介语依存语料库。
  • 一个面向中文古诗词理解难易度的人工标注数据集 下载:46 浏览:402
  • 刘磊1,2 何苯1,2 孙乐2 《中文研究》 2020年7期
  • 摘要:
    向读者推荐阅读难度合适的古诗词有助于提升读者的诗词鉴赏能力。现阶段,围绕古诗词可读性自动化分析的相关研究的突出局限之一是缺乏大规模高质量的数据集。针对该问题,该文研究面向古诗词可读性自动化分析的数据集构建。该文作者对外开放了包含1 915篇古诗词的标注阅读理解难度的数据集(1)。该文首先将数据集划分成易中难三级,构建数据集APRD;然后进一步细化标注,构建六级分类数据集APRD+。抽取教材中的诗词组成标准集,以年级为标准难度级别,计算标准集与APRD、APRD+之间的Spearman相关性,Spearman系数分别为0.786与0.804,表明该数据集标记结果与标准集具有较高一致性。该文提取了字频、注释数等古诗词特征,采用SVM、随机森林等算法进行了初步古诗词阅读理解难易度分类测试。文内提出的古诗词可读性数据集与实验结果可作为后续研究的测试基准。
  • 基于大规模语料库的介词结构搭配库构建 下载:87 浏览:491
  • 邢丹1 饶高琦1,2 荀恩东1 王诚文1 《中文研究》 2020年7期
  • 摘要:
    语言知识可帮助计算机正确地处理自然语言,介词结构知识作为语言知识的一种,对自然语言处理和语言教学研究有很重要的意义。该文基于大规模语料库构建了高质量的介词结构搭配库。首先在前人研究的基础上,对介词进行归类并建立了介词搭配知识体系,而后设计并实现了从大数据中获取介词结构搭配知识的规则,最后对抽取结果及其数据规模进行了统计和评估,主要目的是通过形式手段获取高质量的介词结构搭配,同时也为自然语言处理和语言学基础研究及应用提供数据支持。
  • 基于层次模型和注意力机制的文本分类算法 下载:72 浏览:329
  • 武高博1 王黎明1 柴玉梅1 刘箴2 《中文研究》 2020年6期
  • 摘要:
    文本分类一直是自然语言处理任务的研究重点与热点,且被广泛应用到诸多实践领域。首先,该文针对文本分类过程中缺乏层次结构特征的问题,对NMF-SVM分类方法进行优化,利用优化后的分类标签构建树形层次模型,从特征树中提取层次特征;其次,针对关键词与非关键词对分类结果影响程度不同的问题,提出SEAN注意力机制,通过对时间、地点、人物和事件四要素的提取,得到不同词之间的注意力;最后,针对句子间亲和度不同的问题,考虑不同句子的四要素词和语义层面的影响提出句间亲和度计算模型。该文算法适用于四要素突出的数据集,如新闻、小说、阅读理解、微博,在新闻类数据集上与同类别的深度学习文本分类模型以及包含注意力机制的混合模型进行了对比,实验结果表明,该算法在分类效果上具有一定优势。
  • 结合字形特征与迭代学习的金融领域命名实体识别 下载:23 浏览:188
  • 刘宇瀚 刘常健 徐睿峰 骆旺达 陈奕 吉忠晟 应能涛 《中文研究》 2020年6期
  • 摘要:
    针对中文金融文本领域的命名实体识别,该文从汉字自身特点出发,设计了结合字形特征、迭代学习以及双向长短时记忆网络和条件随机场的神经网络模型。该模型是一种完全端到端且不涉及任何特征工程的模型,其将汉字的五笔表示进行编码以进行信息增强,同时利用迭代学习的策略不断对模型整体预测结果进行改进。由于现有的命名实体识别研究在金融领域缺乏高质量的有标注的语料库资源,所以该文构建了一个大规模的金融领域命名实体语料库HITSZ-Finance,共计31 210个文本句,包含4类实体。该文在语料库HITSZ-Finance上进行了一系列实验,实验结果均表明模型的有效性。
  • 基于迭代式回译策略的藏汉机器翻译方法研究 下载:52 浏览:251
  • 慈祯嘉措1,2 桑杰端珠1,2 孙茂松3 周毛先1,2 色差甲1,2 《中文研究》 2020年6期
  • 摘要:
    该文通过稀缺语言资源条件下机器翻译方法的研究以提高藏汉机器翻译质量,同时希望对语言资源匮乏的其他少数民族语言机器翻译研究提供借鉴。首先该文使用164.1万句对藏汉平行语言资源数据在Transformer神经网络翻译模型上训练一个基线系统,作为起始数据资源,然后结合翻译等效性分类器,利用迭代式回译策略和译文自动筛选机制,实现了稀缺资源条件下提升藏汉神经网络机器翻译性能的有效模型,使最终的模型比基准模型在藏到汉的翻译上有6.7个BLEU值的提升,在汉到藏的翻译上有9.8个BLEU值的提升,证实了迭代式回译策略和平行句对过滤机制在汉藏(藏汉)机器翻译中的有效性。
  • 基于CNN-CorrNet网络的汉缅平行句对抽取方法 下载:40 浏览:263
  • 毛存礼1,2 吴霞1,2 朱俊国1,2 余正涛1,2 李云龙1,2 王振晗1,2 《中文研究》 2020年6期
  • 摘要:
    构建双语平行语料库是提升低资源语言机器翻译质量的一种有效方法。该文提出了基于CNN-CorrNet网络的汉缅平行句对抽取方法。具体而言,该文首先利用BERT得到汉语、缅语词向量表征,并将汉语、缅语两种语言句子用卷积神经网络进行句子表征,以捕捉句子重要特征信息;然后为了保证两种语言跨语言表征的最大相关性,利用已有的汉缅平行句对作为约束条件,使用CorrNet(相关神经网络)将汉缅的句子表征投影到公共语义空间;最后计算公共语义空间中汉语、缅语句子距离,并根据距离判断汉—缅双语句子是否为平行句子。实验结果表明,相比最大熵模型、孪生网络模型,该文提出的方法F1值分别提升了13.3%、5.1%。
  • 煤矿安全知识图谱构建及智能查询方法研究 下载:63 浏览:353
  • 刘鹏1 叶帅2 舒雅3 鹿晓龙3 刘明明4 《中文研究》 2020年6期
  • 摘要:
    煤矿企业正从信息化建设向智能化迈进,以大数据、人工智能为代表的网络新技术已促进了矿山领域的智能化发展。但是由于煤矿领域数据信息的繁杂性,难以对其进行统一而高效地收集、信息挖掘,进而促进深一步的特定领域研究和应用。将知识图谱技术初步引入煤矿安全领域,对相关知识概念分类建模,并基于图数据库存储,用实体关系图的方式直观地描述各类概念及概念之间的关系,然后基于初步构建的知识图谱,提出了一种自然语言知识查询方法。实验证明,该文提出的方法具有较高的查全率和查准率,基于Spark的并行朴素贝叶斯问题分类方法可以在保证准确率的同时,显著提升训练效率。该文工作为煤矿安全知识图谱构建及智能查询做了初步有益探索。
  • 基于同义词词林和预训练词向量的微调方法 下载:48 浏览:233
  • 佘琪星1 王必聪1 刘铭1,2 秦兵1,2 王莉峰3 《中文研究》 2020年5期
  • 摘要:
    同义词挖掘是自然语言处理领域中的一个基础任务,而同义词对的判别是该任务的一个重要部分。传统两大类方法,基于分布式表示和基于模板的方法,分别利用了语料的全局统计信息和局部统计信息,只能在精确率和召回率中权衡。随着预训练词向量技术的发展,基于分布式表示的方法存在一种简单高效的方案,即直接对预训练好的词向量计算相似度,将此表示为语义相似度。然而,这样的思路并没有利用到现有的同义词对这一外部知识。该文提出基于《同义词词林》的词向量微调方法,利用同义词对信息,增强预训练词向量的语义表示。经过实验,该微调方法能很好地完成同义词对的判别。
  • 汉语篇章依存结构的标注难点与处理 下载:50 浏览:303
  • 冯文贺1 徐钰仪2 李青春2 《中文研究》 2020年5期
  • 摘要:
    篇章依存结构一般表示为最小篇章单位(小句)间的支配与被支配关系,相比修辞结构等,其可以有效刻画最小篇章单位间的直接关系及其向心性。篇章依存结构的理论内涵及具体实践有待深入。该文结合汉语篇章依存结构语料库的标注实践,重点分析标注难点问题并给出处理方案,包括小句切分、小句关联、依存中心等重要分析任务。事实上,这些难点不仅是人工标注的难点,也是自动标注的难点,其处理不仅有利于指导构建高质量语料库,也有利于指导进一步的自动标注研究。
  • 基于Transformer的AMR-to-Text生成 下载:37 浏览:281
  • 朱杰 李军辉 《中文研究》 2020年5期
  • 摘要:
    抽象语义表示到文本(AMR-to-Text)的生成任务是给定AMR图,生成相同意义表示的文本。可以把此任务当成一个从源端AMR图到目标端句子的翻译任务。然而,传统的序列到序列(seq2seq, S2S)方法使用循环递归网络进行编码,并不能很好地解决长距离依赖的问题。当前最好的性能是图到序列(graph2seq, G2S)的模型,使用了图模型直接对AMR图结构进行编码,但是,该方法对于非直接相连的节点依然会损失大量的结构信息。针对上述问题,基于seq2seq框架,该文提出了一种直接而有效的AMR-to-Text生成方法。在这项工作中,引入了当前最优的seq2seq模型Transformer作为基准模型,并且使用字节对编码(BPE)和共享词表的方法来联合处理未登录词(OOV)的问题。在现有的两份英文标准数据集上,实验结果都得到了显著的提升,达到了新的最高性能。
  • 基于抽象语义表示的汉语构式标注与分析 下载:19 浏览:350
  • 黄彤1 李斌1 闫培艺1 戴玉玲1 曲维光2 《中文研究》 2020年5期
  • 摘要:
    构式作为组成成分与实际意义不能完全对应的结构,与常规句子差异较大,对句法和语义分析器的影响较大,构式的自动分析则更是困难。因此,亟需研究构式的结构标注方法及构建相应语料库。由于构式的语义结构与句法结构有较大差异,该文使用中文抽象语义表示(CAMR)来直接标注构式的语义结构。目前收录最全的构式库是北京大学现代汉语构式知识库,通过对该构式库1 057条构式进行人工标注并统计后,发现CAMR可以表示出61.2%的基本符合组合原则的构式;而38.8%不符合组合原则的构式需要修改或添加概念,存在缺少概念、组成成分难以拆分、修辞意义难以表示等情况。该文给出的策略是将其整体作为一个谓词标注或只标注其表层义。汉语构式库的标注可以为构式语义的自动分析提供理论与数据基础。
  • 基于知识图谱的在线商品问答研究 下载:63 浏览:440
  • 王思宇1 邱江涛1 洪川洋1 江岭2 《中文研究》 2020年5期
  • 摘要:
    现阶段,针对商品的自动问答主要由意图识别和答案配置来实现,但问题答案的配置依赖人工且工作量巨大,容易造成答案质量不高。随着知识图谱技术的出现和发展,基于知识图谱的自动问答逐渐成为研究热点。目前,基于知识图谱的商品自动问答主要是通过规则解析的方法将文本形式问题解析为知识图谱查询语句来实现。虽然减少了人工配置工作,但其问答效果受限于规则的质量和数量,很难达到理想的效果。针对上述问题,该文提出一种基于知识图谱和规则推理的在线商品自动问答系统。主要贡献包括:(1)构建一个基于LSTM的属性注意力网络SiameseATT(Siamese attention network)用于属性选择;(2)引入了本体推理规则,通过规则推理使得知识图谱能动态生成大量三元组,使得同样数据下可以回答更多问题。在NIPCC-ICCPOL 2016 KBQA数据集上的实验显示,该系统具有很好的性能。相比一些更复杂的模型,该问答系统更适合电商的应用场景。
  • 基于单句表示的篇章事件可信度识别方法 下载:65 浏览:462
  • 张刘敏 张赟 李培峰 《中文研究》 2020年4期
  • 摘要:
    事件可信度表示文本中事件的真实状况,描述了事件是否是一个事实,或是一种可能还是不可能的情形,是自然语言处理中一个重要的语义任务。目前,大多数关于事件可信度分析的方法都集中在句子级,很少涉及篇章级。该文基于卷积神经网络,结合篇章中的句子级特征(包括句子的语义、语法以及线索词特征表示),使用对抗训练来识别篇章可信度。在中英文数据集上的结果显示,该文方法与最新的实验结果相比,微平均F1值分别提高了3.51%和6.02%,宏平均F1值分别提升了4.63%和9.97%。同时,该方法在训练速度上也提高了4倍。
  • 基于新型卷积神经网络构建矿山灾害事件检测模型 下载:62 浏览:279
  • 刘鹏1 魏卉子2 鹿晓龙2 刘明明3 《中文研究》 2020年4期
  • 摘要:
    事件检测属于自然语言处理的核心任务及难点之一,使用长短时记忆网络(LSTM)和卷积神经网络(CNN)进行的相关研究越来越广泛,但面对篇章级别的事件文本时,参数量庞大的LSTM与语义缺失明显的CNN导致模型检测准确性和收敛性均欠佳。该文结合迭代空洞卷积神经网络和高速神经网络,提出基于混合特征的高速迭代空洞卷积神经网络,力图优化深层模型训练中常见的梯度消失与爆炸现象,提取性能更优的篇章级文本特征。实验结果表明,该方法与当下主流的LSTM和CNN模型相比,矿山灾害事件检测效果更为理想,收敛性及训练效率也表现更优。
  • 基于JCWA-DLSTM的法律文书命名实体识别方法 下载:54 浏览:426
  • 王得贤1 王素格1,2 裴文生3 李德玉1,2 《中文研究》 2020年4期
  • 摘要:
    对于法律文书中证据名、证实内容和卷宗号等实体的正确提取,可以有效提升法官的办案效率。然而,这些实体与一般实体不同,具有字符长度较长和相互关联性较强的特点。因此,该文提出了一种基于JCWA-DLSTM(join character word and attention-dual long short-term memory)的法律文书命名实体识别方法。该方法利用字级语言模型获取词语的表示,同时,利用自注意力机制获得句子的内部表示。在此基础上,采用双向LSTM将句子内部表示和基于字级语言模型词语表示分别与词向量拼接编码,再将两种语义表示拼接融合,获得最终的句子语义表示。最后利用CRF将句子的语义表示解码,得到最优标记序列。实验结果表明,该文提出的方法可对法律文书中的证据名、证实内容和卷宗号等实体边界进行有效的确定,提升了命名实体识别的结果。
  • 基于事件属性的事件分类研究 下载:41 浏览:259
  • 王亚1,2 曹存根1 《中文研究》 2020年4期
  • 摘要:
    事件分类研究一直是计算机科学和语言学等学科的核心研究内容,针对动词语义层面上的分类问题,研究者们提出了不同的分类标准,而根据这些分类标准对动词进行分类会产生分类有交叉和分类粒度粗等问题。一个动词通常表示一个过程事件,该文以汉语世界中经常发生的过程事件为语义分类对象,从事件的定义中提取事件的特征属性,并给每个特征属性赋予权重,利用特征属性对顶层事件类包含的事件进行分类。该文采用框架的形式对事件进行语义描述,框架内容由事件的特征属性和私有属性组成。重点以"传播"类事件为例来阐述该文的分类方法,通过实际操作发现,利用该分类方法,可以得到一个比较清晰的事件语义分类结构。该文用描述逻辑来对事件及事件之间的分类关系进行形式化表示。根据该事件分类体系,可以有效获取事件属性相关的常识知识。
  • 基于词向量的藏文语义相似词知识库构建 下载:27 浏览:349
  • 龙从军1,2 周毛克3 刘汇丹2 《中文研究》 2020年4期
  • 摘要:
    词向量在自然语言处理研究的各个领域发挥着重要作用。该文从语言学角度出发,讨论了词向量技术与语言学理论的关系;根据词向量的特征,提出利用藏文词向量构建语义相似词知识库。该文以哈尔滨工业大学的《词林》为基础,通过汉藏双语词典对译,在获取对译词的词向量的基础上,计算对译词的词向量与原子词群平均词向量的差值,利用不同的差值,自动筛选出与原子词群语义相似度较小的词。该文分别以藏文的词和音节为单位计算词向量,自动筛出不属于原子词群的词,通过对自动筛选结果与人工筛选结果对比,发现两者具有较高的一致性,这说明词向量计算结果与人的语言直觉具有较高的一致性。总体来说,该文所采用的方法有助于提高藏文语义相似词知识库构建效率。
  • 基于高斯混合模型的现代汉语构式成分自动标注方法 下载:47 浏览:346
  • 黄海斌1 常宝宝2 詹卫东1,2,3 《中文研究》 2020年3期
  • 摘要:
    现代汉语构式成分自动标注作为文本自动标注任务之一,其最大的困难在于,当不存在标注语料作为训练数据时,如何从生语料中挖掘不同类型的构式成分相关的知识并进行标注,特别是面对构式序列在句中的边界难以判断的情况。该文试图借助高斯混合模型聚类方法,结合句中每一个字的位置特征与构式形式本身的语言学特征,融合正则表达式匹配结果信息,挖掘句子中的构式实例序列,并对构式内部成分进行自动标注。相较于仅基于正则表达式匹配和词性匹配的自动标注结果,该方法的F1分别至少提高了17.9%(半凝固型构式)、19.3%(短语型构式)、14.9%(复句型构式)。
加入编委加入审稿人
中文研究  期刊指标
出版年份 2018-2025
发文量 689
访问量 130587
下载量 39862
总被引次数 406
影响因子 1.192
为你推荐