中文研究
中文研究
《中文研究》系开放获取期刊,本刊旨在为从事语言文字研究的教学、科研工作者及语言文字爱好者提供优秀的精神产品。以传承文明,传承学术为使命,提倡学术创新,反映国内外本学科的最新研究成果。以繁荣人文社会科学研究,服务学科建设与发展,提升社会精神文明生态为办刊方针。

ISSN: 3007-9896

《中文研究》在线投稿系统

*文章题目:
*作者姓名:
*电子邮箱:
*通讯地址:
*联系方式:

  备      注:

*上传稿件:

支持上传.doc,.docx,.pdf,.txt,.wps文件

投稿须知:

1、审稿结果将于1~7个工作日以邮件告知,请注意查收(包含录用通知书、审稿意见、知网CNKI查重报告)。

2、提交投稿后,若7个工作日之内未接到录用通知,则说明该文章未被录用,请另投他刊。

3、凡投寄本刊稿件,如在内容上有侵权行为或不妥之处,均应文责自负。本刊有权对来稿进行文字编辑、加工和修改,如不同意,请附说明,以便妥善处理。

4、多作者文稿署名时须征得其他作者同意,排好先后次序,通知用稿后不再改动。

5、凡投往本刊稿件一经录用发表,其版权归本刊所有。

6、本刊已全文录入中国知网、万方、维普等数据库,如作者不同意被收录,请提前申明,未申明者,本刊一律视为同意被收录。

7、请勿一稿多投。



提示文字!

注:我们将于1~7个工作日告知您审稿结果,请耐心等待;

您也可以在官网首页点击“查看投稿进度”输入文章题目,查询稿件实时进程。

  • 融合空洞卷积神经网络与层次注意力机制的中文命名实体识别 下载:24 浏览:483
  • 陈茹1,2 卢先领2,3 《中文研究》 2020年11期
  • 摘要:
    该文针对现有的命名实体识别(named entity recognition,NER)模型未考虑到文本层次化结构对实体识别的重要作用,以及循环神经网络受其递归性的限制导致计算效率低下等问题,构建了IDC-HSAN模型(Iterated Dilated Convolutions Neural Networks and Hierarchical Self-attention Network)。该模型通过迭代的空洞卷积神经网络(ID-CNN)充分利用GPU的并行性大大降低了使用长短时记忆网络的时间代价。然后,采用层次化注意力机制捕获重要的局部特征和全局上下文中的重要语义信息。此外,为了丰富嵌入信息,加入了偏旁部首信息。最后,在不同领域数据集上的实验结果表明,IDC-HSAN模型能够从文本中获取有用的实体信息,和传统的深度网络模型、结合注意力机制的命名实体识别模型相比识别效果有所提升。
  • 用于社交媒体的中文命名实体识别 下载:62 浏览:239
  • 李源 马磊 邵党国 袁梅宇 张名芳 《中文研究》 2020年11期
  • 摘要:
    社交领域的中文命名实体识别(NER)是自然语言处理(NLP)中一项重要的基础任务。目前基于词粒度信息或者外部知识的中文命名实体识别方法,都会受到中文分词(CWS)和溢出词(OOV)等问题的影响。因此,该文提出了一种基于字符的使用位置编码和多种注意力的对抗学习模型。联合使用位置编码和多头注意力能够更好地捕获字序间的依赖关系,而使用空间注意力的判别器则能改善对外部知识的提取效果。该文模型分别在Weibo2015数据集和Weibo2017数据集上进行了实验,实验结果中的F1值分别为56.79%和60.62%。与多个基线模型相比,该文提出的模型性能更优。
  • 利用门控机制融合依存与语义信息的事件检测方法 下载:52 浏览:348
  • 陈佳丽 洪宇 王捷 张婧丽 姚建民 《中文研究》 2020年11期
  • 摘要:
    句子级事件检测任务目的是识别和分类事件触发词。现阶段工作主要将句子作为神经分类网络的输入,学习句子的深层语义信息,从而优化句子表示来改进事件检测任务的性能。该文发现除句子语义信息外,依存树包含的句法结构信息也有助于获取准确的句子表示。为此,该文采用双向长短时记忆网络对句子进行编码,捕获其语义信息;同时,设计图神经网络对句子的依存结构进行表示,获取其依存信息;此外,在对句子进行语义编码与依存编码时,该文利用自注意力机制使模型选择性地关注句子中的不同词,从而捕获句子中有助于事件检测的关键信息,并尽可能避免无关词的干扰;最后,该文提出门控机制,通过加权实现上述两种信息的动态融合。该文在自动文本抽取(automatic content extraction, ACE)数据集上进行实验,结果显示,该文提出的动态融合语义信息与依存信息的方法能更加有效地对句子进行编码,并捕获句子中的事件信息,在触发词识别与事件类型分类这两个子任务中,F1值均有较大提升,分别达到76.3%和73.9%。
  • 面向国防科技领域的技术和术语语料库构建方法 下载:25 浏览:358
  • 冯鸾鸾 李军辉 李培峰 朱巧明 《中文研究》 2020年11期
  • 摘要:
    互联网存在海量的文献和科技信息,隐含着大量高价值情报。识别国防科技领域中的技术和术语可以为构建国防科技知识图谱奠定基础。该文基于此领域的海量军事文本,以维基百科中军事领域的新技术为基点采集语料,涵盖了新闻、文献和维基百科三种体裁。在分析军事技术文本特点的基础上制定了一系列标注规范,开展了大规模语料的标注工作,构建了一个面向国防科技领域的技术和术语语料库。该语料库共标注了479篇文章,包含24 487个句子和33 756个技术和术语。同时,该文探讨了模型预标注策略的可行性,并对技术和术语类别在不同体裁上的分布以及语料标注的一致性进行了统计分析。基于该语料库的实验表明,技术和术语识别性能F1值达到70.40%,为进一步的技术和术语识别研究提供了基础。
  • 知识图谱研究现状及军事应用 下载:57 浏览:331
  • 林旺群1 汪淼1 王伟1 王重楠1 金松昌2 《中文研究》 2020年10期
  • 摘要:
    知识图谱以语义网络的形式将客观世界中概念、实体及其之间的关系进行结构化描述,提高了人类从数据中抽取信息、从信息中提炼知识的能力。该文形式化地描述了知识图谱的基本概念,提出了知识图谱的层次化体系架构,详细分析了信息抽取、知识融合、知识架构、知识管理等核心层次的技术发展现状,系统梳理了知识图谱在军事领域的应用,并对知识图谱未来发展的挑战和趋势进行了总结展望。
  • 立场分析研究综述 下载:57 浏览:268
  • 刘玮1 彭鑫2 李超1 王品2 王丽宏1 《中文研究》 2020年10期
  • 摘要:
    随着以微博、Twitter为代表的社交媒体的快速发展,越来越多的用户喜欢在网上浏览热点信息,并发表自己的观点。立场分析旨在挖掘用户对特定目标或主题(例如,事件、产品、政策、人物或者服务等)的支持、反对或者中立的态度,该研究对舆情监管、信息推荐等具有重要意义。该文对立场分析研究开展综述,从立场分析定义,基于机器学习、深度学习及迁移学习的立场分析方法,使用的数据集三方面分别进行概述,并对未来的研究方向进行展望。
  • 基于对话结构和联合学习的情感和意图分类 下载:42 浏览:239
  • 张伟生 王中卿 李寿山 周国栋 《中文研究》 2020年10期
  • 摘要:
    在社交媒体中存在大量的对话文本,而在这些对话中,说话人的情感和意图通常是相关的。不仅如此,对话的整体结构也会影响对话的情感和意图,因此,需要对对话中的情感和意图进行联合学习。为此,该文提出了基于对话结构的情感、意图联合学习模型,考虑对话内潜在的情感与意图的关联性,并且利用对话的内在结构与说话人的情感和意图之间的关系,提升多轮对话文本的每一子句情感及其意图的分类性能。同时,通过使用注意力机制,利用对话的前后联系来综合考虑上下文对对话情感的影响。实验表明,联合学习模型能有效地提高对话子句情感及意图分类的性能。
  • 基于粗糙集和多通道词向量的中文文本情感特征分析 下载:42 浏览:370
  • 陈波1 谢珺1 苗夺谦2 王雨竹1 续欣莹3 《中文研究》 2020年10期
  • 摘要:
    粗糙集是一种能够有效处理不精确、不完备和不确定信息的数学工具,粗糙集的属性约简可以在保持文本情感分类能力不变的情况下对文本情感词特征进行约简。针对情感词特征空间维数过高、情感词特征表示缺少语义信息的问题,该文提出了RS-WvGv中文文本情感词特征表示方法。利用粗糙集决策表对整个语料库进行情感词特征建模,采用Johnson粗糙集属性约简算法对决策表进行化简,保留最小的文本情感词特征属性集,之后再对该集合中的所有情感特征词进行词嵌入表示,最后用逻辑回归分类器验证RS-WvGv方法的有效性。另外,该文还定义了情感词特征属性集覆盖力,用于表示文本情感词特征属性集合对语料库的覆盖能力。最后,在实验对比的过程中,用统计检验进一步验证了该方法的有效性。
  • 卷积重提取特征的文档列表排序学习方法 下载:30 浏览:210
  • 曹军梅 马乐荣 《中文研究》 2020年10期
  • 摘要:
    在许多信息检索任务中,为了进一步提高检索性能,通常需要对检索到的文档进行重新排序,目前的排序学习方法主要集中在损失函数的构造上,而没有考虑特征之间的关系。该文将多通道深度卷积神经网络作用于文档列表排序学习方法,即ListCNN,实现了信息检索的精确重排序。由于从文档中提取的多个特征中有一些特征具有局部相关性和冗余性,因此,文中使用卷积神经网络来重新提取特征,以提高列表方法的性能。ListCNN架构考虑了原始文档特征的局部相关性,能够有效地重新提取代表性特征。在公共数据集LETOR 4.0上对ListCNN进行实验验证,结果表明其性能优于已有文档列表方法。
  • 部首感知的中文医疗命名实体识别 下载:69 浏览:440
  • 李丹1,2 徐童1,2 郑毅3王喆锋3 陈恩红1,2 《中文研究》 2020年9期
  • 摘要:
    人工智能技术的发展推动了医疗领域的智能化,为提升医疗效率、改善医疗水平提供了新的助力。同时,这一新的趋势也催生了海量的电子病历文本,其所蕴含的丰富信息具有巨大的潜在挖掘与应用价值。然而,当前中文电子病历的命名实体识别研究工作并没有全面考虑中文及中文医疗领域的特殊性,而是将面向通用数据集的模型迁移到医疗领域的实体类型中,分析效果较为有限。针对这一问题,该文设计了长短期记忆网络与条件随机场的联合模型并引入BERT模型;在此基础之上,考虑到医疗领域命名实体鲜明的部首特征,通过将部首信息编码到字向量中,并且结合部首信息修改条件随机场层得分函数的计算方式,有效地提升了医疗领域命名实体的抽取能力。通过两项电子病历数据集的实验结果表明,该文提出的模型整体效果略高于通用的实体识别模型,并对疾病诊断等特定类型的实体词的识别效果具有较为明显的提升。
  • 基于神经网络的藏文正字检错法 下载:32 浏览:286
  • 色差甲1 慈祯嘉措1 才让加1,2 华果才让1 《中文研究》 2020年9期
  • 摘要:
    在缺乏标注数据的条件下,该文将藏文正字检错任务视为一个分类问题:首先从语言学知识中构建音节混淆子集并给每个原句加噪,然后建立深层双向表征的BERT作为分类模型,最后为了证明该方法的有效性,构建两个基线模型和三种不同领域的测试集,实验结果表明,该方法的结果优于两个基线模型。该文方法在相同领域测试集上句子分类的正确率达到93.74%,不同领域测试集上也能达到83.6%。对错误音节的识别率为74.53%,同时对无错误音节的误判率只有2.30%。
  • 面向中朝跨语言文本分类的双语主题词嵌入模型的研究 下载:36 浏览:385
  • 王琪 田明杰 崔荣一 赵亚慧 《中文研究》 2020年9期
  • 摘要:
    针对日渐丰富的少数民族语言资源进行管理、研究和使用有着重要的应用价值。为了解决语言差异引起的语言鸿沟,针对中朝两种语言环境下的跨语言文本分类任务,提出了双语主题词嵌入模型。该文将词嵌入模型与主题模型扩展到双语环境,并将两种模型相结合,解决了歧义性对跨语言文本分类精度带来的影响。首先,在大规模单词级别对齐平行句对中训练中朝单词的词嵌入向量;其次,利用主题模型对中朝分类语料进行表示,并获得中朝单词的含有主题信息的词嵌入向量;最后,将中朝单词的主题词嵌入向量输入至文本分类器,进行模型的训练与分类预测。实验结果表明,中朝跨语言文本分类任务的准确率达到了91.76%,已达到实际应用的水平,同时该文提出的模型可以对一词多义单词的多个词义有很好的表示。
  • 基于篇章主题的中文宏观篇章主次关系识别方法 下载:40 浏览:235
  • 孙振华 周懿 朱巧明 蒋峰 李培峰 《中文研究》 2020年9期
  • 摘要:
    篇章分析是自然语言处理领域研究的热点和重点。作为篇章分析的任务之一,篇章主次关系研究篇章的主要和次要内容,从而更好地理解和把握篇章的核心内容。该文重点研究宏观领域的中文篇章主次关系,提出了一种基于篇章主题的中文宏观篇章主次关系识别方法。该方法利用篇章单元间、篇章单元与篇章主题间的语义交互来识别主次关系,并有选择地应用篇章主题信息,有效提高了主次关系核心的识别。在中文宏观汉语篇章树库(MCDTB)上的实验结果显示,该方法优于目前性能最好的基准系统。
  • 基于层次分析法的汉语词汇综合复杂度量化分析 下载:50 浏览:325
  • 张引兵1,2 宋继华1 彭炜明1 郭冬冬1 宋天宝1 《中文研究》 2020年9期
  • 摘要:
    在国际汉语教学中,词汇综合复杂度的量化研究有利于汉语二语学习者词汇习得顺序的确定,有利于教材编写过程中词汇的选择,有利于教师更加有效地组织课堂教学,最终提高教学效果。该文在对词汇的构词汉字属性、词汇一般属性、词汇统计属性等特征进行分析的基础上,构造了基于层次分析法(analytic hierarchy process, AHP)的汉语词汇综合复杂度量化模型,并将其应用于所研究词汇综合复杂度的量化分析。通过将实验结果与已有大纲词汇分级一致性的对比分析,验证了该研究词汇综合复杂度量化模型的合理性,为词汇综合复杂度的量化分析提供了定性与定量相结合的分析方案,同时也为词汇分级、文本难度分析、文本简化等提供了借鉴。
  • 临床检验指标术语库的构建与病历挖掘应用 下载:72 浏览:221
  • 张知行1 张佳影1 高大启1 阮彤1 王俊2 何萍3 姚华彦4 《中文研究》 2020年8期
  • 摘要:
    由于上海市区域医疗健康平台整合了38家三级医院的电子病历,各医院表述同一临床检验指标的多样性和歧义性已严重影响病历挖掘研究。然而现有术语库理论性强,难以覆盖实际临床用语,需要构建融合38家医院的临床检验指标术语库。针对该问题,在模式图定义、知识抽取、知识融合和知识校验4个步骤基础上,提出半自动的术语库构建方案,以上海卫健委制定的医保术语为标准,先构建标准指标术语子库,再利用基于BERT的临床检验指标对齐模型,将38家医院的指标作为同义词归入标准术语。最终形成的指标术语库包含23 495个实体和47 746条事实三元组,可用于病历清洗、病历查询等应用。实验表明,所用指标对齐模型的F1-score可达95.78%,在大肠癌挖掘课题中使用术语库可增加查询记录高达94%。此外,大肠癌相关指标的专病术语库已在dcakb.ecustnlplab.com公开。
  • 小说人物的分布表示及其应用研究 下载:17 浏览:287
  • 贾玉祥1,2 王璐1 刘鹏程1 王钤3 张岳4 昝红英1 《中文研究》 2020年8期
  • 摘要:
    小说是以刻画人物为中心,通过完整的故事情节和具体的环境描写反映社会生活的一种文学体裁。对小说人物进行建模,是小说文本理解和小说文本挖掘的基础性工作。该文构建了大规模的小说语料库,抽取人物及其依存特征,提出基于skip-gram的人物向量训练方法,以人物为目标,以依存特征为上下文,基于训练出的人物向量,探索了小说人物相似度计算、小说人物聚类分析及小说人物画像等应用。实验结果表明,小说人物的分布表示有较好的应用效果。
  • 基于深度神经网络的诗词检索 下载:24 浏览:248
  • 梁健楠1,2,3 孙茂松1,2,3 矣晓沅1,2,3 《中文研究》 2020年8期
  • 摘要:
    中国古典诗词是中国古典文学的代表之一,是中华传统文化的宝藏,源远流长。中国古典诗词研究是自然语言处理方向的一项重要且富有意义的工作。随着人工智能的发展,人工神经网络在图像、文本等领域得到广泛的应用,取得了显著的突破,给人工智能与中国古典诗词相结合提供了新的思路和方法。让机器去理解中国古典诗词的韵律和意境是一项极具挑战的工作,其中,通过研究诗词的相似性来提升机器对诗词的理解这一研究课题被赋予了更为重要的意义。诗词检索是对诗词内容做对比,查找出在语义和意境上相接近的诗词,这要求对整首诗词的内容和意境有深入的理解。该文模型以数十万首古诗作为基础,利用循环神经网络(RNN)自动学习古诗句的语义表示,并设计了多种方法自动计算两首诗之间的关联性,以此计算两首诗词之间的语义距离,实现诗词的推荐。自动评测和人工评测的实验结果都表明,该文模型能够生成质量较好的诗词检索结果。
  • 基于CFN和篇章主题的概括型问答题的解答 下载:65 浏览:392
  • 杨陟卓1 李春转1 张虎1 钱揖丽1 李茹1,2 《中文研究》 2020年8期
  • 摘要:
    相对于普通阅读理解,高考语文阅读理解难度更大,问句更加抽象,答案候选句的抽取除了注重与问句的相似性分析,还注重对材料内容以及作者的观点的概括归纳。因此该文提出了利用汉语框架网(Chinese FrameNet)抽取与问句语义相似的候选句的方法,通过识别篇章主题(段落主题句和作者观点句),生成与问句相关的内容要点以及作者的观点态度,最终选取top 6作为答案句。在近12年北京市高考真题上进行测试,召回率达到了68.69%,验证了该方法的有效性。
  • 基于原型网络的细粒度实体分类方法 下载:48 浏览:352
  • 任权 《中文研究》 2020年8期
  • 摘要:
    细粒度实体分类任务作为命名实体识别任务的扩展,其目的是根据指称及其上下文,发掘实体更细粒度的类别含义。由于细粒度实体语料的标注代价较大,标注错误率较高,因此该文研究了在少量样本情况下的细粒度实体分类方法。该文首先提出了一种特征提取模型,能够分别从单词层面以及字符层面提取实体信息,随后结合原型网络将多标签分类任务转化为单标签分类任务,通过缩小空间中同类样本与原型的距离实现分类。该文使用少样本学习以及零样本学习两种设置在公开数据集FIGER(GOLD)上进行了实验,在少样本学习的设置下,较基线模型在三个指标中均有提升,其中macro-F1的提升最大,为2.4%。
  • 面向临床科研的医疗事件模型与开放数据集合构建 下载:53 浏览:241
  • 刘旭利1 金季豪1 阮彤1 高大启1 殷亦超2 葛小玲3 《中文研究》 2020年7期
  • 摘要:
    基于电子病历观察性数据的真实世界研究成为目前临床科研的热点。然而关系数据模型无法直接支撑起科研应用中医疗事件的时序关系表示以及知识融合的查询需求。针对上述问题,该文提出了一种新的基于RDF的医疗观察性数据表示模型,该模型可以清晰地表示临床检查、诊断、治疗等多种事件类型以及事件的时序关系。对来源于医院的电子病历数据,经过数据预处理、数据模式转换、时序关系构建以及知识融合4个步骤建立事件图谱。具体地,使用三家上海三甲医院的电子病历数据,构建了包括3个专科、173 395个医疗事件以及501 335个事件时序关系的医疗数据集,并融合了5 313个中文医疗知识库概念。基于临床文献与医生科研需求,该文根据公共卫生流行病学的病因研究、治疗研究等类型,分别提供了针对本数据集的40个问题示例,并将其中的部分问题与传统关系数据库在查询的构建与执行方面进行了实验比对,论证了该事件图谱的优越性。该数据集遵循开放链接标准,在OpenKG上发布并提供了在线访问的SPARQL站点,链接为https://peg.ecustnlplab.com/dataset.html。
加入编委加入审稿人
中文研究  期刊指标
出版年份 2018-2025
发文量 689
访问量 130587
下载量 39862
总被引次数 406
影响因子 1.192
为你推荐