中文研究-人文社科-世纪中文出版社

中文研究

《中文研究》系开放获取期刊，本刊旨在为从事语言文字研究的教学、科研工作者及语言文字爱好者提供优秀的精神产品。以传承文明，传承学术为使命，提倡学术创新，反映国内外本学科的最新研究成果。以繁荣人文社会科学研究，服务学科建设与发展，提升社会精神文明生态为办刊方针。

ISSN: 3007-9896

提示文字！

注：我们将于1~7个工作日告知您审稿结果，请耐心等待；

您也可以在官网首页点击“查看投稿进度”输入文章题目，查询稿件实时进程。

期刊菜单

融入分类词典的汉越混合网络神经机器翻译集外词处理方法 下载：63 浏览：445

车万金1，2 余正涛1，2 郭军军1，2 文永华1，2 于志强1，2 《中文研究》 2019年11期
摘要:
在神经机器翻译中，因词表受限导致的集外词问题很大程度上影响了翻译系统的准确性。对于训练语料较少的资源稀缺型语言的神经机器翻译，这种问题表现得更为严重。近几年，受到外部知识融入的启发，该文在RNNSearch模型基础上，提出了一种融入分类词典的汉越混合网络神经机器翻译集外词处理方法。对于给定的源语言句子，扫描分类词典以确定候选短语句对并标签标记，解码端利用词级组件和短语组件的混合解码网络，很好地生成单词集外词和短语集外词的翻译，从而改善汉越神经机器翻译的性能。在汉越、英越和蒙汉翻译实验上表明，该方法显著提高了准确率，对于资源稀缺型语言的神经机器翻译性能有一定的提升。

融合单语语言模型的藏汉机器翻译方法研究 下载：60 浏览：256

慈祯嘉措1，2 桑杰端珠1，2 孙茂松3 色差甲1，2 周毛先1，2 《中文研究》 2019年11期
摘要:
由于藏汉平行语料匮乏，导致藏汉神经网络机器翻译效果欠佳，该文提出了一种将藏语单语语言模型融合到藏汉神经网络机器翻译的方法，首先利用神经网络实现藏语单语语言模型，然后使用Transformer实现藏汉神经网络机器翻译模型，最后将藏语单语语言模型融合到藏汉神经网络机器翻译中。实验表明，该方法能显著提升藏汉神经网络机器翻译质量。基线系统藏语到汉语的BLEU值为21.1，汉语到藏语的BLEU值为18.6，融合藏语单语语言模型后，藏语到汉语的BLEU值为24.5，汉语到藏语的BLEU值为23.3，比原有基线系统的BLEU值分别提高了3.4和4.7。

中文字粒度切分在蒙汉机器翻译的应用 下载：27 浏览：339

苏依拉高芬仁庆道尔吉《中文研究》 2019年11期
摘要:
在机器翻译任务中，主流的深度学习算法大多使用词或子词作为基础的语义单元，在词或子词层面学习嵌入表征。然而，词粒度层面存在一系列缺点。该文基于LSTM和Transformer蒙汉翻译模型，对蒙文进行子词粒度切分，对中文分别进行子词和字粒度切分对比实验。实验结果显示，相比于子词粒度切分，基于Transformer的蒙汉翻译模型和基于LSTM的蒙汉翻译模型的字粒度切分有极大的BLEU值提升，字级别的蒙汉翻译模型在验证集和测试集上都显著优于混合字和词的子词级别的蒙汉翻译模型。其表明，字级别的蒙汉翻译模型更能捕捉单元之间的语义联系，提高蒙汉翻译性能。

基于联合注意力机制的篇章级机器翻译 下载：30 浏览：313

李京谕1，2 冯洋1，2 《中文研究》 2019年11期
摘要:
近年来，神经机器翻译(neural machine translation， NMT)表现出极大的优越性，然而如何在翻译一个文档时考虑篇章上下文信息仍然是一个值得探讨的问题。传统的注意力机制对源端的所有词语进行计算，而在翻译当前句子时篇章中大量的信息中只有小部分是与之相关的。在篇章级机器翻译中，采用传统的注意力机制建模篇章信息存在着信息冗余的问题。该文提出了一种联合注意力机制，结合"硬关注"和"软关注"的机制对篇章上下文的信息进行建模。关键思想是通过"硬关注"筛选出与翻译当前句子相关的源端历史词语，然后采用"软关注"的方法进一步抽取翻译中所需的上下文信息。实验表明，相比于基线系统，该方法能使翻译性能获得明显提升。

基于多通道双向长短期记忆网络的情感分析 下载：16 浏览：321

李卫疆漆芳《中文研究》 2019年10期
摘要:
当前存在着大量的语言知识和情感资源，但在基于深度学习的情感分析研究中，这些特有的情感信息，没有在情感分析任务中得到充分利用。针对以上问题，该文提出了一种基于多通道双向长短期记忆网络的情感分析模型(multi-channels bidirectional long short term memory network，Multi-Bi-LSTM)，该模型对情感分析任务中现有的语言知识和情感资源进行建模，生成不同的特征通道，让模型充分学习句子中的情感信息。与CNN相比，该模型使用的Bi-LSTM考虑了词序列之间依赖关系，能够捕捉句子的上下文语义信息，使模型获得更多的情感信息。最后在中文COAE2014数据集、英文MR数据集和SST数据集进行实验，取得了比普通Bi-LSTM、结合情感序列特征的卷积神经网络以及传统分类器更好的性能。

融合注意力LSTM的协同过滤推荐算法 下载：17 浏览：416

罗洋1 夏鸿斌1，2 刘渊1，2 《中文研究》 2019年10期
摘要:
针对传统协同过滤算法难以学习深层次用户和项目的隐表示，以及对文本信息不能充分提取单词之间的前后语义关系的问题，该文提出一种融合辅助信息与注意力长短期记忆网络的协同过滤推荐模型。首先，附加堆叠降噪自编码器利用评分信息和用户辅助信息提取用户潜在向量；其次，基于注意力机制的长短期记忆网络利用项目辅助信息来提取项目的潜在向量；最后，将用户与项目的潜在向量用于概率矩阵分解中，从而预测用户偏好。在两个真实数据集MovieLens-100k和MovieLens-1M上进行实验，采用RMSE和Recall指标进行评估。实验结果表明，该模型与其他相关推荐算法相比在推荐性能上有所提升。

基于LambdaMART算法的微信公众号排序 下载：24 浏览：218

渠北浚1 白宇1 蔡东风1 陈建军2 《中文研究》 2019年10期
摘要:
随着移动应用的普及，微信公众号已经成为人们获取信息的重要来源之一。微信公众号排序是获取优质信息、节约信息管理成本的必要手段。现有的公众号排序方法主要是对总阅读数、总点赞数等量化指标进行人工经验赋权得到排序结果，忽略了文章内容对公众号选择的影响。该文在保留量化指标的基础上，提出了主题垂直性、发文稳定性、主题覆盖率和主题相关性等微信篇章排序特征，使用LambdaMART算法针对上述特征集合进行排序学习，并通过主成分分析进行特征选择优化。实验结果表明，在公众号排序方面，LambdaMART方法优于现有其他方法，相关实验也证明了基于微信篇章内容分析特征的有效性。

融入注意力机制的越南语组块识别方法 下载：70 浏览：321

王闻慧1 毕玉德2 雷树杰1 《中文研究》 2019年10期
摘要:
对于越南语组块识别任务，在前期对越南语组块内部词性构成模式进行统计调查的基础上，该文针对Bi-LSTM+CRF模型提出了两种融入注意力机制的方法:一是在输入层融入注意力机制，从而使得模型能够灵活调整输入的词向量与词性特征向量各自的权重；二是在Bi-LSTM之上加入了多头注意力机制，从而使模型能够学习到Bi-LSTM输出值的权重矩阵，进而有选择地聚焦于重要信息。实验结果表明，在输入层融入注意力机制后，模型对组块识别的F值提升了3.08%，在Bi-LSTM之上加入了多头注意力机制之后，模型对组块识别的F值提升了4.56%，证明了这两种方法的有效性。

基于数据增强的藏文改写检测研究 下载：34 浏览：487

赵小兵1 鲍薇2 董建2 包乌格德勒3 《中文研究》 2019年10期
摘要:
该文针对藏文语料稀缺的问题，在藏汉双语、藏文单语文本改写检测任务中使用数据增强的方法，在一定程度上解决了低资源语言训练语料规模小的问题。在藏汉跨语言文本改写检测任务中，该文使用数据增强方法，有效利用目前公开的藏汉平行语料，扩充藏汉跨语言文本改写检测训练语料，当扩充至20万句对时，藏汉改写检测模型的皮尔森系数(pearson correlation)达到0.547 6，比基线系统的皮尔森系数提升了0.397 1，表明藏汉改写检测模型检测出的句对相似度值与人工标注的相似度值已达到中等程度相关。在藏文单语言任务中，该文采用训练藏文音节向量的方法，以缓解语料稀缺带来的词向量稀疏问题。实验结果表明，基于藏文音节向量的藏文改写检测模型的皮尔森系数可达到0.678 0，比相应的基于藏文词向量实验的结果提升了0.1，使得藏文单语言文本改写检测模型的检测结果与人工标注的结果达到了强相关程度。

融合词结构特征的多任务老挝语词性标注方法 下载：43 浏览：68

王兴金周兰江张建安周枫《中文研究》 2019年9期
摘要:
目前，老挝语词性标注研究处于初期，可用标注语料有限，且老挝语吸收了多种外来词，导致标注语料库存在大量稀疏词。多任务学习是有效识别稀疏词的一种方法，该文研究了老挝词的结构特征，并构建了结合词性标注损失和主辅音辅助损失的多任务老挝语词性标注模型。老挝词有很多词缀可以表达词性信息，因此模型还采用了字符级别的词向量来获取这些词缀信息。特别地，老挝语的句式较长，模型用注意力机制防止长远上下文特征丢失。实验结果表明:相比其他研究方法，该模型的词性标注准确率在有限标注语料下取得更好的表现(93.24%)。

基于词频逆文档频统计的词汇时间分布层次 下载：43 浏览：227

饶高琦1，2 李宇明1 《中文研究》 2019年9期
摘要:
汉语演变过程中，词语使用受时间影响的程度差异很大。这体现为词汇时间分布的不同。该文基于70年跨度历时语料库，使用TF-IDF方法对词汇的时间分布进行了统计，并尝试对词汇系统的时间分布层次进行划分。通过对历时文本分类性能、词类分布、词长分布、覆盖率和词语生命力五方面的考察和分析，建立了由基干层、过渡层、时间敏感层(时敏层)和逸散层构成的词汇时间分布四分层体系。

基于社交媒体的事件脉络挖掘研究进展 下载：40 浏览：376

张晨昕1，2 饶元1，2 樊笑冰2 王硕2 《中文研究》 2019年9期
摘要:
随着Web 2.0的兴起以及移动互联网与智能终端的蓬勃发展，以微博为代表的社交媒体迅速发展壮大。基于社交媒体的事件脉络挖掘技术在突发事件检测、事件走势分析、舆情预测等诸多方面发挥着重要作用，受到学术界的广泛关注。该文在最新研究成果与文献的基础上，以事件脉络挖掘的实现为出发点，概括总结了核心步骤中存在的关键技术，并归纳提出了目前事件脉络挖掘与分析过程中存在的4个关键性的技术问题与挑战，分别如下:多模态信息融合条件下的事件脉络生成、跨媒介异构数据协同下的事件挖掘与事件脉络生成、层次化多粒度复杂事件的关系映射和实时数据条件下动态事件的快速识别与脉络生成。同时，针对上述关键问题与技术挑战进行了理论探讨、工作进展与趋势分析以及实际应用介绍，从而为深入研究和解决基于社交媒体的事件脉络挖掘技术提供了新的研究线索与方向。

神经网络机器翻译研究热点与前沿趋势分析 下载：22 浏览：239

林倩刘庆苏劲松林欢杨静罗斌《中文研究》 2019年9期
摘要:
机器翻译是指利用计算机将一种语言文本转换成具有相同语义的另一种语言文本的过程。它是人工智能领域的一项重要研究课题。近年来，随着深度学习研究和应用的快速发展，神经网络机器翻译成为机器翻译领域的重要发展方向。该文首先简要介绍近一年神经网络机器翻译在学术界和产业界的影响，然后对当前的神经网络机器翻译的研究进展进行分类综述，最后对后续的发展趋势进行展望。

先秦诸家学派的相关系数与特征词研究 下载：18 浏览：270

马创新1 梁社会2 陈小荷3 《中文研究》 2019年9期
摘要:
为了发现先秦诸家学派之间的相关度，找出能够代表各学派主题特征的特征词，该文首次对诸家学派之间的相关关系作量化考察，对诸家思想的主题特征作统计分析。通过研究发现，儒家与道家之间的相关度最高，兵家与墨家之间的相关度最低，道家与其他各学派之间的相关系数的均值最大。该文还通过分析特定学派中各个词型与其他各学派中相同词型的等级之间差额大小，筛选出能够代表学派主题的特征词。

基于生成对抗模型的异质信息网络语义表征方法研究 下载：51 浏览：333

赵瑜1 谭海宁2，3 刘志方4 武超5 《中文研究》 2019年8期
摘要:
近些年，网络表示学习问题吸引了大量研究者的关注，而异构信息网络由于其丰富的结构语义信息及其广阔的应用领域，更是成为了网络表示学习领域的重中之重。目前面向异构信息网络的表示学习模型主要可以分为基于生成式模型的表示学习方法和基于判别式模型的表示学习方法，但是很少有工作同时结合两种模型进行表示学习的优化。该文提出了结合生成式模型和判别式模型的异构信息网络表示学习模型HINGAN，主要是将对抗生成思想融入异构信息网络表示学习过程中，达到优化网络表示结果的目的。该模型首先在元路径的引导下构建带权信息网络图，然后在带权图上计算更新构造的生成器和判别器参数，通过生成对抗的博弈思想来获取最大收益。在AMiner和DBLP两个真实学术图谱数据集上的实验结果表明，HINGAN在多标签分类、链路预测以及可视化方面都能比现在主流的网络表示方法取得更优的效果，并且HINGAN可以应用于大规模的异构网络数据的表示和计算。除此之外，该文还总结了已有研究成果并对未来研究可能面临的挑战进行了展望。

TransRD：一种不对等特征的知识图谱嵌入表示模型 下载：59 浏览：460

朱艳丽1，2 杨小平1 王良1 张志宇1 《中文研究》 2019年8期
摘要:
知识图谱嵌入是一种将实体和关系映射到低维向量空间的技术。目前已有的嵌入表示方法在对具有不对等特征的知识图谱中的实体和关系建模时存在两大缺陷:一是假定头尾实体来自同一语义空间，忽略二者在链接结构和数量上的不对等；二是每个关系单独配置一个投影矩阵，忽略关系之间的内在联系，导致知识共享困难，泛化能力差。该文提出一种新的嵌入表示方法TransRD，首先对头尾实体采用不对等转换矩阵进行投影，并用ADADELTA算法自适应调整学习率；其次对关系按相关性分组，每组关系使用同一对投影矩阵的方式来共享公共信息，解决泛化能力差的问题。在公开的数据集WN18和FB15K以及MPBC20（乳腺癌知识图谱的子集）上进行实验和结果分析并与现有的模型进行对比，结果表明TransRD在各项指标上均取得大幅提升。

汉藏双语旅游领域知识图谱系统构建 下载：65 浏览：317

冯小兰赵小兵《中文研究》 2019年8期
摘要:
旅游业是藏族地区主要的经济来源之一。然而，目前互联网上缺乏藏文旅游信息智能化服务系统，且藏文景点介绍文本也十分匮乏；相反，汉文旅游网站信息量大，但各旅游网站包含的景点不尽相同，景点介绍文本篇幅较长，且各旅游网站对同一个景点描述侧重点不同。为便于不同语言使用者能快速准确地了解景点相关的知识，该文首先在汉文旅游领域分别采用基于BLSTM神经网络模型、基于维基百科以及基于网络爬虫等形式获取与景点相关的共8种属性知识；并通过采用基于维基百科等方法构建的旅游领域汉藏词典，将获取的汉文知识迁移到藏文，其翻译覆盖率平均值达70.44%。最终，构建汉藏双语旅游领域知识图谱。

基于BERT的古文断句研究与应用 下载：40 浏览：217

俞敬松1 魏一1 张永伟2 《中文研究》 2019年8期
摘要:
古汉语与现代汉语在句法、用词等方面存在巨大的差异。古文句与句之间通常缺少分隔和标点符号，现代读者难以理解。人工断句有助于缓解上述困境，但需要丰富的专业知识，耗时耗力。计算机自动断句有助于加速对古文的准确理解，从而促进古籍研究以及中华文化的弘扬。除自动断句，该文还尝试了自动标点任务。该方案自行预训练古汉语BERT(Bidirectional Encoder Representations from Transformers)模型，并针对具体任务进行微调适配。实验表明，该方案优于目前深度学习中的主流序列切割BiLSTM+CRF模型，在单一文本类别和复合文本类别测试集上的F1值分别达到89.97%和91.67%。更重要的是，模型表现出了很强的泛化能力，未参与任何训练的《道藏》测试集上的F1值依然可达到88.76%。自动标点任务仅使用少量较为粗糙的带标点文本训练集时F1值为70.40%，较BiLSTM+CRF模型提升12.15%。两任务结果均达到当前最佳，相关代码和模型已经开源发布。

基于上下文词向量和主题模型的实体消歧方法 下载：57 浏览：266

王瑞李弼程杜文倩《中文研究》 2019年8期
摘要:
传统词向量训练模型仅考虑词共现而未考虑词序，语义表达能力弱。此外，现有实体消歧方法没有考虑实体的局部特征。综合实体的全局特征和局部特征，该文提出一种基于上下文词向量和主题模型的实体消歧方法。首先，在传统词向量模型上增加上下文方向向量，用于表征语序，并利用该模型与主题模型训练主题词向量；其次，分别计算实体上下文相似度、基于实体上下文主题的类别主题相似度以及基于主题词向量的实体主题相似度；最后，融合三种相似度，选择相似度最高的实体作为最终消歧实体。实验结果表明，相比于现有的主流消歧方法，新方法是有效的。

基于代表性答案选择与注意力机制的短答案自动评分 下载：61 浏览：374

谭红叶1 午泽鹏1 卢宇2，3 段庆龙2 李茹1 张虎1 《中文研究》 2019年7期
摘要:
短答案自动评分是智慧教学中的一个关键问题。目前自动评分不准确的主要原因是:(1)预先给定的参考答案不能覆盖多样化的学生答题情况；(2)不能准确刻画学生答案与参考答案匹配情况。针对上述问题，该文采用基于聚类与最大相似度方法选择代表性学生答案构建更完备的参考答案，尽可能覆盖学生不同的答题情况；在此基础上，利用基于注意力机制的深度神经网络模型来提升系统对学生答案与参考答案匹配情况的刻画。相关数据集上的实验结果表明:该文模型有效提升了自动评分的准确率。

[29/34]

加入编委

加入审稿人

中文研究期刊指标
出版年份	2018-2025
发文量	689
访问量	130587
下载量	39862
总被引次数	406
影响因子	1.192

为你推荐

学术共建