请选择 目标期刊

基于长时间跨度语料的词义演变计算研究 下载:22 浏览:375

孙琦鑫1,2 饶高琦1,2,3 荀恩东1,2 《中文研究》 2020年12期

摘要:
该文收集了自晚清到21世纪间长达144年的连续历时报刊语料,通过统计分析和词语分布式表示两类方法展开研究,计算并辅助识别汉语词语的词义历时演变现象。采用TF-IDF、词频比例等多种统计分析的评价指标和目标词语在文段中的共现实词及其重合度挖掘出现词义演变的词语。针对历时语料上不同时间段的词向量对齐,采用SGNS训练词向量加正交矩阵投影、SGNS递增训练和"锚点词"二阶词向量表示三种方法,其中以SGNS递增训练效果最佳。针对自动发现的词义演变现象,采用目标词历时自相似度和锚点词历时相似度的分析方法,并利用近邻词来明确目标词变迁前后的词义。

基于大规模语料库的介词结构搭配库构建 下载:87 浏览:489

邢丹1 饶高琦1,2 荀恩东1 王诚文1 《中文研究》 2020年7期

摘要:
语言知识可帮助计算机正确地处理自然语言,介词结构知识作为语言知识的一种,对自然语言处理和语言教学研究有很重要的意义。该文基于大规模语料库构建了高质量的介词结构搭配库。首先在前人研究的基础上,对介词进行归类并建立了介词搭配知识体系,而后设计并实现了从大数据中获取介词结构搭配知识的规则,最后对抽取结果及其数据规模进行了统计和评估,主要目的是通过形式手段获取高质量的介词结构搭配,同时也为自然语言处理和语言学基础研究及应用提供数据支持。

三元搭配视角下的汉语动词语义角色知识库构建 下载:38 浏览:193

王诚文1 钱青青1 荀恩东1 邢丹1 李梦1 饶高琦1,2 《中文研究》 2020年2期

摘要:
动词语义角色一直是国内外语言学界研究的重点和难点。在自然语言处理领域,相关的语言资源也在逐步构建。对于汉语而言,国内大部分工作集中在语义角色标注上。该文创造性地提出了一种三元搭配的动词语义角色知识表征形式,并在前人研究的基础上,提出了一套语义角色分类体系。在该体系指导下,对汉语动词进行了穷尽式的语义角色认定及相关知识加工,以构建汉语动词语义角色知识库。截至目前,该工程考察了5 260个动词,加工了语义角色及引导词的动词数量为2 685个,加工认定语义角色4 307个。

基于词频逆文档频统计的词汇时间分布层次 下载:43 浏览:227

饶高琦1,2 李宇明1 《中文研究》 2019年9期

摘要:
汉语演变过程中,词语使用受时间影响的程度差异很大。这体现为词汇时间分布的不同。该文基于70年跨度历时语料库,使用TF-IDF方法对词汇的时间分布进行了统计,并尝试对词汇系统的时间分布层次进行划分。通过对历时文本分类性能、词类分布、词长分布、覆盖率和词语生命力五方面的考察和分析,建立了由基干层、过渡层、时间敏感层(时敏层)和逸散层构成的词汇时间分布四分层体系。
[1/1]
在线客服::点击联系客服
联系电话::400-188-5008
客服邮箱::service@ccnpub.com
投诉举报::feedback@ccnpub.com
人工客服

工作时间(9:00-18:00)
官方公众号

科技成果·全球共享