请选择 目标期刊

基于JCWA-DLSTM的法律文书命名实体识别方法 下载:54 浏览:426

王得贤1 王素格1,2 裴文生3 李德玉1,2 《中文研究》 2020年4期

摘要:
对于法律文书中证据名、证实内容和卷宗号等实体的正确提取,可以有效提升法官的办案效率。然而,这些实体与一般实体不同,具有字符长度较长和相互关联性较强的特点。因此,该文提出了一种基于JCWA-DLSTM(join character word and attention-dual long short-term memory)的法律文书命名实体识别方法。该方法利用字级语言模型获取词语的表示,同时,利用自注意力机制获得句子的内部表示。在此基础上,采用双向LSTM将句子内部表示和基于字级语言模型词语表示分别与词向量拼接编码,再将两种语义表示拼接融合,获得最终的句子语义表示。最后利用CRF将句子的语义表示解码,得到最优标记序列。实验结果表明,该文提出的方法可对法律文书中的证据名、证实内容和卷宗号等实体边界进行有效的确定,提升了命名实体识别的结果。

基于多特征自注意力BLSTM的中文实体关系抽取 下载:33 浏览:345

李卫疆 李涛 漆芳 《中文研究》 2019年6期

摘要:
实体关系抽取解决了原始文本中目标实体之间的关系分类问题,同时也被广泛应用于文本摘要、自动问答系统、知识图谱、搜索引擎和机器翻译中。由于中文句式和语法结构复杂,并且汉语有更多歧义,会影响中文实体关系分类的效果。该文提出了基于多特征自注意力的实体关系抽取方法,充分考虑词汇、句法、语义和位置特征,使用基于自注意力的双向长短期记忆网络来进行关系预测。在中文COAE 2016Task 3和英文SemEval 2010Task 8数据集上的实验表明该方法表现出了较好的性能。

T-Reader:一种基于自注意力机制的多任务深度阅读理解模型 下载:47 浏览:366

郑玉昆1 李丹2 范臻1 刘奕群1 张敏1 马少平1 《中文研究》 2018年10期

摘要:
该文介绍THUIR团队在"2018机器阅读理解技术竞赛"中的模型设计与实验结果。针对多文档机器阅读理解任务,设计了基于自注意力机制的多任务深度阅读理解模型T-Reader,在所有105支参赛队伍中取得了第八名的成绩。除文本信息外,提取了问题与段落精准匹配等特征作为模型输入;在模型的段落匹配阶段,采用跨段落的文档级自注意力机制,通过循环神经网络实现了跨文档的问题级信息交互;在答案范围预测阶段,通过进行段落排序引入强化学习的方法提升模型性能。

基于门控联合池化自编码器的通用性文本表征 下载:33 浏览:485

张明华1 吴云芳1 李伟康1 张仰森2 《当代中文学刊》 2019年9期

摘要:
为了学习文本的语义表征,以往的研究者主要依赖于复杂的循环神经网络(recurrent neural networks,RNNs)和监督式学习方法。该文提出了一种门控联合池化自编码器(gated mean-max AAE)用于学习中英文的文本语义表征。该文的自编码器完全通过多头自注意力机制(multi-head self-attention mechanism)来构建编码器和解码器网络。在编码阶段,提出了均值—最大化(mean-max)联合表征策略,即同时运用平均池化(mean pooling)和最大池化(max pooling)操作来捕获输入文本中多样性的语义信息。为促使联合池化表征可以全面地指导重构过程,解码器采用门控操作进行动态关注。通过在大规模中英文未标注语料上训练模型,获得了高质量的句子编码器。在重构文本段落的实验中,该文模型在实验效果和计算效率上均超越了传统的RNNs模型。将公开训练好的文本编码器,使其可以方便地运用于后续的研究。

融入丰富信息的高性能神经实体链接 下载:40 浏览:372

李明扬 姜嘉伟 孔芳 《当代中文学刊》 2020年1期

摘要:
歧义的存在使得实体链接任务需要大量信息的支撑。已有研究主要使用两类信息,即实体表述所在的文本信息和外部的知识库信息。但已有研究对信息的使用存在以下两个问题:首先,最新通用知识库规模更大、覆盖面更广,但目前的实体链接模型却未从中受益,其性能没有得到相应提升;其次,表述所在的文本信息既包含表述所处的局部上下文信息,也包含文本主题之类的全局信息,文本自身信息的利用率还需进一步提高。针对第一个问题,该文给出了一个融合文本相关度和先验知识的实体候选集抽取策略,提高了对知识库中有效知识的提取;针对第二个问题,该文给出了一个融合局部和全局信息的自注意力机制与高速网络相结合的神经网络实体链接框架。在6个实体链接公开数据集上的对比实验表明了该文提出方案的有效性,在最新的通用知识库上该文给出的实体链接模型取得了目前最好的性能。

融入丰富信息的高性能神经实体链接 下载:49 浏览:450

李明扬 姜嘉伟 孔芳 《冶金学报》 2020年1期

摘要:
歧义的存在使得实体链接任务需要大量信息的支撑。已有研究主要使用两类信息,即实体表述所在的文本信息和外部的知识库信息。但已有研究对信息的使用存在以下两个问题:首先,最新通用知识库规模更大、覆盖面更广,但目前的实体链接模型却未从中受益,其性能没有得到相应提升;其次,表述所在的文本信息既包含表述所处的局部上下文信息,也包含文本主题之类的全局信息,文本自身信息的利用率还需进一步提高。针对第一个问题,该文给出了一个融合文本相关度和先验知识的实体候选集抽取策略,提高了对知识库中有效知识的提取;针对第二个问题,该文给出了一个融合局部和全局信息的自注意力机制与高速网络相结合的神经网络实体链接框架。在6个实体链接公开数据集上的对比实验表明了该文提出方案的有效性,在最新的通用知识库上该文给出的实体链接模型取得了目前最好的性能。

基于字词特征自注意力学习的社交媒体文本分类方法 下载:43 浏览:372

王晓莉1 叶东毅2 《人工智能研究》 2020年9期

摘要:
社交媒体文本中突出的长尾效应和过量的词典外词汇(OOV)导致严重的特征稀疏问题,影响分类模型的准确率.针对此问题,文中提出基于字词特征自注意力学习的社交媒体文本分类方法.在字级别构建全局特征,用于学习文本中各词的注意力权值分布.改进现有的多头注意力机制,降低参数规模和计算复杂度.为了更好地分析字词特征融合的作用,提出OOV词汇敏感度,用于衡量不同类型的特征受OOV词汇的影响.多组社交媒体文本分类任务的实验表明,文中方法在融合字特征和词特征方面的有效性与分类准确度均有较明显的提升.此外,OOV词汇敏感度指标的量化结果验证文中方法是可行有效的.

基于改进BiRTE的渔业健康养殖标准复杂关系抽取 下载:28 浏览:251

宋奇书1,2,3,4 于红1,2,3,4 乔诗晗1,2,3,4 罗璇1,2,3,4 李光宇1,2,3,4 邵立铭1,2,3,4 张思佳1,2,3,4 《中国水产学报》 2024年1期

摘要:
为解决渔业健康养殖标准文本关系抽取领域特定性强、语意复杂导致关系抽取准确率不高等问题,提出了基于改进BiRTE的渔业健康养殖标准复杂关系抽取方法,针对实体和语义关联建模,将RoBERTa作为编码器,采用全词掩码和动态掩码的方式增强词向量特征表示,并在此基础上融合了自注意力机制(Self-Attention, SelfATT)将实体特征与关系特征结合聚焦,加强实体抽取与关系预测的联系,从而提升渔业标准文本抽取的准确性。结果表明:本文提出的基于改进BiRTE的渔业健康养殖标准复杂关系抽取模型(RoBERTa-BiRTE-SelfATT)对渔业标准复杂关系抽取的准确率、召回率和F1值分别为95.9%、95.4%、95.7%,较BiRTE模型分别提升了4.2%、3.1%、3.8%。研究表明,本文提出的渔业健康养殖标准复杂关系抽取模型RoBERTa-BiRTE-SelfATT可以有效解决渔业标准文本关系抽取中专有名词识别不准确、语意复杂导致实体关系难以抽取的问题,是一种有效的渔业标准复杂关系抽取方法。

基于自注意力机制和CNN-LSTM深度学习的对虾投饵量预测模型 下载:48 浏览:316

何津民1 张丽珍1,2 《中国水产学报》 2022年4期

摘要:
为提高对虾饲料的利用率,减少养殖成本,提高养殖效益,提出了一种基于自注意力机制(self-attention, ATTN)和卷积神经网络(convolutional neural network, CNN)-长短期记忆网络(long short term memory, LSTM)的对虾投饵量预测模型(CNN-LSTM-ATTN),以水温、溶解氧、对虾的数量与质量作为预测模型的输入数据,通过CNN挖掘输入数据间的内在联系,提取出数据特征信息,利用LSTM的长期记忆能力保存数据特征信息,使用ATTN突出不同时间节点数据特征的重要性,进一步提升模型的性能。结果表明,本研究中提出的CNN-LSTM-ATTN预测模型的均方根误差、平均绝对误差和平均绝对百分误差分别为0.816、0.681和0.018,均小于BP(back propagation)神经网络、LSTM和CNN-LSTM 3个基准模型,其模型预测能力和稳定性优于其他模型。研究表明,本研究中构建的模型能较好地实现对虾投饵量的准确预测,可为对虾养殖投饵量的管理调控提供参考依据。
[1/1]
在线客服::点击联系客服
联系电话::400-188-5008
客服邮箱::service@ccnpub.com
投诉举报::feedback@ccnpub.com
人工客服

工作时间(9:00-18:00)
官方公众号

科技成果·全球共享