请选择 目标期刊

T-Reader:一种基于自注意力机制的多任务深度阅读理解模型 下载:47 浏览:364

郑玉昆1 李丹2 范臻1 刘奕群1 张敏1 马少平1 《中文研究》 2018年10期

摘要:
该文介绍THUIR团队在"2018机器阅读理解技术竞赛"中的模型设计与实验结果。针对多文档机器阅读理解任务,设计了基于自注意力机制的多任务深度阅读理解模型T-Reader,在所有105支参赛队伍中取得了第八名的成绩。除文本信息外,提取了问题与段落精准匹配等特征作为模型输入;在模型的段落匹配阶段,采用跨段落的文档级自注意力机制,通过循环神经网络实现了跨文档的问题级信息交互;在答案范围预测阶段,通过进行段落排序引入强化学习的方法提升模型性能。

模仿排序学习模型 下载:52 浏览:396

曾玮1 俞蔚捷2 徐君3 兰艳艳3 程学旗1 《当代中文学刊》 2020年1期

摘要:
文档排序一直是信息检索(IR)领域的关键任务之一。受益于马尔科夫决策过程强大的建模能力,以及强化学习方法强大的求解能力,近年来基于强化学习的排序模型被提出并取得了良好效果。然而,由于候选文档中会包含大量的不相关文档,导致基于"试错"的强化学习方法存在效率低下的问题。为解决上述问题,该文提出了一种基于模仿学习的排序学习算法IR-DAGGER,其基于文档标注信息构建专家策略,在保证文档排序精度的同时提高了算法的学习效率。为了测试IR-DAGGER的性能,该文基于面向相关性排序任务的OHSUMED数据集和面向多样化排序的TREC数据集进行了实验,实验结果表明IR-DAGGER在上述两个数据集上均提升了文档排序的精度和效率。

强化学习在路测覆盖分析中的实践 下载:60 浏览:247

杨洁艳 何新平 邓巍 李衡 《信息通信与技术》 2020年4期

摘要:
传统分析路测问题时存在耗时费力、效率低下的问题,文章针对该问题提出了一种基于值函数迭代的Q学习算法的路测覆盖智能分析方法。该算法建立在覆盖状态规则和弱覆盖现象识别规则的基础上,训练两个基于Q学习的规则学习器,同时引入经验池、状态合并和决策树探索方法。实验证明,能在覆盖状况识别和弱覆盖现象判定方面取得良好的效果,实现了道路弱覆盖识别和智能分析判定的功能。

基于强化学习协同训练的命名实体识别方法 下载:51 浏览:393

程钟慧1 陈珂1,2 陈刚1,2 徐世泽3 傅丁莉3 《软件工程研究》 2020年3期

摘要:
命名实体识别是一项从非结构化大数据集中抽取有意义的实体的技术。命名实体识别技术有着非常广泛的应用,例如从轨道交通列车产生的海量运行控制日志中抽取日期、列车、站台等实体信息进行进阶数据分析。近年来,基于学习的方法成为主流,然而这些算法严重依赖人工标注,训练集较小时会出现过拟合现象,无法达到预期的泛化效果。针对以上问题,本文提出了一种基于强化学习的协同训练框架,在少量标注数据的情况下,无须人工参与,利用大量无标注数据自动提升模型性能。在两种不同领域的语料上进行实验,模型F1值均提升10%,证明了本文方法的有效性和通用性。同时,与传统的协同训练方法进行对比,本文方法F1值高于其他方法5%,实验结果表明本文方法更加智能。

基于深度强化学习的机械臂避障路径规划研究 下载:58 浏览:465

李广创 程良伦 《软件工程研究》 2019年8期

摘要:
为了解决现有的机械臂焊接系统调整动作的难度大,缺乏灵活性的问题,本文采用了深度强化学习算法来解决机械臂的路径规划问题;该方法使用一个三层的DNN网络,输入为机械臂的状态信息,输出为机械臂的运动关节角度,通过离线训练,机械臂能够自行训练出一条接近于最优的运动轨迹,能够成功地避开障碍物到达目标点;仿真在一个三自由度点焊机器人的模拟平台上进行,仿真实验表明,采用深度强化学习技术的机械臂能为焊接机械臂规划出一条无碰撞的路径,具有较强的避障能力。

基于深度强化学习的智能频谱分配策略研究 下载:63 浏览:250

杨洁祎 金光 朱家骅 《数据与科学》 2020年6期

摘要:
随着无线网络被广泛使用,频谱资源变得越来越稀缺,高效的频谱分配策略对无线通信至关重要。动态频谱接入是一个动态时变优化问题,基于固定编码的算法无法自适应复杂的网络环境。本文将深度强化学习算法引入到认知无线电系统中,使智能体在未知频谱环境下不断与环境进行交互,学习到最佳频谱选择策略,提高频谱资源利用效率。实验结果表明:该算法在复杂的网络环境下能有效学习到最佳策略,且当网络环境发生变化时,算法能自动调整,实现二次收敛。

基于强化学习的数据驱动最优镇定控制及仿真 下载:75 浏览:386

陆超伦 李永强 冯远静 《人工智能研究》 2019年8期

摘要:
利用Q-学习算法,针对模型未知只有数据可用的非线性被控对象,解决最优镇定控制问题.由于状态空间和控制空间的连续性,Q-学习只能以近似的方式实现.因此,文中提出的近似Q-学习算法只能获得一个次优控制器.尽管求得的控制器只是次优,但是仿真研究表明,对于强非线性被控对象,相比线性二次型调节器和深度确定性梯度下降方法,文中方法的闭环吸引域更宽广,实际指标函数也更小.

基于路径积分强化学习方法的蛇形机器人目标导向运动 下载:74 浏览:392

方勇纯 朱威 郭宪 《人工智能研究》 2019年3期

摘要:
路径积分方法源于随机最优控制,是一种数值迭代方法,可求解连续非线性系统的最优控制问题,不依赖于系统模型,快速收敛.文中将基于路径积分强化学习的策略改善方法用于蛇形机器人的目标导向运动.使用路径积分强化学习方法学习蛇形机器人步态方程的参数,不仅可以在仿真环境下使蛇形机器人规避障碍到达目标点,利用仿真环境的先验知识也能在实际环境下快速完成相同的任务.实验结果验证方法的正确性.

深度强化学习理论及其应用综述 下载:73 浏览:425

万里鹏 兰旭光 张翰博 郑南宁 《人工智能研究》 2019年1期

摘要:
一方面,随着深度强化学习理论和应用研究不断深入,其在游戏、机器人控制、对话系统、自动驾驶等领域发挥重要作用;另一方面,深度强化学习受到探索-利用困境、奖励稀疏、样本采集困难、稳定性较差等问题的限制,存在很多不足.面对这些问题,研究者们提出各种各样的解决方法,新的理论进一步推动深度强化学习的发展,在弥补缺陷的同时扩展强化学习的研究领域,延伸出模仿学习、分层强化学习、元学习等新的研究方向.文中从深度强化学习的理论、困难、应用及发展前景等方面对其进行探讨.

深度强化学习理论及其应用综述 下载:79 浏览:431

万里鹏 兰旭光 张翰博 郑南宁 《人工智能研究》 2019年1期

摘要:
一方面,随着深度强化学习理论和应用研究不断深入,其在游戏、机器人控制、对话系统、自动驾驶等领域发挥重要作用;另一方面,深度强化学习受到探索-利用困境、奖励稀疏、样本采集困难、稳定性较差等问题的限制,存在很多不足.面对这些问题,研究者们提出各种各样的解决方法,新的理论进一步推动深度强化学习的发展,在弥补缺陷的同时扩展强化学习的研究领域,延伸出模仿学习、分层强化学习、元学习等新的研究方向.文中从深度强化学习的理论、困难、应用及发展前景等方面对其进行探讨.

基于深度强化学习的交通信号灯控制 下载:70 浏览:494

陈树德 彭佳汉 高旭 赖晓晨 《计算机研究与应用》 2020年9期

摘要:
交通问题具有非线性,不确定性的特征,传统算法往往难以取得较好的效果。深度学习模型在处理非线性、时序性的数据上拥有良好的表现。由此,提出一种基于深度强化学习的信号灯控制系统。该系统包括了几个部分:1)使用实时的交通数据或仿真环境产生数据;2)通过LSTM循环神经网络预测未来的交通信息;3)使用DDPG深度强化学习模型进行决策。在多个数据集上的实验验证算法的优越性及泛化能力。

反无人机集群智能化防空协同系统中的数据融合与决策优化研究 下载:62 浏览:779

刘佩文 罗慧 王亚飞 史超 吴雄伟 《中国航空航天科学》 2025年4期

摘要:
本文侧重于开发一种反无人机集群智能化防空协同系统,并对其内部的数据融合与决策优化过程进行研究。首先,通过大数据和机器学习技术,对各类无人机以及其集群的行为特征进行深度学习与分析。然后,利用这些分析数据,设计了一种新型的多源信息融合模型,以实现对无人机集群攻击的精确识别与预测。接着,采用了基于强化学习的动态决策优化算法,实现了天空态势的动态感知以及防空力量的实时调整,并提高了系统的响应速度和拦截精度。试验结果显示,该系统能有效提高对无人机集群攻击的防御能力,并具有较高的防空效率。

基于强化学习的自适应控制算法在无人机飞行中的应用 下载:81 浏览:1140

赵逸超 程晖 刘瑞强 杨泽 艾雯 《中国航空航天科学》 2024年8期

摘要:
近年来, 无人机在各个领域发挥着越来越重要的作用,而无人机的飞行精确性主要取决于其控制算法。而强化学习作为一种自我学习和决策的机器学习方法,被广泛应用在各种领域。本研究便提出和设计了一种基于强化学习的自适应控制算法,对无人机的飞行行为进行了优化。实验结果表明,本算法相比传统的控制算法,更能适应各种飞行条件,具有更强的鲁棒性,​无人机在复杂环境下的飞行稳定性大幅提升。可为复杂应用环境中无人机的自主飞行提供有效的解决方案。

基于深度强化学习的无人作战决策优化研究综述 下载:115 浏览:1350

李俊慧 《电气学报》 2023年9期

摘要:
无人机在作战中的广泛应用,其智能化决策成为关键挑战。本文提出基于深度强化学习(Deep Reinforcement Learning,DRL)的决策优化方法,应对无人机作战中的复杂性和不确定性。首先介绍了深度强化学习(Deep Reinforcement Learning,简称DRL),说明深度强化学习在该领域的研究优势,然后对深度强化学习算法在无人作战决策的主要方向——协同路径规划与任务分配的文献进行分析。提出采用近端策略优化(Proximal Policy Optimization,简称PPO)算法和规则算法结合的方式来解决无人机作战决策中任务分配和路径规划问题,梳理了基于近端策略优化算法的无人作战决策方法流程。最后,对文章进行总结并对未来深度强化学习在无人作战决策的发展方向作出展望。
[1/1]
在线客服::点击联系客服
联系电话::400-188-5008
客服邮箱::service@ccnpub.com
投诉举报::feedback@ccnpub.com
人工客服

工作时间(9:00-18:00)
官方公众号

科技成果·全球共享