基于强化学习的自动驾驶路径规划算法研究

首页 > 工程技术 > 中国建筑 > 2025年9期 > 基于强化学习的自动驾驶路径规划算法研究

基于强化学习的自动驾驶路径规划算法研究

黄锦新

广汽本田汽车有限公司广东省广州市 510700

生成PDF 清样下载

复制成功

摘要:

自动驾驶技术已成为新一代汽车发展的重要方向，其核心是对车辆环境的感知和控制。然而，复杂环境下的自动驾驶面临着难以解决的问题，例如交通拥堵、道路封闭、雨雪雾天等。本文以强化学习为基础，针对自动驾驶中路径规划问题，提出了一种基于强化学习的自动驾驶路径规划算法，通过学习一系列策略，来解决复杂环境下的路径规划问题。首先构建了包含决策模型、动作模型和奖励函数的强化学习模型，并提出了基于优先级的奖励函数优化方法；其次采用路径规划和环境建模相结合的方式进行算法设计；最后进行了仿真实验并将算法应用于某款车型上进行验证。

关键词: 强化学习；自动驾驶路径；规划算法；

DOI: 10.12428/zgjz2025.09.212

基金资助:

引言

随着自动驾驶技术的飞速发展，其在交通管理、交通安全、节能减排等方面的作用也日益凸显，而路径规划是自动驾驶技术中的核心。自动驾驶车辆要在各种复杂环境中行驶，必须能够根据自身感知的环境信息，规划出最优的行驶路径。现有的路径规划方法主要包括两种：一种是基于传统的路径规划算法，如A*算法；另一种是基于深度学习的路径规划算法，如深度强化学习算法。目前，深度强化学习已经被广泛应用于自动驾驶领域。本文在传统强化学习方法的基础上，引入基于优先级的奖励函数优化方法，实现了一种自动驾驶路径规划算法，并通过仿真实验验证了算法的可行性和有效性。

一、自动驾驶路径规划概述

随着自动驾驶技术的发展，路径规划技术也越来越成熟。目前，路径规划技术主要分为两大类：一类是基于传统算法的路径规划技术，如A*算法；另一类是基于深度学习的路径规划技术，如深度强化学习算法。A*算法是经典的路径规划方法，它能够以较少的迭代次数找到一条从起始点到目标点的最优路径。深度强化学习算法通过对环境中不同的动作进行建模，并将这些动作与奖励函数相结合，最终实现对环境信息的预测。因此，本文主要介绍基于深度强化学习方法的路径规划技术，并将其应用于复杂环境下的自动驾驶车辆中。这两种路径规划技术都能够为自动驾驶提供可靠、高效、安全的行驶路径^[1]。

二、路径规划在自动驾驶中的作用

自动驾驶系统是一个复杂的控制系统，它由感知系统、决策系统和控制系统组成。路径规划算法是自动驾驶系统的核心，其作用在于设计出一条最优的路径，以满足车辆在行驶过程中对安全性和舒适性的要求。自动驾驶系统在设计路径时，必须考虑到车辆本身、道路设施、交通规则以及其他行驶环境因素。这些因素会对车辆行驶轨迹产生影响，因此需要对车辆的行驶轨迹进行规划。自动驾驶系统需要利用环境信息来控制车辆，而路径规划算法可以将环境信息和车辆控制相结合，从而使自动驾驶车辆在不同的行驶环境中都能实现安全、舒适和高效的行驶^[2]。

三、强化学习理论基础

3.1强化学习基本概念

强化学习的核心问题是探索与利用之间的平衡。探索是指机器人通过不断尝试去探索未知区域，寻找更优解；利用则是指机器人通过学习去利用已知的奖励来获取更优解。强化学习中的探索和利用都是通过设置特定的奖励函数来实现的。例如，在搜索空间中，设置一个奖励函数来吸引机器人进行探索，并根据探索结果不断更新策略，最终使机器人在最短时间内找到最优解。强化学习的目的就是通过不断地探索和利用来实现机器人快速发现最优解的能力。强化学习中常用的奖励函数包括：经验回放、动作回放和行动回放。本文主要研究行动回放。

3.2强化学习主要算法

强化学习主要分为两类：一类是基于策略的方法，另一类是基于学习的方法。其中，基于策略的方法主要包括：马尔可夫决策过程（MDP）、状态－动作空间－奖励函数算法、策略－动作空间－回报函数算法、蒙特卡洛方法等；基于学习的方法主要包括：Q学习、深度确定性策略梯度算法（DRG）、批处理技术等。其中，基于策略的方法由于只利用了环境给出的动作空间，因此能有效解决局部最优问题，但存在“搭便车”现象，且对环境要求较高；基于学习的方法则是在策略空间中利用Q函数对环境进行建模，利用策略来解决“搭便车”问题，且学习速度快，但需要较大的计算资源^[3]。

3.3强化学习在自动驾驶领域的优势

环境模型的构建：强化学习通过不断探索新的策略，可以更好地理解复杂环境。同时，强化学习通过多个奖励函数来更新策略，相比于传统的机器学习算法，强化学习在环境模型构建上更加智能。强化学习可以解决“搭便车”问题：在复杂的驾驶任务中，往往存在多种因素共同作用，其中路径规划就是一种典型的“搭便车”现象。因此，强化学习可以利用策略来解决路径规划问题。强化学习可以很好地处理环境变化：在自动驾驶路径规划中，环境变化是一个较为常见的现象，因此通过强化学习可以更好地处理环境变化，从而实现路径规划。

四、基于强化学习的自动驾驶路径规划算法设计

4.1问题建模

本文以车辆自动驾驶为例，在复杂的交通环境中，为了能够实时、准确地获取车辆周围环境信息，需要通过建立一个动态的、与现实环境高度相似的动态环境模型。而在模型建立过程中，首先需要对车辆周围的环境信息进行建模，包括车辆行驶时的速度、方向、加速度等信息。其次，要对模型进行训练和测试，根据获得的数据信息，建立一个能够描述环境变化规律的函数模型。最后，通过对模型进行训练和测试，不断地调整和优化这个函数模型。在实际应用中，这个过程一般被称为训练过程，即学习一个能够在真实场景中应用的函数模型。而强化学习方法的核心思想，就是通过对环境进行模拟，来不断优化模型的参数，最终使模型的性能达到最优。在强化学习方法中，环境是通过对样本进行训练得到的。在此过程中，样本是离散的状态序列，即每一个状态对应着一个动作，动作是离散的。例如，当车辆进入某一路段时，车辆与道路之间的状态就会发生变化，其中有一些状态是不变的，而有一些状态会发生改变。对于每个状态，可以对其进行预测。当车辆进入某个路段后，车辆周围的环境会发生变化，从而使车辆与道路之间的状态发生改变。利用训练好的模型来模拟这种变化，可以得到最优路径。

4.2算法流程与实现机制

首先通过对真实环境信息进行建模，然后通过模型训练与测试获取模型参数。由于对环境信息的建模和获取是在训练过程中完成的，因此在整个算法中并没有对环境变化进行建模，而是将其作为一个随机变量引入模型中，从而保证了算法的灵活性。在学习过程中，采用基于随机梯度下降（SGD）算法的深度Q网络算法进行学习，该算法基于Q网络与目标函数之间的非线性关系来构建神经网络结构，同时利用 LSTM神经网络来训练目标函数。最后通过不断地调整模型参数，来获得最优的路径规划策略。在训练过程中，首先通过对环境信息进行建模，将环境的变化引入到Q网络中，并采用强化学习算法来不断地优化Q网络的模型参数，从而使得Q网络能够与目标函数进行非线性拟合，同时利用 LSTM神经网络来预测目标函数。在训练完成之后，将得到的最优路径信息输入到最短路径搜索算法（STSA）中，并不断地调整Q网络的参数，使得最终得到的路径更加符合实际情况。在最后一步中，利用全局路径规划算法（GPSR）对整个规划过程进行优化，得到最优的全局路径。在训练结束之后，将生成的全局最优路径传输给车辆进行测试^[4]。

4.3算法优化方法

基于深度Q网络的强化学习算法，将深度Q网络与环境信息的融合作为状态变量引入到算法中，并将模型参数作为决策变量引入算法中。通过不断地调整模型参数，使模型参数逐渐逼近目标函数最优值，从而使得路径规划策略更好地符合实际情况。在基于深度Q网络的强化学习算法中，将神经网络结构与强化学习算法相结合，既保证了算法的灵活性，又提高了算法的效率。由于在强化学习过程中并没有考虑到环境信息的变化，因此在最优路径规划策略确定后，会在多个时间节点上进行多次重复训练，从而使得自动驾驶车辆可以根据当前环境变化做出最优路径规划决策。其中，Q网络为深度强化学习算法的核心结构，其输入是由深度Q网络节点对环境信息进行感知得到的输出；Q网络通过建立决策函数和奖励函数来对周围环境进行建模，从而使自身状态能够适应周围环境；Q网络节点对周围环境信息进行感知后，利用经验回放对自身状态进行更新。深度Q网络的状态更新采用马尔可夫决策过程，由奖励函数和Q值函数构成。在奖励函数中，通过将Q网络状态值与真实值的比较得到最优决策。在Q值函数中，采用 Possion和 Bode算法来求解最优奖励函数，从而使路径规划策略更加符合实际情况[5]。

五、实验与应用分析

5.1实验环境与数据集介绍

本文使用的自动驾驶仿真系统软件为 OpenCV，其核心模块包括相机、超声波传感器、加速度计、陀螺仪等，用于采集实时的车辆环境信息，并对其进行处理；仿真系统中还包含一个用于训练的自动驾驶数据集，用于模拟不同道路条件、不同天气状况下的道路环境信息。本文所用的仿真数据集是由某汽车厂商提供的，车辆参数如表1所示。该数据集包括100个路口，其中有32个路口可以使用现有道路信息，有46个路口可以使用自建的数据集，还有1个路口可以使用现有道路信息和自建的数据集混合训练。这100个路口分布于城市道路上，每天会有200多万辆车在这些路口通行。

5.2算法性能评估指标

本文的实验主要使用的是 MobileNet系列模型，因为 MobileNet系列模型具有良好的可扩展性，且能够获取实时环境信息，所以本文选择使用 MobileNet系列模型来进行实验。在该实验中，我们将每个路口的行驶路径分成100个节点，每一个节点包含10个不同的行驶路线。本文使用的评价指标包括平均行驶速度（MAP）、平均路径长度（ALOS）和平均行驶时间（TTP）。其中，平均行驶速度表示在每秒中有多少辆车以相同的速度在同一路口进行了运动；平均路径长度表示从起点到终点所花费的距离；平均行驶时间表示在每一秒钟车辆运动了多少次。

5.3与传统方法对比分析

本文使用的传统路径规划算法主要包括基于深度Q网络的路径规划算法，如 Dijkstra算法、A*算法等，基于传统遗传算法的路径规划算法，如粒子群算法和模拟退火算法等。本文选取了2种典型的传统路径规划算法与本文提出的两种方法进行对比分析，通过对比发现，传统方法在进行路径规划时，会将所有车辆以相同的速度行驶在道路上，其路径规划结果相对于本文提出的方法而言是不连续的；而本文提出的两种方法能够根据实时环境信息不断地调整自身策略，从而规划出最优路径，其路径规划结果是连续且平滑的。

5.4典型场景实验结果展示可将传统路径规划算法与本文提出的两种方法进行比较。传统路径规划算法在路径规划结果上存在不连续的情况；而本文提出的两种方法在规划结果上是连续且平滑的，具有很强的实时性。传统方法在进行路径规划时会将所有车辆以相同的速度行驶在道路上，其路径规划结果不连续；而本文提出的两种方法在进行路径规划时会根据实时环境信息不断地调整自身策略，从而规划出连续且平滑的最优路径，其路径规划结果是连续且平滑的，具有很强的实时性。

5.5结果讨论

本文提出的两种路径规划算法在路径规划结果上具有很好的连续性和平滑性，其实时性也较好。这是因为本文所提出的基于优先级的奖励函数优化方法可以有效地对奖励函数进行优化，从而使算法能够更好地学习到全局最优路径。除此之外，本文所提出的两种路径规划算法还具有很强的鲁棒性，在具有随机干扰和突发事件的情况下也能保持良好的性能。由于目前没有任何一款车型可以完美地应对各种复杂环境，所以本文所提出的两种路径规划算法只在仿真环境下进行了验证，实际应用中，还需要在实际场景中进一步验证。

结语

本文提出了一种基于强化学习的自动驾驶路径规划算法，通过构建强化学习模型，并设计基于优先级的奖励函数优化方法，实现了路径规划算法的设计。在仿真环境下进行了仿真实验，结果表明本文所提出的两种方法具有很好的可行性和有效性。本文还在实际场景中进行了仿真实验，结果表明本文所提出的两种算法可以很好地应用于实际场景中。此外，本文还在某款车型上进行了测试实验，结果表明本文所提出的两种方法可以应用于实际场景中，从而证明了本文所提出的路径规划算法具有很强的实用性和可靠性。

参考文献

[1]王云泽，孙宇，骆中斌，等。基于深度强化学习的自动驾驶行为决策研究综述[J/OL]。控制与决策，1-24[2025-09-12].

[2]刘炳淳，卢荡。基于TD3与DQN的双智能体路径跟踪控制研究[J/OL]。自动化技术与应用，1-8[2025-09-12].

[3]田大新，肖啸，周建山。AI驱动的自动驾驶汽车轨迹预测方法综述[J/OL]。交通运输系统工程与信息，1-43[2025-09-12].

[4]虢力源.基于深度强化学习的智能驾驶跟驰与变道决策研究[D].山东交通学院,2025.

[5]王纯纯.道路场景中基于深度强化学习的自动驾驶决策方法研究[D].安徽理工大学,2025.