能与人类驾驶者产生共鸣的合作型自动驾驶汽车技术

电子说

1.3w人已加入

描述

摘要    

在开发出能够让这些智能智能体与人类共存的解决方案之前,自动驾驶汽车的广泛采用不会成为现实。这包括安全有效地与人类驾驶的车辆交互,特别是在冲突和竞争场景中。 我们在之前关于社会意识导航的工作的基础上,借用了心理学中的社会价值取向概念,即一个人对他人福利的重视程度,以诱导自动驾驶中的利他行为。与现有的明确模拟人类驾驶员行为并依靠他们的预期反应来创造合作机会的工作相比,我们的交感合作驾驶(SymCoDrive)范式训练利他主义的智能体,在竞争性的驾驶场景中实现安全和平稳的交通流,只需通过经验学习,无需任何明确协调。 由于这种利他行为,我们证明了安全性和交通水平指标的显著改善,并得出重要的结论,智能体的利他主义水平需要适当的调整,因为过于利他的智能体也会导致次优交通流。

I.简介

下一代交通系统将通过联网的自动驾驶车辆变得更安全、更高效。车对车(V2V)通信使自动驾驶汽车(AVs)能够构成一种大众智能形式,克服单一智能体以分散方式规划的局限性[1]。如果道路上的所有车辆都是连接和自动驾驶的,V2V可以让它们协调和处理需要无私的复杂驾驶场景,例如,并入和退出高速公路,以及穿过十字路口[2]。

然而,由于自动驾驶汽车和人类驾驶汽车(HVs)的机动性和反应时间不同,它们共享的道路自然会成为竞争场景。与完全自动驾驶的情况相比,这里的HV和AV之间的协调并不那么直接,因为AV没有明确的与人类协调的手段,因此需要在当地考虑到它们附近的其他HV和AV。    为了进一步阐述这一需求,假设图1中描述的合并场景。合并车辆(HV或AV)在高速公路上面对一群混合的AV和HV,需要它们减速以便合并。

智能体

图1:无缝和安全的高速公路并线需要所有的AV共同合作,并考虑到人类驾驶车辆的效用。 (上图)利己主义的自动驾驶汽车只为自己的效用而优化,(下图)利他主义的自动驾驶汽车在自己的福利上做出妥协,以顾及人类驾驶的车辆。

如果AVs自顾自地行动,那就得靠高速公路上的HVs来允许并线。由于人类的行为难以预测和不同,仅依靠人类驾驶员可能导致次优甚至不安全的情况。在这个特殊的例子中,假设是利己主义的AV,并线的车辆要么卡在并线匝道上,无法并线,要么等待HV,在不知道HV是否会减速的情况下冒险切入高速路。

另一方面,利他型自动驾驶汽车可以协同工作,引导高速公路上的交通,例如,如图1(b)中AV3所做的那样,通过减速后面的车辆,以实现无缝和安全的合并。这种利他主义的自动驾驶智能体可以在复杂的驾驶场景中创造出社会理想的结果,而不依赖于人类驾驶员的行为或对其进行假设。

自动驾驶汽车的利他行为可以通过量化每辆汽车将其他车辆(无论是HV还是AV)的效用纳入其局部效用函数的意愿来形式化。这个概念被定义为社会价值取向(SVO),最近已从心理学文献中被用于机器人和人工智能研究[3]。SVO决定了智能体人在他人面前表现出利己主义或利他主义的程度。

图1(b)展示了AV的利他行为的一个例子,它们为合并的HV创造了一个安全的走廊,并实现了无缝合并。在混合自治的情况下,智能体要么是具有相同的SVO的同质性,要么可以直接获得对方的SVO(通过V2V)。

然而,HV的效用和SVO是未知的,因为它们是主观的和不稳定的,因此无法传达给AV。

现有的社会导航工作通过预测人类驾驶者的行为[4]并避免与他们发生冲突,或者依赖于人类自然愿意或可以被激励合作的假设[5]。通过明确地对人类行为进行建模,智能体可以利用合作机会,以实现对人类和自动驾驶智能体都有利的社会目标。然而,由于受疲劳、分心和压力的影响,模型的时间变化以及信念建模技术对其他智能体行为的可扩展性,人类行为的建模往往具有挑战性,因此限制了上述方法的实用性。基于模型预测控制(MPC)的方法通常需要设计成本函数和集中协调器[6]。因此,它们不适合协同自动驾驶,因为中央协调是不可行的。

另一方面,数据驱动的解决方案,如强化学习,在混合自治多智能体系统中受到挑战,主要是由于智能体在非稳定的环境中同时进化。

考虑到这些缺点,自动驾驶汽车中的利他主义概念可以分为自动驾驶智能体内部的合作和自动驾驶智能体与人类司机之间的共情。将这两部分分开有助于我们分别探究它们对实现社会目标的影响。我们的主要观点是,确定一个社会效用函数可以在分散的自动驾驶智能体中诱发利他主义,并激励它们相互合作,在没有明确协调或人类SVO信息的情况下共情人类司机。我们所依赖的核心区别思想是,自动驾驶汽车经过训练,可以为所有车辆达到最佳解决方案,学会仅从经验中隐式地建模人类的决策过程。我们研究利他型自动驾驶汽车在缺乏共情和合作的情况下会变成安全威胁的行为。

换句话说,我们在与图1中描述的性质相似的场景中进行实验,这些场景基本上要求所有智能体一起工作,任何一个智能体都不能单独获得成功。我们的主要贡献有以下几点:

● 我们提出了一个数据驱动的框架--交感合作驾驶(SymCoDrive),它结合了一个分散的奖励结构来模拟合作和交感,并采用三维卷积深度强化学习(DRL)架构来捕捉驾驶数据中的时间信息,

● 我们展示了调整汽车中的利他主义水平如何导致不同的新兴行为,并影响交通流和驾驶安全,

●  我们在高速公路合并场景中进行了实验,并证明我们的方法与利己主义的自动驾驶智能体相比,能提高驾驶安全性和社会理想的行为。

II.相关工作

多智能体强化学习。 多智能体强化学习(MARL)的一个主要挑战是环境的非平稳性。Foerster等人提出一个新的学习规则来解决这个问题[7]。

此外,通过从经验重放缓冲器中提取训练样本进行装饰的想法变得过时了,可以采用重要性采样的多智能体推导,从重放缓冲器中删除过时的样本[8]。Xie等人也试图通过使用伙伴策略的潜在表征来缓解这一问题,以实现更可扩展的MARL和伙伴建模[9]。  

Foerster等人提出的反事实多智能体(COMA)算法使用集中的批评者和分散的行动者来解决多智能体环境中的信用分配问题[10]。在集中控制的情况下,对环境具有完全可观察性的深度Q网络可以用来控制一组智能体的联合行动[11]。在混合自治的背景下,现有的文献侧重于通过对自治智能体(或自治智能体和人类)之间互动的性质进行假设来解决合作和竞争问题[12]。与这些工作相反,我们假设部分可观察性和分散的奖励函数,并旨在训练交感合作自动驾驶智能体,不假设人类的行为。

混合自动驾驶中的自动驾驶。人类的驾驶方式可以通过逆向RL或采用统计模型从示范中学习[5], [13], [14]。对人类驾驶行为进行建模,可以帮助自动驾驶汽车确定与人类创造合作和互动机会的潜力,以实现安全和高效的导航[15]。此外,人类驾驶员能够通过观察邻近车辆轨迹的细微变化,直观地预测它们的下一步行动,并在需要时利用预测结果主动行动。受到这一事实的启发,Sadigh等人揭示了自动驾驶汽车如何利用人类的这种有远见的行为来塑造和影响他们的行为。在宏观层面上,之前的工作已经证明了在混合自动驾驶场景中出现的人类行为,并研究如何利用这些模式来控制和稳定交通流[16], [17]。与我们的主题密切相关的是,最近在社交机器人导航方面的工作显示了与人类合作规划和互动的潜力[4],[18],[19]。

III.

多车交互问题

部分可观测随机对策(POSG)。   我们用元组MG:= (Z,s, [Ai], [oi], P, [Ti])定义的随机对策来描述i = 1时的多车交互问题。, N,其中Z是一个有限的智能体集合,s表示状态空间,包括N个智能体可以采用的所有可能的形式。在给定时间,智能体接收到局部观测oi:S→Oi,并基于随机策略πi: Oi x Ai→[0,1]在动作空间ai ϵ Ai内采取动作。

因此,智能体过渡到一个新的状态si,,该状态是根据状态转换函数Pr(s, |s, a): S xA1 x ... xAN → S确定的,并获得一个奖励ri : S x Ai → R。目标是推导出一个最优策略π *,使无限时间范围内未来奖励的贴现总和最大化。

在部分可观察随机对策(POSG)中,状态转移和奖励函数通常是未知的,智能体只能访问与状态相关的局部观测。  采用多代理强化学习,独立的MARL代理可以一起工作,克服单一代理的物理限制,并超越他们[20]。在多车问题中,通过一个集中的MARL控制器来控制车辆是相当直接的,该控制器对环境具有完全的可观察性,并为所有车辆分配一个集中的联合奖励 (Vi, j  : ri  三 rj )。然而,这样的假设在现实世界的自动驾驶应用中是不可行的,我们更关注分散的情况,即车辆具有部分可观察性,并且不知道对方的行动。在这种情况下,代理人之间的协调预计将来自于我们引入的分散的奖励函数,该函数使用本地观察来估计其他车辆的效用。

深度Q网络(DQN)。Q-learning已被广泛应用于具有大状态空间的强化学习问题中,它定义了一个状态值函数 Qπ (s, a) := 以得出最优策略 π * (s)  =  arg maxaQ* (s, a)  其中  γ∈ [0, 1)  是一个折扣系数。  DQN[21]使用一个具有权重w的神经网络,通过执行小批量梯度下降步骤来估计状态-行动价值函数,即 wi+1   =  其中损失函数被定义为,

而 是对wi处梯度的估计,wo是目标网络的权重,在训练中得到定期更新。(s, a, r, s’) 的集合从经验重放缓冲器中随机抽取,以消除方程(1)中训练样本的相关性。当代理人的政策在训练过程中发生变化时,这种机制就会出现问题。

IV.交感合作驾驶

高速公路合并情况。     我们的基本场景是一个高速公路的并线匝道,其中一个并线车辆(HV或AV)试图加入一个HV和AV的混合排,如图1所示。由于其固有的竞争性质,我们特别选择了这种情况,因为合并车辆的局部效用与巡航车辆的效用是一致的。我们确保只有一个AV向合并的车辆让步不会使合并成为可能,为了使合并发生,基本上所有的AV都需要一起工作。在图1(b)中,AV3必须减速并引导后面的车辆,这些车辆也许无法看到并线的车辆,而AV2和AV1则加速,为并线的车辆打开空间。如果任何车辆不合作或自作主张,交通安全和效率就会受到影响。

形式主义。考虑一个如图1所示的路段,其中有一组自主车辆Z,一组人类驾驶的车辆V,以及一个任务车辆M∈Z∪V,可以是AV或HV,并试图并入高速公路。HVs通常有一个有限的感知范围,受到遮挡和障碍物的限制。在自动驾驶汽车的情况下,尽管我们假设没有明确的协调,也没有关于其他智能体的行动的信息,但自主智能体通过V2V通信连接在一起,这允许它们共享自己的态势感知。利用这种扩展的态势感知,代理人可以扩大他们的感知范围,克服遮挡和视线能见度的限制。因此,虽然每个AV对环境有独特的局部观察,但他们可以看到其扩展感知范围内的所有车辆,即他们可以看到AV的一个子集,和HV的一个子集。

为了模拟混合自动驾驶场景,我们部署了一组混合的HVs和AVs在高速公路上巡航,目标是在保持安全的情况下使其速度最大化。人类和自主代理之间的对比是,人类只关心自己的安全,而利他主义的自主代理试图为群体的安全和效率进行优化。社会价值取向衡量了代理人行为中的利他主义水平。为了系统地研究代理人和人类之间的互动,我们将SVO中的共情和合作概念解耦。具体而言,我们将智能体与人类之间的利他行为视为共情,将智能体之间的利他行为称为合作。这个定义背后的一个理由是,这两者在本质上是不同的,因为当人类不一定愿意帮助代理人时,同情行为可能是单方面。

然而,合作是一种对称的品质,因为所有的AV都部署了相同的政策,正如我们在实验中看到的,无论人类是否愿意合作,都可以实现群体的社会目标。

分散式的奖励结构。代理人Ii∈Z收到的本地奖励可以分解为:

智能体

智能体

利他主义或利己主义的水平可以通过λE、λC和λS的系数来调整。方程(2)中的riE  分量表示当地的驾驶性能奖励,这些奖励来自于行驶距离、平均速度和加速变化的负成本,以促进车辆的平稳和高效的运动。合作奖励项 ri,jC占观察者代理的盟友的效用,即除Ii 之外的感知范围内的其他AV。值得注意的是,Ii  只需要V2V信息来计算 RC 而不需要任何明确的协调或对其他代理的行动的了解。

智能体

图2:多通道速度图的状态表示将车辆的速度嵌入像素值中。

交感神经奖励条款, ri,Sk 定义为:

智能体

其中uk表示HV的效用,例如它的速度, di,k是观察者自主代理和HV之间的距离,η和ψ是无尺寸系数。此外,在我们的驾驶场景中,特定的任务奖励项 r kM代表合并机动的成功或失败,形式为:

智能体

在训练过程中,每个代理利用Deep RL对这个分散的奖励函数进行优化,并学会在高速公路上行驶,并与盟友合作,创造出对AV和HV都有好处的社会理想形态。

状态-空间和行动-空间。机器人导航问题可以从多个抽象层次来看待:从低层次的连续控制问题到高层次的元行动规划。我们在这项工作中的目的是研究混合自动驾驶的智能体之间、智能体与人之间的交互以及行为方面的问题。因此,我们选择一个更抽象的层次,将行动空间定义为一组离散的元行动ai∈Rn。

我们用两种不同的局部状态表示法进行实验,以找到最适合我们问题的表示法。多通道速度图表示法将AV和HV分成两个通道,并将其相对速度嵌入像素值中。图2说明了这种多通道表示法的一个例子。一个剪切的对数函数被用来将车辆的相对速度映射成像素值,因为它与线性映射相比显示出更好的性能,即,

智能体

其中Zj 是状态表示中第j辆车的像素值, v (l) 是其在第k辆车视角下的相对Frenet纵向速度, 即,v0 是速度阈值,α 和 β 是无尺寸系数,1(.) 是Heaviside阶梯函数。这种非线性映射更重视 |v(l)| 较小的相邻车辆,几乎忽略了比自我移动得更快或更慢的车辆。

智能体

图3:我们的三维卷积架构的深度Q网络。

我们又增加了三个通道,嵌入了1)道路布局,2)强调自我位置的注意力图,以及3)任务车辆。

另一个候选方案是占用网格表示,它直接将信息嵌入一个3维的张量oi ∈ Oi的元素中。从理论上讲,这种表示与之前的VelocityMap非常相似,它们的对比是占用网格删除了形状和视觉特征,如边缘和角落,并直接向网络提供稀疏数字。更具体地说,考虑一个大小为W x H x F的张量,其中第n个通道是一个W x H矩阵,被定义为:

智能体

其中 f = [p,l, d, v(l), v (d) , sin δ, cos δ]  是特征集, p 是显示车辆存在的二元变量, l 和 d 是相对的Frenet坐标,v (l)  和 v (d)  是相对的Frenet速度,δ是相对于全球基准测量的偏航角。

用深度MARL进行训练。我们用Toghi等人、Mnih等人和Egorov等人在文献中提出的3种现有架构作为我们的Q-learning问题的函数近似器进行实验[11]、[21]、[22]。此外,我们还实现了一个三维卷积网络,捕捉到了训练情节中的时间依赖性,如图3所示。我们网络的输入是10个VelocityMap观测值的堆栈,即一个10 x (4 x 512 x 64)张量,它捕获了剧情中的最后10个时间步骤。第五节至第七节对这些架构的性能进行了比较。        

我们离线训练单个神经网络,并将学习到的策略部署到所有代理中,以便实时分布式独立执行。为了解决MARL中的非平稳性问题,以半顺序的方式训练智能体,如图4所示。每个代理被单独训练了k次,而其盟友w-的政策被冻结。然后,新的政策,w+,被传播给所有代理,以更新他们的神经网络。此外,受[23]的启发,我们采用了一种新的经验重放机制来补偿我们高度倾斜的训练数据。

智能体

图4:多智能体训练和政策传播过程。

一个训练情节在语义上可以分为两个部分,在笔直的高速公路上巡航和高速路并线。后者与前者在体验重放缓冲中的比例很小,因为后者只发生在每集的短时间内。因此,从经验回放缓冲区中统一取样会导致与高速公路合并有关的训练样本太少。相反,我们将一个样本从缓冲区抽出的概率设定为与它最后得到的奖励和它与道路上合并点的空间距离成正比。平衡倾斜的训练数据集是计算机视觉和机器学习中的常见做法,在我们的MARL问题上似乎也是有益的。

V.实验与测试

A.驾驶模拟器的设置

我们定制了一个OpenAI Gym环境[24]来模拟高速路的驾驶和并线场景。在我们的模拟器框架中,运动学自行车模型描述车辆的运动,并使用闭环比例积分微分(PID)控制器将元动作转换为低水平的转向和加速度控制信号。特别是,我们选择一组n=5的抽象动作作为 ai  ∈ Ai   =  [左车道,空闲,右车道,加速,减速]T 。作为自动驾驶领域的一种常见做法,我们用Frenet-Serret坐标框架来表达路段和车辆的运动,这有助于我们将道路曲率从方程中剔除,并将控制问题分解为横向和纵向部分。在我们的模拟环境中,HV的行为受Treiber等人和Kesting等人提出的横向和纵向驱动模型支配[25], [26]。

为了确保我们所学政策的泛化能力,我们从一个剪切过的高斯分布中抽取所有车辆的初始位置,其平均值和方差经过调整,以确保初始化模拟落入我们所期望的合并场景配置。在测试阶段,我们进一步随机调整车辆的速度和初始位置,以探测代理处理未见过的和更具挑战性的情况的能力。

B.计算详情

使用NVIDIA Tesla V100 GPU和Xeon 6126 CPU @ 2.60GHz,SymCoDrive的PyTorch实现中的一次训练迭代需要大约440ms。我们多次重复训练过程,以确保所有运行都收敛到类似的新兴行为和政策。在我们的硬件上,为15,000个情节训练Conv3D网络大约花了33小时。

政策执行频率被设定为1Hz,在测试阶段对网络进行在线查询大约需要10ms。我们花了大约4650个GPU小时来调整神经网络和奖励系数,以达到我们实验的目的。

C.自主变量

我们进行了一组实验,研究奖励功能中的共情和合作部分如何影响自动驾驶智能体的行为和总体安全/效率指标。我们将图1中的任务车辆合并车辆的情况与人类驾驶的任务车辆的双场景进行比较。我们定义了2x4环境,其中任务车是AV或HV,其他自动驾驶智能体遵循自我主义、只合作、只共情或共情合作的目标:

●   HV+E.   任务载体是由人驱动的,自动驾驶智能体的行为是自我主义的,

●   HV+C.   任务车是由人类驱动的,自动驾驶智能体的奖励中只有合作部分(RC),

●  HV+S.  任务车是由人驱动的,自动驾驶智能体只有共情(RS)元素,

●HV+SC.   任务车是由人类驱动的,自动驾驶智能体的奖励中既有同情(RS),也有合作(RC )的成分。

●AV+E/C/S/SC. 与上述情况类似,不同的是任务车辆是自动驾驶的。

D.依赖性措施

我们实验的性能可以从效率和安全方面来衡量。每辆车在模拟过程中的平均行驶距离是衡量效率的交通水平。发生碰撞的事件的百分比表明政策的安全性。计算没有撞车和成功任务(并入高速公路)的场景数量,可以让我们了解到我们的解决方案的整体效率。

E.假设

我们研究了三个关键假设:

●  H1.在缺乏合作和共情的情况下,HV将无法安全地并入高速公路。因此,与HV+C和HV+E相比,我们预计HV+SC的性能会更好。

●H2.一辆自动驾驶任务车只需要它的盟友利他主义就能成功合并。我们不希望看到AV+SC和AV+C方案之间有明显的差异;但是,我们假设它们都会优于AV+E。

●  H3.调整代理人的利他主义水平会导致不同的新兴行为,这些行为对效率和安全的影响是不同的。提高利他主义的水平可能会弄巧成拙,因为它会危及智能体学习基本驾驶技能的能力。

智能体

图5:利己型、纯合作型和富有共情心的合作型自动代理之间的比较,以及它们如何与自动(上)或人类驾驶(下)的任务车辆进行交互。左侧显示了一组采样任务车辆的轨迹,与V-C节中定义的6个实验设置有关。

F.结果

我们在随机初始化的场景中训练SymCoDrive代理15,000集,使用小标准偏差,并在3000个测试集中以4倍大的初始化范围平均性能指标,以确保我们的代理不会在所见的训练集中过度拟合。

1) 合作与共情:为了检验我们的假设H1,我们将重点放在人类驾驶任务车辆的场景,即HV+E, HV+C和HV+SC。图5中的最后一行说明了我们对这些场景的观察结果。很明显,在奖励功能中整合合作和共情元素(SC)的智能体比单纯合作(C)或利己(E)的智能体表现出更好的性能。这种洞察力也反映在最右下方测量车辆平均行驶距离的柱状图中。由于公平和高效的交通流,HV+SC情景下的车辆显然能成功行驶更远的距离,而在HV+C和HV+E情景下,失败的并线尝试和可能发生的碰撞使性能恶化。图5中最左边的一栏是一组采样的任务车辆轨迹的可视化。很明显,在大多数事件中,合作的交感智能体成功地合并到高速公路上,而其他(C)和(E)智能体的大多数尝试都失败了。图6通过比较从HV+E场景中提取的一组任务车辆轨迹和从HV+SC场景中提取的轨迹,为我们的讨论提供了进一步的直观认识。显然,合作的交感主体使合并成功,而其他利己主义和单纯合作的主体则无法做到这一点,这支持了我们的假设H1。

当务之急是对有自动驾驶任务车辆的场景重复上述实验,因为人们可以认为HV+C和HV+E中失败的任务和碰撞是由于我们为HV选择的驾驶员模型的不足。为了准确地解决这一论点,图5的最上面一行显示了AV+E、AV+C和AV+SC的方案。首先,通过对两种以自我为主体的场景,即AV+E和HV+E的比较,发现自动驾驶任务车辆的行为更具创造性,并探索了与公路合并的不同方式,因此AV+E的轨迹样本比HV+E更广泛。

接下来,比较利己主义的自动驾驶任务车和人类驱动的任务车在碰撞和合并失败方面的表现,显示自动驾驶代理通常更有能力找到一种方法来合并到人类和利己主义代理的队列中。然而,它仍然在超过一半的合并尝试中失败。图5验证了我们的假设H2,因为我们可以观察到,在代理中只增加一个合作部分,即AV+C方案,使任务车辆几乎在所有的尝试中都能并入高速公路。在AV+SC中加入共情元素,可以略微提高安全性,因为它激励智能体注意那些没有与他们发生直接碰撞风险的人类。我们认为合作是共情的促成因素,并没有在只有同情的环境中进行任何实验,因为其结果可以从(SC)和(C)的比较中推断出来。2)  调整利他主义和新兴行为:为了研究假设H3,我们训练了一组智能体,并改变它们的奖励系数,即 λE , λC , λS , 以调整它们的共情和合作水平。回顾在图1中描述的驾驶场景,我们特别见证了代理人中两个关键的新兴行为。强烈同情心的代理人在接受训练时,λS /(λC +λE )的比例很高,自然会把人类的利益放在首位,而不是自己的利益。图7显示了从两个场景中提取的一组快照,其中包括强共情代理和弱共情代理。

智能体

图6:一组合并车辆的样本轨迹显示,与HV+E中的失败尝试相比,HV+SC中的合并尝试大多成功。

智能体

图7:比较弱交感和强交感的自主代理。(左) "引导型AV"(考虑图1(b)中的AV3)的速度曲线和(右)样本快照。

一个强交感智能体(考虑图1(b)中的AV3)会放慢速度并阻止后面的车辆群,以确保任务车辆获得安全的合并路径。另一方面,弱交感智能体最初会刹车以减缓后面的车辆,然后优先考虑自己的利益,加速并超过任务车辆。尽管这两种行为都能使任务车辆成功合并,但图7中智能体的速度分布描述了强烈共情的智能体如何在其行驶距离(速度曲线下的面积)上妥协,以最大化任务车辆的安全性。

在这一观察的激励下,我们彻底研究了调整方程(2)中的奖励系数对SymCoDrive代理的性能所产生的影响。如图8所示,我们从经验上观察到,在关心他人和自私自利之间存在一个最佳点,最终使群体中的所有车辆受益。

G.深度网络和泛化

我们对第四节中介绍的网络结构进行了训练,并检验了它们对初始化随机性范围更广的测试事件的概括能力,图9显示了网络的训练性能。

智能体



图8:调整自主智能体的SVO表明,在关心他人和自私之间存在一个最佳点,最终有利于群体中的所有智能体。

智能体


 

图9:三种基准网络结构的训练性能。

当在初始化随机性范围与训练相同的情节中进行测试时,所有网络都表现出可接受的性能。然而,当随机范围增加,代理人面临与他们在训练期间看到的不同的情节时,他们的表现迅速下降,如表I所述。虽然其他网络在训练过程中表现出色,但我们的Conv3D架构在更多样化的测试场景中明显优于他们。我们得出的结论是,使用VelocityMaps和我们的Conv3D架构,智能体学会了处理更复杂的看不见的驾驶场景。表二列出了我们用来训练Conv3D架构的超参数。

公式(6)中定义的占用网格状态空间表示,在我们的特定驾驶问题中,与VelocityMap表示相比,在所有神经网络架构中表现出较差的性能。我们推测,这是因为占用网格表示没有受益于VelocityMap状态表示中嵌入的道路布局和视觉线索。 

我们前面讨论的所有实验都是用VelocityMap表示的,除非另有说明。在调优VelocityMaps之后,我们得出结论,在状态表示中集成一个硬的自我注意映射并没有显著的增强,并决定放弃这个通道,将通道的数量减少到4个。取而代之的是,我们将速度地图的中心与自我对齐,使30%的观察框反映自我后面的范围,其余的显示前面的范围。我们注意到这个参数在训练收敛和产生的行为中起着重要的作用,因为它使智能体能够在任务车辆和其他车辆接近之前看到它们。

VI.结束语

我们解决了在混合自动驾驶环境中的自动驾驶问题,在这种环境中,自动驾驶车辆与人类驾驶的车辆进行互动。我们在MARL框架中加入了合作共鸣的奖励结构,并训练出相互合作的智能体,共情人类驾驶的车辆,因此与自我训练的智能体相比,在竞争性的驾驶场景中,如高速公路并线,表现出更高的性能。

表一:  相关架构的性能比较。随着随机程度的增加,我们的Conv3D架构表现优于其他架构,智能体面临着与他们在训练期间看到的不同的情节。

智能体

表二:我们的Conv3DQ网的超参数列表

智能体

局限性和未来的工作。我们目前的奖励结构包括一个手工制作的标记,这取决于驾驶场景,例如,合并或退出高速公路。考虑到不同的驾驶事件,这个标记也可以从交互数据中学习,从而减少对特定任务奖励项的需求。我们认为合并场景代表了我们观察到的许多常见交互场景,包括其他需要两个智能体调节速度和相互协调的行为,例如退出高速公路。我们只在相同的场景中对训练和测试代理进行了实验,并没有在不同的场景中对它们进行交叉验证。我们希望在未来将这项工作扩展到其他场景。我们相信,给定足够大的训练数据,智能体有望在一般驾驶场景中学习相同的利他行为。

审核编辑 :李倩

 

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分