中美研究人员使用生成对抗网络提高驾驶模拟的真实感
时间:2025-01-08 22:56:13 浏览量:0
盖世汽车讯 据外媒报道,在产生逼真POV驾驶场景的新挑战中,俄亥俄州立大学(Ohio State University)电气与计算机工程系和重庆长安汽车有限公司的研究人员开发出一种混合方法,通过将基于CycleGAN(Generative Adversarial Networks,对抗网络)的系统的更逼真输出与更传统方式生成的元素混合,可提高驾驶仿真器的真实性。其中传统生成的元素需要更高级的细节和一致性,例如道路标记和从驾驶员的角度观察到的实际车辆。
该系统被称为混合生成神经图形(HGNG),将基于CGI的传统驾驶模拟器的高度有限的输出注入,而NVIDIA SPADE框架负责GAN管道的环境生成工作。
研究人员称,该系统的优势在于驾驶环境可能会变得更加多样化,从而创造出更加沉浸的体验。就目前而言,即使将CGI输出转换为照片级神经渲染输出也无法解决重复问题,因为进入神经管道的原始素材会受到模型环境的限制,以及重复纹理和网格趋势的限制。
研究论文中描述道:传统驾驶仿真器的保真度取决于其计算机图形管道的质量,而管道由3D模型、纹理和渲染引擎组成。高质量的3D模型和纹理需要精湛的技艺,而渲染引擎必须运行复杂的物理计算,以实现光照和阴影的真实表现。
研究人员对Conditional GAN(cGAN)和CYcleGAN(CyGAN)作为生成网络进行了实验,最终发现各有优缺点:cGAN需要成对的数据集,而CyGAN不需要。然而,CyGAN目前无法超越传统仿真器中的最新技术,需要等待领域适应和循环一致性的进一步改进。因此凭借其额外的配对数据要求,cGAN目前获得了最佳成果。
为了测试该系统,研究人员使用在Cityscapes上训练的SPADE将场景的语义布局转换为逼真的输出。CGI源来自开源驾驶模拟器CARLA,采用虚幻引擎4(Unreal Engine 4,UE4)。
UE4的着色和照明引擎提供语义布局和部分渲染的图像,仅输出车辆和车道标记。混合是通过在瞬态属性数据库上训练的GP-GAN实例实现,且所有实验都在具有8 GB GDDR6 VRAM的NVIDIA RTX 2080上运行。
研究人员测试了语义保留,即输出图像与作为场景模板的初始语义分割掩码相对应的能力。为了评估真实度,研究人员使用Frechet初始距离(Frechet Inception Distance,FID)作为性能指标,因为它可以对配对数据或非配对数据进行操作。
三个数据集被用作基本事实:Cityscapes、KITTI和ADE20K。使用FID分数和基于物理(即CGI)的管道将输出图像相互比较,同时还评估了语义保留。
在上述与语义保留相关的结果中(分数越高越好),基于CGAN金字塔的方法(研究人员测试的几个管道之一)得分最高。
该论文最后提出,可以通过使用更大的城市数据集来提高GAN生成的渲染管道部分的时间一致性,并且未来在可以为基于CGI流的昂贵神经转换提供真正的替代方案,同时提供更大的真实感和多样性。