我们曾报道,谷歌的无人驾驶汽车已经能出门行驶了,但该车的许多技术却从未公布于众。最近,在西雅图举办的IEEE国际机器人与自动化大会(ICRA)上,与会者们见到一种新的安全设备,该设备十分难得一见,目前正由科技巨头谷歌研发。
Anelia Angelova是谷歌的一名高级研究员,从事计算机视觉和机器学习的研发工作。她展示了一种新的行人检测系统,该系统可单独处理视频影像。对于任何无人驾驶汽车来说,能识别,追踪和躲避行人是一项十分重要的功能。谷歌的车辆上就装满了激光雷达,无线电探测器和摄像机,以确保他们能够确定在数百米范围内的行人情况。
但一套感应器十分昂贵,光车顶上的一个旋转激光雷达装置就要花费将近10000美元(如果是多功能装置则花费得更多)。我们此前也专门分解过无人驾驶汽车的成本。如果自动汽车仅使用廉价的摄像机就能定位行人的话,这将大大降低成本,并且将有希望很快迎来一个机器自由操控汽车的时代。但摄像机有他们自己的问题。Angelova说到,“相较于雷达装置,视觉信息给你一个更广阔的视野,但处理速度却相对较慢。”
至少它曾经是这样的。最好的视频分析系统使用的是深层神经网络,这种机器学习算法可以被训练,从而能对图像信息(和其他类型的数据)进行十分准确的分类。深层神经网络依靠多个处理层,这些处理层位于输入层和输出层之间。为了进行图像识别,输入层会学习图像的像素特征,下一层则要学习这些功能的组合,并通过中间层,逐渐形成更加精密复杂的关系。输出层则负责推测系统在关注些什么。
现代深层网络可以在诸如人脸识别等任务方面胜人一筹,准确率超过99.5%。但Angelova解释道,传统的用于行人检测的深层网络速度很慢,它将每个街道图像划分为100000个甚至更多的小碎片,然后反过来对每个碎片进行分析。这可能需要几秒钟甚至几分钟每帧,使他们无法用于城市街道的巡视。使用这种网络的汽车无法对行人进行及时的探测,可能在它发现行人的时候就已经超了过去。
Angelova的新型高速行人检测器分为三个单独的阶段。
第一阶段是一种深层网络,相较于之前的成千上万的碎片而言,它只需将图像信息分割成几十块碎片,可在多个地点同时进行多项检测,从而对行人进行识别。
第二个阶段则是另一种网络,它能对识别结果进行改良。
第三阶段则是一种传统的深层网络,它将最终识别结果,即是否发现行人,进行传送。
由于这种缓慢准确的网络只对潜在图像的一小部分进行分析,所以整个处理过程就会进行得更快,大约要比之前的网络快60到100倍。Angelova说道,这些图形处理器的运行和谷歌的无人驾驶汽车十分类似,会对大约一天以内的街道图像进行反馈。然后,它可以在大约0.25秒左右的时间准确地识别行人。研究人员使用已知的行人图像数据库,而不是使用谷歌汽车的视频,因为这样他们可以将该结果同之前的网络进行比较。
Angelova承认:“事实上,目前还达不到能用于实际的0.07秒。”为了能安全采取行动,无人驾驶汽车需要在瞬间确认是否面对行人。“但这意味着倘若其他感应器失灵,新系统能做出及时的补充处理。”
随着更强大的处理器的出现以及神经网络容量的增加,Angelova预计该功能的效果将会显著提升。她说:“从更加广阔的视角来看待网络,你将能感受到更加快速的发展。”等到大家都能拥有无人驾驶汽车时,其独特的旋转激光雷达可能已经完全消失了。