近日,智能车实验室博士生Pablo Rodrigo Gantier Cadena在图像处理顶级期刊IEEE Transaction on Image Processing(简称TIP)上发表长文SPADE-E2VID: Spatially-Adaptive Denormalization for Event-Based Video Reconstruction。
该工作主要是事件相机的图像重建。事件相机是一种新型传感器,它的每一个像素都充当一个单独的传感器,每当感知到的亮度发生变化时就会发出信息。由于以上特性,事件相机具有高动态范围(HDR)的优势,普通相机的动态范围为60dB,而事件相机则为120dB,如图1所示,事件相机没有运动模糊同时具有非常高的刷新率。
(a) (b)
图1:图(a)是普通相机(华为P20 pro)拍摄的图像,图(b)是事件相机重建的图像(可以通过HDR观察到细节)
虽然事件相机具有HDR、无运动模糊,几乎连续的高刷新率等优势,但是它也有自己的劣势。由于其每个像素仅捕获光的变化,因此所生成的图像仅包含边缘,类似图像的导数,与应用在(x, y)轴上的Sobel滤波器生成的图像很相似,如图2所示。
(a) (b). (c)
图2:图(a)是重建图像,图(b)是事件相机生成的图像,图 (c) 是Sobel滤波器生成的图像
理论上,由于这个特性,可以对事件相机生成的图像进行数学积分来恢复所有像素的值。但实际上,事件相机存在很多内部噪声。不过近年来由于神经网络的使用,这个问题得到了解决。开展基于事件的高质量视频重建的第一个工作是E2VID。 SPADE-E2VID基于E2VID,并做出了一些有趣的改进。我们在第一帧中进行了更好的重建,如图3所示,并减少了训练时间,增加了对比度和时间一致性;并且使用非极性事件进行图像重建。
图3:SPADE-E2VID和E2VID的前5帧的结果比较
具体来说,SPADE-E2VID是一个RNN采用之前生产的图像 并将像素转换(调制)为照片般逼真的图像。如图4所示,Batch Normalization以一种特殊的方式使用,调节γ和 β 参数根据先前的图像调制(denormalizing)新的重建图像。此外,SPADE-E2VID 使用many-to-one训练模式,将训练时间减少了 40%。类似于风格转移的概念,利用之前网络生产的图像风格 用于生成当前图像 ,这个过程提高了时间一致性;同样,也增加了图像对比度,可通过图5中的直方图来展示此效果,也可在演示视频查看。
图4:空间归一化的SPADE层,利用图像k-1的像素调制图像k的像素的生成
图5:SPADE-E2VID和E2VID的直方图比较
有几种类型的事件相机,一些事件相机具有更高的分辨率(CeleX5为1M像素),但不能产生极性数据。SPADE-E2VID 的另一个贡献是使用非极性事件进行图像重建。不过由于它生成的事件没有极性,因此在没有光信号方向的情况下执行图像重建按照数学理论是不可以的。但是我们的方法可以执行图像重建,然后在这些图像重建上执行对象检测和分类任务,如图6所示。
图6:使用CeleX5 事件相机的非极性事件的图像重建。基于YOLOv4目标检测算法,引人注目的是所有的狗都被识别为猫。
作者姓名:Pablo Rodrigo Gantier Cadena, Yeqiang Qian, Chunxiang Wang, Ming Yang
作者单位:上海交通大学
项目代码:https://github.com/RodrigoGantier/SPADE_E2VID
训练数据:http://rpg.ifi.uzh.ch/data/E2VID/datasets/ecoco_depthmaps_test.zip
演示视频:https://www.bilibili.com/video/BV13q4y1L7GR?share_source=copy_web