事件相机会是计算机视觉领域的革命性技术吗?

事件相机会是计算机视觉领域的革命性技术吗?

计算机视觉会再次发生技术变革吗?


匹兹堡大学眼科教授、CMU机器人研究所兼职教授Ryad Benosman认为答案是肯定的。作为基于事件的视觉技术的奠基人之一,Benosman预计神经形态视觉(基于事件相机的计算机视觉)是计算机视觉的下一个方向。


他说:“计算机视觉已经被重新发明了很多很多次。我已经看到它至少被重新发明了两次,从无到有,从零开始。”


Benosman列举了20世纪90年代从带有一点摄影测量的图像处理到基于几何学方法的转变,然后是今天向机器学习的快速转变。尽管有这些变化,现代计算机视觉技术仍然主要基于图像传感器,产生类似于人眼所见的图像的相机。


据Benosman说,除非图像传感范式不再有用,否则它会阻碍替代技术的创新。这种影响因高性能处理器(如GPU)的发展而延长,这些处理器推迟了寻找替代解决方案的需要。


他说:“我们为什么要在计算机视觉中使用图像?这是个百万美元的问题。首先,我们没有理由使用图像,这只是因为有历史的惯性。甚至在有相机之前,图像就有了势能。”


图像相机

自公元前5世纪出现针孔相机以来,图像相机就一直存在。到了15世纪,艺术家们建造了房间大小的设备,用来在画布上描摹房间外的人或风景。随着时间的推移,画作被胶片所取代,用来记录图像。数字摄影等创新最终使图像相机很容易成为现代计算机视觉技术的基础。


然而,Benosman认为,基于图像相机的计算机视觉技术是非常低效的。他将其比作中世纪城堡的防御系统:驻守在城墙周围的士兵从各个方向注视着接近的敌人。鼓手打着稳定的节拍,每敲一下,每个守卫就会大声喊出他们所看到的东西。在所有的呼喊声中,听到一个守卫在远处森林边缘发现敌人发出的声音会有多容易?


21世纪相当于鼓点的硬件是电子时钟信号,而卫兵是像素,每一个时钟周期都会产生一大批数据并必须进行检查,这意味着有大量的冗余信息和大量不必要的计算需要。


Prophesee公司与索尼合作开发的DVS传感器的评估套件


Benosman说:“人们消耗了如此多的能量,它占据了整个城堡的算力来保卫自己。如果发现了一个有趣的事件,在这个比喻中以敌人为代表,你就必须到处去收集无用的信息,人们四处尖叫,所以带宽非常巨大……现在想象一下你有一个复杂的城堡。所有这些人都必须被听到。”


进入神经形态视觉。其基本理念是受生物系统工作方式的启发,检测场景动态的变化,而不是连续分析整个场景。在我们的城堡比喻中,这将意味着让守卫保持安静,直到他们看到感兴趣的东西,然后喊出他们的位置,发出警报。在电子版本中,这意味着让单个像素决定它们是否看到了相关的东西。


他说:“像素可以自己决定他们应该发送什么信息,而不是获取系统信息,他们可以寻找有意义的信息,即特征。这就是与众不同之处。”


与固定频率的系统采集相比,这种基于事件的方法可以节省大量的功耗,并减少延迟。


他说:“你想要一些更加自适应的东西,这就是基于事件的视觉的相对变化给你带来的东西,一个自适应的采集频率。当你观察振幅变化时,如果某些东西移动得非常快,我们会得到很多样本。如果某些东西没有变化,你会得到几乎为零的样本,所以你是根据场景的动态来适应你的采集频率。这就是它所带来的好处。这就是为什么它是一个好的设计。”


Benosman在2000年进入神经形态视觉领域,确信先进的计算机视觉永远不可能成功,因为图像不是正确的方法。


他说:“巨大的转变是说我们可以在没有灰度和没有图像的情况下做视觉,这在2000年底还完全是异端邪说。”


Benosman提出的技术(基于事件的传感技术的基础)是如此不同,以至于当时提交给最重要的IEEE计算机视觉杂志的论文未经审查就被拒绝了。事实上,直到2008年开发出DVS(Dynamic Vision Sensor)后,该技术才开始获得发展势头。


一些Prophesee客户的应用显示了图像摄像机和DVS传感器输出之间的差异


神经科学的灵感

神经形态技术是那些受到生物系统启发的技术,包括终极计算机,大脑及其计算元素,神经元。问题是,没人完全了解神经元的确切工作原理。虽然我们知道神经元对传入的称为spike的电信号起作用,但直到最近,研究人员将神经元描述为非常草率,认为只有spike的数量才重要。这种假说持续了几十年。最近的研究已经证明,这些spike的时间是绝对关键的,大脑的结构在这些spikes中制造延迟来编码信息。


今天的spiking神经网络,模拟大脑中看到的spike信号,是真实事物的简化版本,通常是spike的二进制表示。Bnosman解释说:“我收到一个1,我醒来,我计算,我睡觉。现实要复杂得多。当一个spike出现时,神经元开始随时间对spike的值进行积分;还有来自神经元的渗漏,意味着结果是动态的。还有大约50种不同类型的神经元,有50种不同的整合模式。今天的电子版本缺少动态的整合路径,神经元之间的连接,以及不同的权重和延迟。”


他说:“问题是要做一个有效的产品,你无法模仿所有的复杂性,因为我们不了解它。如果我们有好的大脑理论,会解决这个问题。问题是我们只是知道的不够多。”


今天,Benosman经营着一个独特的实验室,致力于了解皮质计算背后的数学,目的是创建新的数学模型,并将其复制为硅器件。这包括直接监测来自真实视网膜碎片的spike。


目前,Benosman反对试图忠实地复制生物神经元,他认为这种方法已经过时。


他说:“在硅中复制神经元的想法是由于人们看着晶体管,看到一个看起来像真正的神经元的区域,所以一开始就有一些想法。我们没有细胞,我们有硅。你需要适应你的计算基板,而不是相反……如果我知道我在计算什么,我有硅,我可以优化这个方程,以最低的成本、最低的功耗、最低的延迟运行它。”


处理功耗

认识到没有必要完全复制神经元,再加上DVS相机的发展,是今天神经形态视觉系统背后的驱动力。虽然今天的系统已经在市场上出现,但在我们有完全类人视觉可供商业使用之前,还有一段路要走。


最初的DVS相机有“大而笨重的像素”,因为光电二极管本身周围的组件大大降低了填充系数。虽然对这些相机的开发投资加速了技术的发展,但Benosman明确表示,今天的事件相机只是对早在2000年开发的原始研究设备的改进。来自索尼、三星和Omnivision的最先进的DVS相机拥有微小的像素,融合了3D堆叠等先进技术,并减少了噪声。Benosman担心的是今天使用的传感器类型是否能成功地扩大规模。


他说:“问题是,一旦你增加了像素的数量,你就会得到大量的数据,因为你的速度仍然超快。你可能仍然可以实时处理它,但你从太多的像素中得到了太多的相对变化。现在,这让人非常沮丧,因为他们看到了潜力,但他们没有合适的处理器来支持它。”


通用的神经形态处理器落后于其DVS相机的同类产品。业界一些巨头(IBM Truenorth、英特尔Loihi)的努力仍在进行中。Benosman说,合适的处理器与合适的传感器将是一个无敌的组合。


Benosman说:“今天的DVS传感器速度极快,带宽超低,具有高动态范围,所以你可以看到室内和室外。这就是未来。它会成功吗?肯定会的。”


他补充说:“谁能推出处理器并提供完整的堆栈,谁就会胜出,因为它将是无可匹敌的。”