本文介绍人类视觉系统的主要通路:腹侧通路(Ventral Pathway)负责物体识别和分类,背侧通路(Dorsal Pathway)负责运动识别和控制。
本文最后对比解读人类视觉双通路和用于视频物体识
本文介绍人类视觉系统的主要通路:腹侧通路(Ventral Pathway)负责物体识别和分类,背侧通路(Dorsal Pathway)负责运动识别和控制。
本文最后对比解读人类视觉双通路和用于视频物体识别的双通路卷积网络(Two-stream Convolutional Networks)。
在上一篇“人工智能探索——浅谈人类神经网络的复杂性”[1]阅读原文文章中,我们初步介绍了人类视觉系统的主要构成,以孔径问题(Aperture Problem)和边缘所有权(Border Ownership)问题为例,介绍了视觉皮层V1、V2和MT(V5)的部分功能。文章末尾对比了人类视觉系统和深度神经网络构建的计算机视觉模型,提出四点不同。
灵长目视觉系统 Figure from Ref[2]
本文将继续介绍人类视觉系统的其他部分,重点讲解腹侧通路(Ventral Pathway,VP)和背侧通路(Dorsal Pathway,DP)两条主要通路。简单来说,VP通过感知边缘(Edge)、双目视差(Binocular Disparity)、曲率(Curvature)、颜色、光亮等特征实现物体识别(Object Recognition)[2];DP通过局部运动(Local Motion)、速度梯度(Motion Gradient)、光流(Optical Flow)等信息实现运动识别(Action Recognition)[3]。受此启发,牛津大学(University of Oxford)的Andrew Zisserman教授设计了双通路卷积网络(Two-stream Convolutional Networks)用于视频中的物体识别[4],在本文最后我们将给予解读。
视觉皮层功能和等级性
在人类视觉系统的众多特点中,高度的等级性(Hierarchy)是最主要的一点[2]。这种等级性不光停留在神经元细胞分层上,更体现在以下多个方面:一、不同功能层具有不同的细胞类型,而非同一种神经元细胞简单的多层重复;二、神经元细胞层间有较明确的界限,比如外侧膝状体核(Lateral Geniculate Nucleus,LGN)具有六层神经元细胞;三、视觉信号从低层向高层映射,对应的神经元细胞感受野逐层增大;四、不同层次处理的视觉信号由简单到复杂、由局部到整体,具有可解释性;五、层内信号传播速率比跨层传播高一个数量级[5],所以在时域上依然保留了信号先后到达的等级性。
人类视网膜(Retina)上的光感受器(Photoreceptor)主要有两种,视锥细胞(Cone Cell)和视杆细胞(Rod Cell)。同样位于视网膜上的神经节细胞(Ganglion Cell)收集光感受器的光强和颜色信号,经过视交叉(Optic Chiasm)传递给外侧膝状体核LGN。LGN左侧的皮层收集来自于双眼的右侧视野信号,LGN右侧的皮层收集双眼左侧视野信号。LGN对颜色变化和时域变化进行初步加工,为边缘检测(Edge Detection)和运动检测(Motion Detection)做准备。另外,双眼的信号在LGN依然是分离的,未对双目视差进行处理。
V1信号 Figure from Ref[2]
初级视觉皮层V1的功能包括识别边缘(Edge)、短线条(Bar)和线条终点(Interest Point)。V1还对双目视差做计算,获得初步的景深信息。小部分V1神经元对于特定方向的运动响应,这些信息最终映射到中颞叶(Middle Temporal lobe,MT,或V5),这一点在上一篇文章[1]孔径问题有介绍。V1神经元还能识别亮点和背景之间的颜色差别。
V2信号 Figure from Ref[2]
V2层神经元可以识别材质变化和边缘信息。V2还处理相对视差(Relative Disparity),和V3层一起提供更多立体的信息。V2和V3还能识别一定的全局运动信息(Global Motion)[6],以前普遍认为MT直接接受来自V1的局部运动信息,最新研究结果发现MT还通过V2、V3间接接受来自V1的运动信息。
腹侧通路VP
位于中层皮质区(Midtier Cortical area)的V4主要向VP映射信号,对于物体识别至关重要[7]。V4可以识别不同曲率和颜色亮度变化。与V2相比,V4的感受野更大,处理信号包含参照物信息。尽管V4主要参与VP,仍然有近三分之一的V4神经元对方向敏感,这可能和在运动的情况下区分边界、完成物体背景分离有关(下图D)。
V4参与物体识别的场景 Figure from Ref[7]
与V2、V3不同的是,V4接收更多来自高等皮层的反馈(Feedback,或Top-down)信号。在视觉注意(Visual Attention)这一现象中,反馈信号对特定区域的前馈(Feedforward,或Bottom-up)信号进行增强,进而改变感知。我们还会专门写文章介绍这一现象。
腹侧通路VP主要位于下颞叶皮层(Inferior Temporal Cortex,IT)。2005年,MIT的Tomaso Poggio和JamesJ. DiCarlo两位知名神经和计算科学家共同发表文章[8],实验同时监控了两只猕猴IT区域的256个位点的神经元电信号。实验人员给猕猴展示了8大类别的77个不同物体图片,每个物体重复10次。下图为其中5个物体和3个位点的信号。基于256个位点的信号训练的线性分类器,在交叉验证的情况下,可以做到94±4%的分类准确度,和72±3%的识别物体准确度。实验证实腹侧通路在IT区域完成了物体识别和分类的功能。
Figure from Ref[8]
背侧通路DP
MT区与运动感知深度相关,超过90%的MT神经元识别时域信号,其感受野约为V1的十倍,所以MT有能力感知更大范围的运动[9]。MT还能感知双目视差和景深,这有助于在三维空间识别物体和运动。另外MT还负责控制眼球运动,和内侧颞上区(Medial Superior Temporal area,MST)协同眼球转动[2]。
背侧通路DP位于运动额叶(Premotor Area in Frontal Lobe),主要接收MT和V3A的信号,包括6个功能区:MST、CIP、LIP、VIP、MIP和AIP。MST神经元可以检测图案的放大和旋转运动,还能感知光流,进而检测自我运动(Self-motion)。在眼球转动的瞬间,一些MST神经元抵消自运动方向上的信号。顶叶内尾区(Caudal Intraparietal area,CIP)识别倾斜的平面,同时在眼球扫视(Saccade)的运动中,CIP神经元停止响应。
侧壁内区(Lateral Intraparietal area,LIP)位于视觉皮层和运动皮层之间,同时接收来自VP和DP的信号,向额叶的运动中枢映射。LIP是协调视觉和运动的核心区域,同时参与高等认知活动,比如形成决策(Decision Formation)、处理奖励(Reward Processing)、计时(Timing)、分类(Categorization)、运动计划(Motor Planning)、专注(Attention)等等。
腹壁内区(Ventral Intraparietal area,VIP)神经元接收来自视觉、听觉、触觉和前庭体感的多模态(Multimodal)信号。VIP的感受野超出视觉,还包括近身周边空间(Near-extrapersonal Space)。VIP很有可能负责头部运动的控制。MST,CIP,LIP和VIP都参与到了眼球扫视运动中,我们将写专题介绍相关机理。
灵长目视觉系统功能区和通路 Figure from Ref[2]
内侧顶叶内区(Medial Intraparietal area,MIP)编码了运动计划。当肢体按照运动计划,向目标方向移动的时候,MIP神经元会响应。如果肢体运动偏离运动计划,MIP神经元则不响应。顶叶内前区(Anterior Intraparietal area,AIP)对于手部运动和抓取物体响应。
双通路卷积网络
人类视觉系统为什么形成两条通路,分别处理空间和时域信号?背后的机理是什么?我们相信这是一个经过长期进化形成的高效的视觉系统。2014年,牛津大学的Andrew Zisserman教授借鉴人类视觉系统的双通路机制,设计了双通路卷积网络(Two-stream Convolutional Networks)用于视频中的物体识别[4]。该模型分为空间通路(Spatial stream,SS)和时域通路(Temporal stream,TS),SS采用AlexNet,并预先在ImageNet数据库训练[10]。
Figure from Ref[4]
TS采用未经训练的AlexNet,输入数据为视频帧与帧间的光流信息(Optical Flow Displacement Field)。文章尝试了两种不同的计算方法(严谨定义参考原文[4]公式):
Optical flow stacking:像素点在两个相邻帧之间的位移向量,分为x轴和y轴两个方向上的数值。L组相邻帧构成2L帧光流数据,按照xyxy间隔排列输入。Trajectory stacking:找到某一像素点的运动轨迹,将同一轨迹中位移向量堆叠。Figure from Ref[4]
在视频数据集UCF-101上分别评估Spatial ConvNet和Temporal ConvNet,经过ImageNet ILSVRC-2012数据集预训练的Spatial ConvNet明显好于直接用UCF-101视频数据集训练的情况(下图a)。由于视频数据集远远少于图像数据集,双通路卷积网络的Spatial ConvNet使用预训练的CNN比其他用视频数据集训练的Video CNN更有优势。
对于Temporal ConvNet,采用不同计算光流的方法用UCF-101视频数据集训练,使用dropout ratio=0.9。实验结果显示(下图b),Optical flow stacking略好于Trajectory stacking计算方法;L=10的情况下提供了更长期运动信息,略好于L=5、1的情况;Temporal ConvNet明显优于Spatial ConvNet,这证实了运动信息对于视频中物体识别的重要性。
Figure from Ref[4]
文章最后合并Spatial和Temporal ConvNet的softmax scores,用线性支持向量机(Linear SVM)计算双通路网络的最后一步。由于AlexNet是针对图像物体识别的网络,采用AlexNet构建的双通路卷积网络未针对视频物体识别修改网络。双通路卷积网络使用更小的视频训练数据集,和针对视频物体识别设计的最好的深度模型结果相当。
Figure from Ref[4]
总结
人类视觉系统是经过数亿年进化形成的复杂感知系统,由于继承了人类之前整个进化分支上累积的成果,人类视觉可以应对纷繁复杂的环境,而且精准、高效、可调控。人工智能算法在感知领域长期借鉴人类视觉系统的设计,从感知器到深度神经网络,本文介绍的双通路卷积网络不过是众多成功案例之一。笔者相信,在设计AI算法遇到困难的时候,参考生命系统智能的机理,依然是想法最好的来源。随着认知科学和脑机交互工程的进展,更多关于生物智能的发现将继续推进人类对AGI的探索。
参考文献:
[1] 阅读原文:人工智能探索——浅谈人类视觉系统的物体识别. 07-10-2019.
[2] Norbert Kruger, Peter Janssen, Sinan Kalkan, Markus Lappe, Ales Leonardis, Justus Piater, Antonio J. Rodríguez-Sánchez and Laurenz Wiskott. Deep Hierarchies in the Primate Visual Cortex: What Can We Learn for Computer Vision? IEEE Trans Pattern Anal Mach Intell. 2013 Aug;35(8):1847-71. doi: 10.1109/TPAMI.2012.272.
[3] Sharon Gilaie-Dotan. Visual motion serves but is not under the purview of the dorsal pathway. Neuropsychologia. 2016 Aug;89:378-392. doi: 10.1016/j.neuropsychologia.2016.07.018. Epub 2016 Jul 18.
[4] Karen Simonyan, Andrew Zisserman. Two-Stream Convolutional Networks for Action Recognition in Videos. arXiv:1406.2199
[5] Oliver W. Layton, Ennio Mingolla andArash Yazdanbakhsh. Dynamic Coding of Border-ownership in Visual Cortex. J Vis.2012 Jan 1;12(13):8. doi: 10.1167/12.13.8.
[6] Michele Furlan and Andrew T. Smith. Global Motion Processing in Human Visual Cortical Areas V2 and V3. J Neurosci. 2016 Jul 6;36(27):7314-24. doi: 10.1523/JNEUROSCI.0025-16.2016.
[7] Anna W. Roe, Leonardo Chelazzi, Charles E. Connor, Bevil R. Conway, Ichiro Fujita, Jack L. Gallant, Haidong Lu and Wim Vanduffel. Toward a unified theory of visual area V4. Neuron. 2012 Apr 12;74(1):12-29. doi: 10.1016/j.neuron.2012.03.011.
[8] Chou P. Hung, Gabriel Kreiman, Tomaso Poggio and James J. DiCarlo. Fast readout of object identity from macaque inferior temporal cortex. Science. 2005 Nov 4;310(5749):863-6.
[9] Christopher C. Pack and Richard T. Born. Temporal dynamics of a neural solution to the aperture problem in visualarea MT of macaque brain, Nature. 2001 Feb 22;409(6823):1040-2.
[10] Alex Krizhevsky, Ilya Sutskever, and Geoffrey E. Hinton. ImageNet classification with deep convolutional neural networks. InNIPS, pages 1106–1114, 2012.
德国研究团队给出一个原因,这个原因出乎意料:人类会关注图中对象的形状,深度学习计算机系统所用的算法不一样,它会研究对象的纹理。
首先人类向算法展示大量图片,有的图片有猫,有的没有。算法从图片中找到“特定模式”,然后用模式来做出判断,看看面对之前从未见过的图片应该贴怎样的标签。
神经网络架构是根据人类视觉系统开发的,网络各层连接在一起,从图片中提取抽象特点。神经网络系统通过一系列联系得出正确答案,不过整个处理过程十分神秘,人类往往只能在事实形成之后再解释这个神秘的过程。研究人员修改图片,欺骗神经网络,看看会发生什么事。研究人员发现,即使只是小小的修改,系统也会给出完全错误的答案,当修改幅度很大时,系统甚至无法给图片贴标签。还有一些研究人员追溯网络,查看单个神经元会对图像做出怎样的反应,理解系统学到了什么。
德国图宾根大学科学家Geirhos领导的团队采用独特方法进行研究。去年,团队发表报告称,他们用特殊噪点干扰图像,给图像降级,然后用图像训练神经网络,研究发现,如果将新图像交给系统处理,这些图像被人扭曲过(相同的扭曲),在识别扭曲图像时,系统的表现比人好。不过如果图像扭曲的方式稍有不同,神经网络就无能为力了,即使在人眼看来图像的扭曲方式并无不同,算法也会犯错。当你在很长的时间段内添加许多噪点,图中对象的形状基本不会受到影响;不过即使只是添加少量噪点,局部位置的架构也会快速扭曲。研究人员想出一个妙招,对人类、深度学习系统处理图片的方式进行测试。
算法将图像分成为小块,接下来,它不会将信息逐步融合,变成抽象高级特征,而是给每一小块下一个决定,比如这块包含自行车、那块包含鸟。再接下来,算法将决定集合起来,判断图中是什么,比如有更多小块包含自行车线索,所以图中对象是自行车。算法不会考虑小块之间的空间关系。结果证明,在识别对象时系统的精准度很高。