视频监控进入网络化、高清化之后,智能化已经成为安防技术竞争热点。视频监控前后端的智能分析正在安防行业得到逐步的应用,但鉴于二维建模分析原理的局限性,智能分析的准确度受限于应用场景的复杂程度及芯片处理器的性能等条件。很显然,在技术领域的垂直研发能力要解决现有的问题,并不是一件容易的事。那么,如果从二维的建模思维跳跃到三维的立体空间建模,会不会带来智能分析技术领域革新性的发展?北京格灵深瞳信息技术有限公司联合创始人兼CTO赵勇认为,基于三维深度视觉信号处理技术的视觉传感器网络,对于智能分析在场景应用中的准确率将从本质上得到提升,并解决用户对场景监控环境中获得人的轨迹行为的迫切需求。
a&s:目前二维的智能算法在场景应用中存在哪些问题?
赵勇:安防监控在过去的发展历程中主要是铺设备和提升摄像机的分辨率,但是这个过程给用户带来了巨大的痛苦——大多数安防监控的数据量更大了,而行为分析的能力没有得到提升。很多客户需要更智能的产品,那就是不需要人去监看,或者需要人去看的数据很少,所以这里蕴藏着非常强的市场需求,就是对人的行为的分析。我们知道,安防监控有很多的目标,但最重要的目标是人,很多客户希望行为分析里面能把人的行为看得很清楚。
人的行为分很多层次,有些是微观行为,比如人有没有在桌上拿走一张钱,或者他的眉毛有没有皱一下,这种非常细的行为,这样的行为分析目前还没有做。当前行业做的行为分析是基于人的轨迹进行分析,比如在银行里,有两种需求:第一种需求是在银行的营业厅里面,客户想知道秩序怎么样,每个人在干什么,有没有排队,有没有移动过快,有没有异常的接近、跌倒或其他激烈的动作。实践证明,如果在人群比较拥挤,人与人有遮挡等复杂的情况下,用二维的智能算法去做分析,精度非常差。
第二种需求是在银行内部的操作空间——敏感的现金区、ATM加钞间和金库。在这些地方客户有非常强的业务需求,比如在加钞间的款箱被打开的时候,监控画面要确保有两名工作人员来完成操作;在金库里面,人去了哪些地方,停留了多久……这些业务要求需要对人的行为进行检查和跟踪,再者如果人蹲了下去,或者人被遮挡了,摄像机还能精确检测到这个人是谁,那就要求对智能分析算法的精度比较高。当前传统的基于二维的智能算法,还不能满足这些具体的业务需求。
a&s:三维比二维的智能分析算法有哪些优势?
赵勇:要从根本上、光学上彻底解决二维智能算法准确率不高的难题,可以从三维计算机视觉去寻求突破。三维计算机视觉是采用了革命性的三维视觉传感器和三维视觉算法,实时捕捉和分析场景的三维信息,解决了传统二维图像中的相互遮挡、影随人动、比例混淆等问题,使得更高精确度和复杂度的智能分析成为现实。
相互遮挡的问题
我们知道,现在行业用的摄像机是二维的,成像原理是通过镜头达到小孔成像的原理,然后投影到一个二维的平面上,以前的平面是胶卷,现在是半导体芯片的数码相机。这个成像的过程本质是没有改变的,一个三维的世界,压扁之后放在一个平面上,从智能算法的角度分析,这个过程是造成准确度下降的核心。比如当两个人前后有遮挡时,那么在二维图形里面要把这两个人分开来,难度比较大。而三维的摄像机,首先传感器是不一样的,它捕捉的是三维图像,每一个像素都是有颜色的,还有这个像素代表的物体到相机的绝对距离。格灵深瞳现在研发出来的皓目摄像机有点像雷达,除了被动的成像,还向外主动的发射微波的微观红外图像,相当于在场景里发射出一束激光,打在物体上返回时携带了物体的几何信息。摄像机通过这种方式得到了立体的图像,知道什么东西在什么地方,它的结构是怎么样的。这种数据从本质上讲,给出了更丰富的信息,可以让摄像机去处理更复杂的场景,比如拥挤的场所,即使一个人被挡住了,他露出的部分,还是可以非常清晰地在图像里分析出来,这也是为什么在复杂的场景,三维的智能分析对人的跟踪远远比二维的要好。
影随人动的问题
其实,三维对光影变化的处理抗噪性特别的好,在视觉领域,有一个现象叫“影随人动”,当物体的影子比较强烈的时候,在二维的图像里面,影子会随着人的移动而跟着移动,所以要把影子与人分开很难,影子容易被误当做人。但是这个过程有一点是确定的,那就是影子始终是投影在背景上的,三维的传感器既然可以捕捉到物体的深度信息,所以即使有一个影子在背景上,摄像机也可以通过计算该影子与到相机的距离来分辨其是否在背景上,对整体的分析没有造成干扰。
比例混淆的问题
在图像里面,物体的大小与其实际大小并没有关系,因为它还取决于这个物体到摄像机的距离。但是在三维图像里面,可以很精确地知道,这个物体在什么地方,它有多大多小。三维的摄像机有一个绝对尺度的计算,有了绝对尺度之后,就可以做到大小、距离、加速度的测量等。但在二维相机里,没有绝对的尺度,所有的都是相对尺度,所以所有的测量都是相对的。因此三维摄像机对人的行为可以进行更精确的测量,比如人走了多少距离,速度多快,身高多少,在三维分析里面都有非常准确的测量。
a&s:三维摄像机在研发过程中有什么难题
赵勇:这个问题分两个方面,首先从硬件上讲,这是一个更复杂的产品,看皓目产品,表面上看是有三个摄像机,其实是两个摄像机加一个投影仪。投影仪是把红外激光的影像进行投影。另外的两个摄像机,一个是色彩摄像头,一个是红外摄像头,红外摄像头就与投影仪相互配合,进行深度算法分析。
其次,从软件上分析,相比二维更为复杂,表现在对人的暴力程度、跌倒行为需要有更深度、精确的算法分析。运算量越大,消耗的就越多。
另外,当前的产品应用,主要在室内,室外的产品也在研发当中,室内与室外最大的差别在于成像原理,格灵深瞳第一代的产品,是基于红外结构光谱基础成像,发出的红外光如果在室外,就容易被太阳光冲淡。现在的产品在阴晴的气候环境下也可以工作,但在强光下就无法工作,所以要在室外工作,必须要在成像原理上做突破。
a&s:三维摄像机的芯片处理能力如何?
赵勇:三维摄像机的智能分析核心是在前端进行人的轨迹跟踪分析,同时在后端也开放了SDK,将SDK里面的内容传到后台的服务器,客户可以根据业务需求在SDK的基础上进行二次开发。
皓目芯片处理器是英伟达(NVIDIA)的TK1芯片(处理能力属于因特尔i3级别),除了四核的处理器外,它还拥有GPU处理器(192个平行处理器),所以这个产品高度的联合使用了CPU与GPU的功能特点,这款芯片虽然比传统的芯片贵很多,但是在这么大的芯片上,通过不到十几瓦的功率,拥有总共加起来196个处理器的处理能力。现在这款产品的功耗是在12瓦以下,取决于监控场景的复杂程度。
a&s:三维摄像机的建模是怎样的?
赵勇:三维摄像机产品模型是三维模型,一种是三维的背景模型,在使用的场景中,热点和热区都是属于三维的,以前二维只能是在平面上画一个禁区,问题是有时候人根本没有进入禁区,但是当人遮挡禁区的时候就会产生误报,三维的背景模型可以设一个球形、立方形,只要物体没有进入这个立方形的几何边界,它就不会报警。
第二个是前景建模,就是对所看到的物体进行形态的分析,比如一个人拉着一个箱子或者推着一个车,三维摄像机看到的每个物体都会用深度学习判断这个东西到底是不是人。英伟达(NVIDIA)为了训练出一个深度可靠的模型,调用了上百万个人的图像样本,通过深度神经网络,对人的神态、发型、方向、光照条件、手势等进行判断。
a&s:在构建数据结构化、云计算方面如何?
赵勇:三维摄像机未来应该是一个数据结构化的产品,在录像中每个人从影像出来的轨迹,都会变成结构化的数据存储到后台的服务器,而后台服务器的架构是标准的云计算的架构。事实上格灵深瞳的三维摄像机里面都使用了云计算的容器系统Docker,每个摄像机自身就是一个云的Docker,三维摄像机安装在银行时,由于银行都使用了标准的服务器结构,运营起来不会有问题。而对于零售机构的后台服务器,因为直接可以部署在云端,所以在开始设计时,就是按照兼容云的结构去研发。
a&s:未来三维摄像机的应用将朝什么方向发展?
赵勇:平安城市或者智慧城市建设,就是希望把单个摄像机所产生的非结构化数据进行链接起来。格灵的三维摄像机有一个功能“活地图”,比如一个地方有一百个摄像机,拥有一百个画面。我们不是给他们看一百个画面,而是给他看一个画面。里面每一个人的存在和移动都变成了一个小点,客户只要看一张图就可以知道这个场所发生了什么事情——人都在哪些地方,哪些地方人多、人少,白天的时候,客户就可以利用这些信息对流量进行精确的控制;夜晚的时候,就是安全需求,当有任何人闯进空间时,客户就可以对闯入者的位置、行为进行监控。这就是我们近期追求的目标,把海量的视频数据查阅转变成看一张图。更长远的目标是进行人的识别——身份识别和人脸识别。
三维摄像机的身份识别,要做到当一个人离开一个摄像机进入另外一个摄像机时,三维摄像机能把他识别出来,也就是要判断和确定两个摄像机里面出现的是同一个人。而在人脸识别方面,虽然当前的安防监控行业在人脸识别中有了初级的应用,但是深度的识别还没有成功。