随着人工智能的飞速发展,无人驾驶和具身智能等无人系统正走进我们的现实生活。“视觉感知”是无人系统获取信息的核心途径,通俗地说,它们好比“眼睛”,负责对复杂的环境作出感知。如何实现“视觉感知”高效、精确、低延时,挑战着全球科学界。日前,清华大学科研团队研发出“类脑”视觉感知系统,有望为无人系统等应用提供更加安全、高效的解决方案。
5月30日,国际学术期刊《自然》杂志封面文章刊发了清华大学科研团队的最新科研成果,互补通路的类脑视觉感知系统,即模仿人类感知外界的机制发展的系统。
清华大学类脑计算研究中心主任施路平:比如说突然飞来一个东西,我们人其实没看清,但是我们知道来躲闪,我们是调动全身的力量去处理这一件事情。现有的视觉感知系统不是这样,它一定要采集完整数据,它才能够进行决策,我们提供了一个新的解决方案。
科研人员告诉记者,目前已有的无人驾驶等技术应用的视觉感知系统,大都是通过捕捉分析大量原始数据,再进行决策判断,受到硬件系统的约束,会出现延时、失真等问题,影响无人系统的安全性。而人眼有一个双通路系统,两个通路可以分别处理不同的信息,结合起来就能够高效应对不同的场景,这就是互补通路特点。目前清华大学科研团队研发的类脑视觉感知系统,正是对人的视觉系统的仿生,让机器学习在没有完全看清的情况下也可以做出正确决定。
眼前这个实验,可以直观看出在互补通路类脑视觉感知系统带来的变化。一个每分钟旋转500次的二维码,摄像机运用传统芯片拍摄出来的图像较为模糊,而加载了团队研发的类脑视觉感知系统后,拍摄下来的图像则可以清晰分辨内容。
清华大学精密仪器系博士生王韬毅:由于我们的芯片具有多通路互补的优势,我们在另外一条通路实现了非常高速的时间变化和空间变化,也叫“时空差分”拍摄,通过这个通路我们可以去实时在线重建出灰度的精确二维码信息,从而解码出二维码。
可实现高速 高精度 高动态范围视觉感知
在开放空间环境中,无人操作的智能系统在不仅要处理庞大的数据量,还需要应对各种极端事件,比如自动驾驶的汽车需要应对驾驶场景中的突发危险、隧道口的剧烈光线变化和夜间强闪光干扰等。针对这个问题,清华大学类脑计算研究中心团队借鉴人类视觉的机制,发展的新型类脑视觉感知系统,突破了“分辨率、速度和动态范围”相互制约的技术瓶颈。
基于“类脑”视觉感知系统,清华大学科研团队在降低90%的芯片带宽的情况下,实现了高速、高精度、高动态范围的视觉信息采集,突破了传统视觉感知范式的性能瓶颈,而且能够高效应对各种极端场景,确保系统的稳定性和安全性。
清华大学精密仪器系博士生王韬毅:我们在自动驾驶环境中最快可以实现0.1毫秒的延迟,对应来说就是万分之一秒,传统相机实现的是30毫秒的延迟,对应的话,我们延迟就是传统相机的1/300。
眼下,科研团队正在进行更深层次的人脑系统“仿生”,为下一步类脑感知系统大模型进行数据积累。
清华大学精密仪器系博士生王韬毅:包括视觉、听觉、触觉、嗅觉、味觉等等,这主要五个感觉来去利用类脑的原理来去发展类脑的五感的技术,最终希望它能够像人一样有多种感知。
编辑/朱葳