北京青年报

如何实现“视觉感知”高效精确低延时？我国科研团队给出新方案

央视新闻客户端 2024-05-31 22:57

随着人工智能的飞速发展，无人驾驶和具身智能等无人系统正走进我们的现实生活。“视觉感知”是无人系统获取信息的核心途径，通俗地说，它们好比“眼睛”，负责对复杂的环境作出感知。如何实现“视觉感知”高效、精确、低延时，挑战着全球科学界。日前，清华大学科研团队研发出“类脑”视觉感知系统，有望为无人系统等应用提供更加安全、高效的解决方案。

5月30日，国际学术期刊《自然》杂志封面文章刊发了清华大学科研团队的最新科研成果，互补通路的类脑视觉感知系统，即模仿人类感知外界的机制发展的系统。

清华大学类脑计算研究中心主任施路平：比如说突然飞来一个东西，我们人其实没看清，但是我们知道来躲闪，我们是调动全身的力量去处理这一件事情。现有的视觉感知系统不是这样，它一定要采集完整数据，它才能够进行决策，我们提供了一个新的解决方案。

科研人员告诉记者，目前已有的无人驾驶等技术应用的视觉感知系统，大都是通过捕捉分析大量原始数据，再进行决策判断，受到硬件系统的约束，会出现延时、失真等问题，影响无人系统的安全性。而人眼有一个双通路系统，两个通路可以分别处理不同的信息，结合起来就能够高效应对不同的场景，这就是互补通路特点。目前清华大学科研团队研发的类脑视觉感知系统，正是对人的视觉系统的仿生，让机器学习在没有完全看清的情况下也可以做出正确决定。

眼前这个实验，可以直观看出在互补通路类脑视觉感知系统带来的变化。一个每分钟旋转500次的二维码，摄像机运用传统芯片拍摄出来的图像较为模糊，而加载了团队研发的类脑视觉感知系统后，拍摄下来的图像则可以清晰分辨内容。

清华大学精密仪器系博士生王韬毅：由于我们的芯片具有多通路互补的优势，我们在另外一条通路实现了非常高速的时间变化和空间变化，也叫“时空差分”拍摄，通过这个通路我们可以去实时在线重建出灰度的精确二维码信息，从而解码出二维码。

可实现高速高精度高动态范围视觉感知

在开放空间环境中，无人操作的智能系统在不仅要处理庞大的数据量，还需要应对各种极端事件，比如自动驾驶的汽车需要应对驾驶场景中的突发危险、隧道口的剧烈光线变化和夜间强闪光干扰等。针对这个问题，清华大学类脑计算研究中心团队借鉴人类视觉的机制，发展的新型类脑视觉感知系统，突破了“分辨率、速度和动态范围”相互制约的技术瓶颈。

基于“类脑”视觉感知系统，清华大学科研团队在降低90%的芯片带宽的情况下，实现了高速、高精度、高动态范围的视觉信息采集，突破了传统视觉感知范式的性能瓶颈，而且能够高效应对各种极端场景，确保系统的稳定性和安全性。

清华大学精密仪器系博士生王韬毅：我们在自动驾驶环境中最快可以实现0.1毫秒的延迟，对应来说就是万分之一秒，传统相机实现的是30毫秒的延迟，对应的话，我们延迟就是传统相机的1/300。

眼下，科研团队正在进行更深层次的人脑系统“仿生”，为下一步类脑感知系统大模型进行数据积累。

清华大学精密仪器系博士生王韬毅：包括视觉、听觉、触觉、嗅觉、味觉等等，这主要五个感觉来去利用类脑的原理来去发展类脑的五感的技术，最终希望它能够像人一样有多种感知。

编辑/朱葳