像人脑一样看见：机器视觉新形态

像人脑一样看见：机器视觉新形态
2020/5/27 22:02:42 大象公会

     本文由《Nature 自然科研》授权转载，欢迎访问关注。

     原文作者：Yang Chai

     图像传感器阵列近年来逐步发展出集成神经网络的新型态架构，可同时对光学图像实现采集与识别，无需将信号转换为数字形式就能让高速信息处理成为可能。

     视觉是我们最重要的感觉之一。虽然人类视觉更为准确高效，但在生物启发的机器视觉近十年来取得了飞速发展，使得人工系统可以“看见”世界，从图像和视频中获取有价值的信息[1][2]。近日，Mennel等人[3]在《自然》上报道了一种与大脑类似的视觉系统，通过训练后可以在几纳秒内实现简单的图像分类。

     数字相机等现代图像传感器主要基于70年代早期发展起来的半导体(凝聚态)技术，可分为两大类：电荷耦合器件和主动像素传感器[4]。这些传感器可以从环境中如实捕捉视觉信息，但也会产生大量冗余数据。这些光学信息通常会被转换为数字电子信号，传输到计算单元进行图像处理。

     这会导致传感器和计算单元间传输大量数据，造成较大功耗和延迟。随着帧率和像素的增长，带宽的限制使得系统无法迅速将所有数据传输到中央处理器或云计算中心来支持实时处理和决策——这对那些对于延迟十分敏感的应用来说尤其重要，比如自动驾驶汽车、机器人和工业制造等。

     一种更好的解决方案是将一些计算任务迁移到计算机系统外围边界的传感器设备上，减少不必要的数据传输。此外，由于传感器通常输出连续的模拟信号(不断改变)，模拟处理相较于数字处理更为合适，因为模数转换将消耗更多的时间和功耗。

     为了模拟大脑对信息的高效处理，生物启发的神经形态工程学采用了一种元素(突触连接的神经元)高度互联的计算架构来实现并行计算(图1a)。这些人工神经网络可以通过迭代从周围环境中进行学习——例如通过观察已知类别的目标样本学会识别事物(监督学习)，或者在无需额外信息的情况下辨识出输入数据中的目标结构(非监督学习)。在学习过程中，算法在不断进行预测的同时强化或弱化网络中的每一个突触，直到系统达到最优设置。

     图1|内置计算的视觉传感器可实现智能高效的前处理。a，在传统的人工智能(AI)视觉传感器中，光学传感器收集信号后将模拟信号转化为数字信号(模数转换器ADC)，信号放大后被送入外部的人工神经网络(ANN，一种层间互联的计算单元，图中圆圈)，其连接权重可根据模型输出不断调整，使得网络可以被训练用于图像分类等任务。ANN的输入层接收编码简单物理信息的信号(图中点和线)；后续层则被优化为中层特征(图中简单形状)，并在输出层形成最终的优化结果(图中3D形状)。整个过程即耗时又耗能。b，Mennel等人[3]报告的芯片内部互联的传感器(图中方块)，不仅可以收集信号还能以ANN的形式识别简单的特征，减少传感器和外部电路间冗余数据的传输。

     维也纳工业大学的Mennel等人将人工神经网络直接内嵌到图像传感器中，他们在芯片上利用仅有几个原子层的二硒化钨光敏单元构建光电二极管网络。这种半导体对光的响应强度可以通过调节电压来控制，所以每个二极管的灵敏度都可以独立调节。事实上，这种效应将光电传感器网络转换成了神经网络(图1b)，使其可执行简单的计算任务。改变光电二极管对光的响应相当于改变了网络的连接强度(突触权重)，使得传感器可以同时实现光学信号传感和神经形态计算。

     作者将这些二极管构建成具有9个像素的方阵，每个像素三个二极管。当图像被投射到芯片上时，二极管产生不同的电流被一并读出。硬件阵列将提供模拟形式的计算：每个光电二极管产生的电流输出与入射光强成正比，并基于基尔霍夫定律在行或列方向上求和，基尔霍夫定律描述的是电路中电流的基本规律。

     随后这一阵列被训练用于特定任务。阵列当前产生的电流信号与正确响应给定任务的电流信号间的差值会在芯片外分析，随后用于在下一个训练周期时调整突触权重。虽然训练阶段将消耗大量的时间和计算资源，但训练完成后芯片将在目标任务上迅速响应。

     基于不同的神经网络算法，作者构建了两种神经形态功能。其一是分类：3x3像素阵列可以将输入图像分类到三个简单的字母中，并在纳秒级时间内识别出输入信号对应的字母。这一简单的任务仅仅是概念验证，增加整列的尺度后可以拓展到更复杂的任务中。

     第二个功能则实现了自动编码器：内置计算的传感器阵列可以通过学习输入图像的主要特征来生成其简化的表达形式，即使在有噪声信号的条件下也无妨。编码后的表达仅仅包含了最本质的信息，但可以被解码重建出接近原始输入的图像。

     不过，在实际应用之前还有很多工作要做。用于自动驾驶系统和机器人的神经形态视觉系统需要在三维场景中利用宽视场捕捉动态的图像和视频。目前的图像捕捉技术通常将真实的三维世界转化为2D信息，因此失去了运动信息和深度。此外，目前图像传感器阵列的平面结构也限制了宽场相机的发展[5]。

     微光条件下成像对于作者的系统十分困难，重新设计以提升光强吸收以及检测光强的动态范围很有必要。此外，报告中的设计需要高电压并会消耗大量能量，而生物神经网络消耗的能量则为亚飞焦量级(10^?15 - 10^?13 焦耳)[6]。将传感器的响应范围拓展到紫外和红外波段将具有重要意义，这样可以捕捉可见波段外的丰富信息[7]。

     此外实验中所使用的薄半导体难以在大范围内均匀生产，也难以加工处理。因此他们可以与硅电子器件集成到一起，应用到像读取和反馈控制等外围电路中。这种传感器的速度和能耗不取决于图像捕捉过程，而受限于传感器和外围电路间的数据传输。尽管内置计算的传感器单元在模拟信号域中进行数据收集和计算减少了模数转换消耗，但外围电路仍然受到固有延迟的限制。所以传感器和外围电路地协同开发将会进一步减少整个系统的延时水平。

     Mennel等人研发的内置计算传感器系统将会启发更多人工智能硬件的研究。少数公司已经开始研发基于硅电子器件的AI视觉系统[8]，但芯片固有的数字架构导致了无法避免的延时和功耗问题。

     从更大的范围上看，作者的策略并不限于视觉系统。它可以被拓展到类似听觉、触觉、热感和嗅觉等物理输入感知系统中[9 -11]。这类智能系统的发展与5G的到来将使得实时边缘计算(低延时)成为可能。

     参考文献：

     1.Mead, C. Proc. IEEE 78, 1629–1636 (1990).

     2.Kyuma, K. et al. Nature372, 197–198 (1994).

     3.Mennel, L. et al. Nature579, 62–66 (2020).

     4.Bigas, M., Cabruja, E., Forest, J. & Salvi, J. Microelectr. J. 37, 433–451 (2006).

     5.Choi, C. et al. Nature Commun.8, 1664 (2017).

     6.Laughlin, S. B., de Ruyter van Steveninck, R. R. & Anderson, J. C. Nature Neurosci.1, 36–41 (1998).

     7.Zhang, K. et al. ACS Nano 10, 3852–3858 (2016).

     8.Davies, M. et al. IEEE Micro 38, 82–99 (2018).

     9.Wan, C. et al. Adv. Mater.30, 1801291 (2018).

     10.Kim, Y. et al. Science 360, 998–1003 (2018).

     11.Qu, T. Y. et al. Adv. Mater. 32, 1907288 (2020).

     原文以 In-sensor computing for machine vision为标题发表在2020年3月4日的《自然》新闻与观点版块

     ? nature

     Nature|doi:10.1038/d41586-020-00592-6

     版权声明：

     本文由施普林格·自然上海办公室负责翻译。中文内容仅供参考，一切内容以英文原版为准。欢迎转发至朋友圈，如需转载，请邮件 Chinapress@nature.com。未经授权的翻译是侵权行为，版权方将保留追究法律责任的权利。

     2020 Macmillan Publishers Limited, part of Springer Nature. All Rights Reserved

     本文由《Nature 自然科研》授权转载，欢迎长按下方二维码访问关注。点击「阅读原文」获取英文原文。

http://weixin.100md.com
返回大象公会返回首页返回百拇医药