【紫冬新知】 想改进你的卷积神经网络?点开本文了解一下!
2018/10/25常建龙 中国科学院自动化研究所
【写在前面】
2012年以来,卷积神经网络成为了人工智能领域研究的热点之一,并被成功应用在语音、图像、视频等诸多领域。自动化所常建龙博士提出一种新型的结构感知卷积网络,并在诸多实验中证明其鲁棒性、迁移性均优于传统的卷积神经网络。
图1. 常见卷积模型


图2. 常见的非欧几里得空间数据(来自网络)
实际中遇到的数据不仅仅是语音、图像、视频等处于欧几里得空间的数据,更多的是一些处于非欧几里得空间的,例如图2中的社交网络中的关系数据、三维点云数据、分子结构数据、基因数据和交通数据等等。由于局部输入的无序性和维度的可变性,传统卷积网络很难处理这种处于非欧几里得空间的数据。为此,我们一般化了传统卷积操作,使得新的卷积神经网络可以应用到一般结构的数据上,而不是仅局限于处理欧几里得空间的数据。
图3. 每个顶点表示像素点。中间图为4邻域,右图为6邻域。
例如对图像而言,特征为像素值,结构为规则的格子空间。值得注意的是,虽然我们经常默认为图像的“十”字形的格子空间,其实“米”字形的格子空间也是可以表示图像的,即周围有6个邻域,而非4邻域,如图3所示。
图4. 欧几里得空间卷积和非欧几里得空间卷积。
如图4所示,学习卷积核的过程其实是学习局部聚合参数的过程,并且每个局部的参数是可共享的。学习的过程即是确定这种聚合方式的过程。
下面就是重头戏了

图5. 结构感知卷积之卷积核泛化
通过考虑局部输入的数据结构,我们将结构信息建模到了结构感知卷积中。如图6所示,传统的卷积操作隐式地对数据的局部结构进行了建模。也就是说,传统卷积默认了“输入的第i-m+r个节点都是第i个节点的第r个邻居”。这种关系描述了一种很强的局部结构,但是仅仅适应于描述欧几里得空间数据。为了可以处理一般性的数据,我们对这种局部结构描述进行泛化,即用一个可学习的参数rji去替换原来的j-i+m来建模和学习局部的结构。此流程如图6所示。

图6. 结构感知卷积之结构泛化
图7. 结构感知卷积网络,输入为两个通道,输出为一个通道
该定理直观表明结构感知卷积由局部结构确定的一个映射矩阵和全局共享的可学习的多项式系数构成。因此,在实际中结构感知卷积可通过局部结构得到一个映射矩阵,将任意维度的输入变换为固定维数,进而通过一个可共享的局部聚合操作来实现对任意结构的聚合。
值得注意的是,定理1虽然表明结构感知卷积是由两个部分组成,但是这在实际中运行效率很低。为了使得模型可以更高效地在GPU上运行,我们基于函数逼近理论用切比雪夫多项式来拟合新提出的函数滤波器,最终使结构感知卷积操作可以高效地且有效地在GPU上运行。这是因为,切比雪夫多项式的n阶基函数(n>1)都可以由n-1阶基函数和n-2阶基函数表示,所以函数滤波器的学习可以分解为一系列矩阵的迭代加法运算。因为GPU上适合执行矩阵运算,所以使得模型可以在实际中更高效地执行。
图8. 结构感知网络的稳定性
如图8所示,相对于传统的卷积网络,结构感知卷积对高斯噪声、旋转、平移和尺度变化更鲁棒。这是因为我们学习的卷积核来自于一个连续的函数,卷积核中的所有元素之间都是相关的,这使得卷积核的方差更小、更光滑,最后获得更高的鲁棒性。
图9. 结构感知网络消融实验。(a) 基函数个数影响,(c)网络的可迁移性。
图10. 结构感知卷积可以被应用的一些场景。

更多精彩内容,欢迎关注
中科院自动化所官方网站:
http://www.ia.ac.cn
欢迎后台留言、推荐您感兴趣的话题、内容或资讯,小编恭候您的意见和建议!如需转载或投稿,请后台私信。
作者:常建龙
审稿:向世明
排版:亚岱尔
编辑:鲁宁
中科院自动化研究所
微信:casia1956
欢迎搭乘自动化所AI旗舰号!
http://weixin.100md.com
返回 中国科学院自动化研究所 返回首页 返回百拇医药