在线试读

get_product_contenthtml 第5章稀疏深度神经网络





5.1稀疏性的生物机理深度学习与稀疏认知学习、计算与识别之间的关系深刻而且本质,从机器学习中的特征工程(人工特征提取与特征筛选)到深度学习中的特征学习(通过线性与非线性操作的不断复合获取数据的高层统计或语义特性),无论是以显性还是隐性的嵌入方式,稀疏性都在模型中扮演着重要的角色。下面简要从生物视觉机理和数学物理角度来描述稀疏性。备注: 稀疏认知学习、计算与识别的范畴包括表示理论(即基于稀疏表示的压缩感知和稀疏编码),数学计算(匹配追踪算法)和模式识别(稀疏表示分类器SRC及稀疏分类器设计SparseMax)等。5.1.1生物视觉机理视觉感知机理的研究表明,视觉系统可以看成一种合理而且高效的图像处理系统,从视网膜到大脑皮层存在一系列具有不同生物学功能的神经细胞,例如随着层级信息不断的“加深”,不同视觉皮层上的神经细胞对特定形状的视觉图案有的响应和偏好的刺激,简言之,层级越高感受野越大,即信息处理从局部到更大的区域,类似尺度特性。层级较低时,感受野所处理的区域越小,稀疏性越强(特指层级间的连接特性),层级较高时,感受野所处理的区域越大,稀疏性越弱。另外,Barlow推论出在稀疏性和自然环境的统计特性之间必然存在某种联系,随后诸多基于生物视觉和计算的模型被提出来,都成功地例证了生物视觉针对自然环境所反馈出的物理统计特性蕴含着稀疏性。当层级较低时,其简单细胞对应着严格的方向和带通特性,而复杂细胞在保持简单细胞特性的基础上进一步具有局部变换(如平移)不变性,简言之,简单细胞处理信息具有稀疏(即局部连接)特性,而复杂细胞具有聚类(连接计算共享)特性。神经科学研究成果表明,稀疏编码是视觉系统中图像表示的主要方式,初级视觉皮层(V1区)中的神经元对视觉信息的反应具有稀疏性,V4区的神经元通过稀疏编码的方式实现视觉信息的表示。从表5.1中可知,随着对计算机视觉研究的深入,人类对自身视觉感知系统的理解也在不断加深。借鉴生物视觉机理的研究成果,模拟建立相应的视觉计算模型,将成为一个极具挑战性和吸引力的研究方向。下面给出生物(人类)视觉与计算机视觉的对比表(表5.1)。

表5.1生物(人类)视觉与计算机视觉对比


对比项人 类 视 觉计算机视觉
适应性适应性强,可在复杂及变化的环境中识别目标适应性差,容易受复杂背景及环境变化的影响智能具有高级智能,可运用逻辑分析及推理能力识别变化的目标,并能总结规律虽然可利用人工智能及神经网络技术,但智能很差,不能很好地识别变化的目标续表


对比项人 类 视 觉计算机视觉
彩色识别能力对色彩的分辨能力强,但容易受人的心理影响,不能量化受硬件条件的制约,目前一般的图像采集系统对色彩的分辨能力较差,但具有可量化的优点灰度分辨能力差,一般只能分辨64个灰度级强,目前一般使用256灰度级,采集系统可具有10bit、12bit、16bit等灰度级空间分辨能力分辨率较差,不能观看微小的目标目前有4K×4K的面阵摄像机和8K的线阵摄像机,通过备置各种光学镜头,可以观测小到微米大到天体的目标速度0.1秒的视觉暂留使人眼无法看清较快速运动的目标快门时间可达到10微秒左右,高速相机帧率可达到1000以上,处理器的速度越来越快感光范围400~750nm范围的可见光从紫外到红外的较宽光谱范围,另外有X光等特殊摄像机环境要求对环境温度、湿度的适应性差,另外有许多场合对人有损害对环境适应性强,另外可加防护装置观测精度精度低,无法量化精度高,可到微米级,易量化其他主观性,受心理影响,易疲劳客观性,可连续工作
另外,关于生物视觉与计算机视觉之间核心的模块对应关系见图5.1,值得注意的是: 理解并分析大脑是如何在算法层面上工作的尝试是鲜活且发展良好的,这项尝试被称为“计算神经科学”,并且是独立于深度学习的一个领域。研究人员两个领域间反复研究是很常见的,深度学习主要关注如何构建智能的计算机系统,以用来解决需要智能才能解决的任务,而计算神经科学领域主要是关注构建大脑如何工作的更精确的模型。


图5.1生物视觉与计算机视觉核心模块对应


5.1.2稀疏性响应与数学物理描述目前,构建高性能的计算模型,并不是模型越复杂越好,特别针对变量维数很高,样本量不是很大的情形下,构建一个合理的,相对简单的稀疏模型往往具有更高的性能,更为重要的是还具有生物可解释性。从数学角度来看,依据模型的低复杂性结构(如向量的稀疏性,矩阵的低秩性等),如何高效地从病态的线性逆问题中且稳健地恢复出特定的信息。值得指出的是: 常见的稀疏性是指向量中绝大多数元素的值为零或者接近于零; 而广义的稀疏性是指通过特定变换后目标的稀疏性。可以看出,当前为了使得模型具备学习能力、高容量的表达能力、快速推断能力以及多任务信息共享能力; 借鉴生物视觉的认知机理已成为一种必然趋势。众所周知,1996年Olshausen和Field在Nature杂志上发表的一篇重要论文指出,自然图像经过稀疏编码后得到的基函数类似于初级视觉皮层V1区上简单细胞感受野的反应特性(即空间域的局部性、时域和频域的方向性和选择性)。需要指出的是稀疏编码与稀疏表示是不同的,例如关于系数的稀疏性约束,前者采用光滑可导的函数,而后者采用伪范数或L1范数; 另外稀疏编码不要求基原子个数一定要大于数据的维数。本节更为详细的论述与解释请参考第1章的稀疏表示,另外稀疏编码部分可参考相关论文,这里不再赘述。5.2稀疏深度网络模型及基本性质在深度神经网络引入显式稀疏性之前,关于稀疏模型的研究就已经成为机器学习中的热点,特别是针对线性稀疏模型的研究,如压缩感知、双稀疏模型、结构化稀疏模型(如群稀疏)、SHMAX模型、SRC模型等。当然,除了显式稀疏性(如稀疏正则化理论等)外,还有隐式稀疏性的研究,它通常内蕴在非线性激活函数和损失函数(如交互熵,非L2范数下的能量损失)的构建过程中。众所周知,自从2006年至今深度神经网络的一个重要体现或要求便是训练数据量的规模要大(衡量标准可利用模型的参数个数与训练数据量的个数来比较),由于以往训练数据集规模很小,加上计算性能很慢(硬件加速设备导致),同时权值矩阵的初始化方式较为笨拙(容易出现梯度弥散现象),以及使用了某种错误的非线性模型,导致深度神经网络在过去的表现并不好。经过十余年的积累,目前深度神经网络可简略地认为是大规模训练数据集,并行计算和规模化、灵巧的算法三者的结合。深度神经网络中引入稀疏正则或蕴含稀疏性可以认为是病态模型良态化的过程,如稀疏正则的核心是解决过拟合问题,稀疏权值连接(DropOut策略)的本质是通过约减参数量间接增加训练数据,以及非线性激活函数中所隐含的稀疏性是为了增加“扭曲”程度,即不同类别的(线性不可分)输入随着层级的增加,隐层特征所对应的线性可分性逐渐增强。下面简要地分析深度神经网络在各阶段所出现的稀疏性及其优势。备注: SHMAX为稀疏层次识别模型,SRC为稀疏表示分类器,结构化稀疏模型,基于稀疏正则的设计有群稀疏、图稀疏、随机场稀疏等。5.2.1数据的稀疏性数据的稀疏性包含三点: 一是数据中所包含某种拓扑特性或目标相对数据本身呈现出非零元素较少的情形; 二是数据在某种(线性或非线性)自适应或非自适应变换下对应的表示系数具有非零元素较少的状况; 三是随着数据集规模的增加,呈现出某种统计或物理特性的数据占整个数据集的少数,例如分辨率特别好的样本或分辨率特别差的样本在整个数据集中呈较少的状态。目前,常用的稀疏性描述是基于第二点假设,并且作为一种有效的(稀疏性)正则约束,在优化目标函数关于解存在多样性的问题中给出合理的解释与逼近。而基于点,通常可作为一种有效的处理方式(如二值化处理,或者零化无关区域),例如输入到深度神经网络中的一幅图像,有效的目标占图像的比例较少,便可以将图像中除去目标的部分置为零; 值得注意的是: 利用视觉机制中的显著性检测方法。另外针对第三点,其核心问题是如何利用稀疏编码筛选出这些重要样本(或剔除少数样本)。从框架(Frame Analysis)分析角度,认为比较好的冗余框架应该是紧框架,进而对输入描述便可以得到较好的紧表示系数,也就是说框架上界和框架下界尽可能相等。但是通常获取到的字典,也就是框架,不是紧的,能否利用大量无类标样本将框架的上界与下界估计出来,然后利用输入信号的逼近表示的二范数比上表示系数的二范数,看这个比值是否在框架上界与下界的中间,来判断该样本对字典(框架或系统)的表示是否是welldefined的,进而实现对样本的有效筛选。备注: 本小节讲的框架,是数学分析中的一支理论,继傅里叶分析、时频分析和小波分析之后,框架分析被提出,它指带有冗余特性“基”的表示理论。5.2.2稀疏正则众所周知,正则化的目的在于减少学习算法的泛化误差(亦称测试误差)以期提高测试识别率。目前,有许多正则化策略,常用的方式是对参数进行约束或限制,以及基于某种特定类型的先验知识进行约束与惩罚设计,注意这些惩罚和约束通过将模型求解参数良态化的过程来实现泛化性能的提升。基于如下的优化目标函数: 

minθJ(θ)=1N∑Nn=1loss(x(n),y(n),θ) λ·R(θ)(5.1)

其中的R(θ)为参数范数惩罚,例如常用的有L2范数下的吉洪诺夫正则(Tikhonov Regularization),但它并没有蕴含稀疏特性。而使用L1范数则通常可以诱导出稀疏特性,即

R(θ)=‖W‖1=∑i|Wi|(5.2)

注意参数θ包括权值连接W与偏置b,而正则约束往往只针对权值连接。除了在权值连接上引入稀疏正则外,还可以在某个隐层输出层引入稀疏性,例如对于如下的目标函数: 

min J()=‖x-D·‖22 λ·‖‖1(5.3)

注意这里的D为字典,数学中称其为框架,即有冗余的“基”; x为输入,为输出,其L1范数的定义与式(5.2)对应。值得指出的是反卷积神经网络中的卷积稀疏编码可以认为是一种带有共享机制下的权值稀疏性约束策略。备注: 除了上述具有稀疏特性的L1范数外,还可以引入群稀疏的策略,以及伪范数L1/2等,这里不再赘述。5.2.3稀疏连接众所周知,卷积神经网络的特性包括局部连接,权值共享和变换不变等特性且都蕴含着稀疏性,首先针对局部连接,相比较全连接策略,它更符合外侧膝状体到初级视觉皮层上的稀疏响应特性; 其次权值共享,进一步约束相似隐单元具有同样的激活特性,使得局部连接后的权值具有结构特性,实际应用中可进一步约减参数个数,间接增加数据量; 后,变换不变性是由池化方式诱导获取,也可认为是一种有效的“删减”参数的方式,即带有稀疏性的零化操作。下面介绍一种经典的自适应权值删减技巧DropOut,即指在模型训练时随机让网络某些隐含层节点的权重不工作,不工作的那些节点可以暂时认为不是网络结构的一部分,但是它的权重需保留下来(注意只是暂时不更新),因为下次样本输入时它可能又得工作了,见图5.2。