caffe 中为什么bn层要和scale层一起使用_IT百科

1) 输入归一化 x_norm = (x-u)/std, 其中u和std是个累计计算的均值和方差。

2）y=alpha×x_norm + beta，对归一化后的x进行比例缩放和位移。其中alpha和beta是通过迭代学习的。

那么caffe中的bn层其实只做了第一件事，scale层做了第二件事，所以两者要一起使用。

一，在Caffe中使用Batch Normalization需要注意以下两点：

1. 要配合Scale层一起使用。

2. 训练的时候，将BN层的use_global_stats设置为false，然后测试的时候将use_global_stats设置为true。

二，基本公式梳理：

Scale层主要完成 top=alpha∗bottom+betatop=alpha∗bottom+beta的过程，则层中主要有两个参数alphaalpha与betabeta,

求导会比较简单。∂y∂x=alpha∂y∂alpha=x∂y∂beta=1。需要注意的是alphaalpha与betabeta均为向量，针对输入的channelschannels进行的处理，因此不能简单的认定为一个floatfloat的实数。

三，具体实现该部分将结合源码实现解析scalescale层:

在Caffe proto中ScaleParameter中对Scale有如下几个参数：

1，基本成员变量，基本成员变量主要包含了Bias层的参数以及Scale层完成对应通道的标注工作。

2，基本成员函数，主要包含了LayerSetup,Reshape ,Forward和Backward ，内部调用的时候bias_term为true的时候会调用biasLayer的相关函数。

3，Reshape 调整输入输出与中间变量，Reshape层完成许多中间变量的size初始化。

4，Forward 前向计算，前向计算，在BN中国紧跟着BN的归一化输出，完成乘以alpha与+bias的 *** 作，由于alpha与bias均为C的向量，因此需要先进行广播。

5，Backward 反向计算，主要求解三个梯度，对alpha 、beta和输入的bottom(此处的temp)。

这里提到的关于BN层的使用方法是基于TensorFlow框架的，不过其他框架也类似，原理是一样的。

Batch Normalization是由google提出的一种训练优化方法。参考论文：Batch Normalization Accelerating Deep Network Training by Reducing Internal Covariate Shift

Normalization是数据标准化（归一化，规范化），Batch 可以理解为批量，加起来就是批量标准化。

先说Batch是怎么确定的。在CNN中，Batch就是训练网络所设定的图片数量batch_size。

BN 解决的问题是梯度消失与梯度爆炸。

在深度网络中，如果网络的激活输出很大，其梯度就很小，学习速率就很慢。假设每层学习梯度都小于最大值0.25，网络有n层，因为链式求导的原因，第一层的梯度小于0.25的n次方，所以学习速率就慢，对于最后一层只需对自身求导1次，梯度就大，学习速率就快。

这会造成的影响是在一个很大的深度网络中，浅层基本不学习，权值变化小，后面几层一直在学习，结果就是，后面几层基本可以表示整个网络，失去了深度的意义。

关于梯度爆炸，根据链式求导法，

第一层偏移量的梯度=激活层斜率1x权值1x激活层斜率2x…激活层斜率(n-1)x权值(n-1)x激活层斜率n

假如激活层斜率均为最大值0.25，所有层的权值为100，这样梯度就会指数增加。

欢迎分享，转载请注明来源：内存溢出

caffe 中为什么bn层要和scale层一起使用