做爰片免费观看网站新闻实时报道
优秀的激活函数:
非线性:激活函数非线性时,多层神经网络可逼近所有函数
可微性:梯度下降更新参数
单调性:当激活函数是单调的,能保证单层网络的损失函数是凸函数
近似恒等性:当参数初始化为随机小值时,神经网络更稳定
Sigmoid
特点:
(1)易造成梯度消失,0-0.25,连续相乘,参数无法继续更新
(2)输出非0均值,收敛慢
(3)幂运算复杂,训练时间长
Tanh
特点:
(1)输出是0均值
(2)易造成梯度消失
(3)幂运算复杂,训练时间长
Relu函数:
优点:
(1)解决梯度消失的问题
(2)只需判断输入是否大于0,计算速度快
(3)收敛速度远快于sigmoid和tanh
缺点:
(1)输出非0均值,收敛慢
(2)Dead Relu :某些神经元可能永远不会被激活,导致相应的参数永远不能被更新
Leaky Relu函数
理论上,Leaky Relu有Relu的所有优点,外加不会有Dead Relu的问题,但是在实际操作当中,并没有完全证明Leaky Relu总好于Relu。