深入理解ReLU函数(ReLU函数的可解释性) | 您所在的位置:网站首页 › 死亡率的函数表达式是什么 › 深入理解ReLU函数(ReLU函数的可解释性) |
本篇博文主要来源于对文章 Unwrapping The Black Box of Deep ReLU Networks: Interpretability, Diagnostics, and Simplification 的学习,同时还有部分内容摘自wiki百科。 什么是ReLU函数?ReLU,全称为:Rectified Linear Unit,是一种人工神经网络中常用的激活函数,通常意义下,其指代数学中的斜坡函数,即
f
(
x
)
=
max
(
0
,
x
)
f(x)=\max(0,x)
f(x)=max(0,x) 对应的函数图像如下所示: 而在神经网络中,ReLU函数作为神经元的激活函数,为神经元在线性变换 w T x + b \mathbf {w} ^{T}\mathbf {x} +b wTx+b 之后的非线性输出结果。换言之,对于进入神经元的来自上一层神经网络的输入向量 x x x,使用ReLU函数的神经元会输出 max ( 0 , w T x + b ) \max(0,\mathbf {w} ^{T}\mathbf {x} +b) max(0,wTx+b) 至下一层神经元或作为整个神经网络的输出(取决现神经元在网络结构中所处位置)。 优势相比于传统的神经网络激活函数,诸如逻辑函数(Logistic sigmoid)和tanh等双曲函数,ReLU函数有着以下几方面的优势: 仿生物学原理:相关大脑方面的研究表明生物神经元的讯息编码通常是比较分散及稀疏的。通常情况下,大脑中在同一时间大概只有1%-4%的神经元处于活跃状态。使用线性修正以及正规化;(regularization)可以对机器神经网络中神经元的活跃度(即输出为正值)进行调试;相比之下,逻辑函数在输入为0时达到 0.5,即已经是半饱和的稳定状态,不够符合实际生物学对模拟神经网络的期望。不过需要指出的是,一般情况下,在一个使用ReLU的神经网络中大概有50%的神经元处于激活态。更加有效率的梯度下降以及反向传播:避免了梯度爆炸和梯度消失问题;简化计算过程:没有了其他复杂激活函数中诸如指数函数的影响;同时活跃度的分散性使得神经网络整体计算成本下降.下面我们使用一个全部用ReLU函数的网络来进一步了解其结构的作用。 一个例子
对每个区域中的每个变量,我们都可以定义一个 Local Linear Profile,其定义如下 通过上述的分区域表达,我们可以构造出两种重要性排序指标。下面分别为,联合截距项重要性与变量重要性: 这里以一个真实数据为例,选取前三十个LLMs,看看其对于原始真实数据拟合的表现。 对于二维双圆环数据集,我们可以通过下图看出具体的样本可解释性情况。
同样,在真实数据中,我们也可以看到每个变量的重要性情况,以及重要变量对应的不同区域的剖面图。 |
今日新闻 |
推荐新闻 |
专题文章 |
CopyRight 2018-2019 实验室设备网 版权所有 |