神经网络学习笔记

您所在的位置：网站首页 › 回归定义证明 › 神经网络学习笔记

神经网络学习笔记

2024-07-16 00:00:07| 来源: 网络整理| 查看: 265

神经网络学习笔记 - 激活函数的作用、定义和微分证明

看到知乎上对激活函数(Activation Function)的解释。我一下子迷失了。因此，匆匆写下我对激活函数的理解。

激活函数被用到了什么地方

目前为止，我见到使用激活函数的地方有两个。

逻辑回归(Logistic Regression) 神经网络(Neural Network) 这两处，激活函数都用于计算一个线性函数的结果。了解激活函数

激活函数的作用：就是将权值结果转化成分类结果。

2类的线性分类器

先说一个简单的情况 - 一个2类的线性分类器。了解激活函数，先要明确我们的问题是："计算一个（矢量）数据的标签（分类）"。以下图为例：

Logistic Regression

训练

训练的结果，是一组$(w,b)$，和一个线性函数$f(x) = wx + b$。

预测

我们现在仔细考虑一下，如何在预测函数中使用这个线性函数$f(x)$。先从几何方面理解一下，如果预测的点在分割线$wx + b = 0$上，那么$f(x) = wx + b = 0$。如果，在分割线的上方某处，$f(x) = wx + b = 8$(假设是8)。 8可以认为是偏移量。

注：取决于(w, b)，在分割线上方的点可以是正的，也可能是负的。例如： y - x =0，和 x - y = 0，这两条线实际上是一样的。但是，应用点(1, 9)的结果，第一个是8, 第二个是 -8。

问题

然后，你该怎么办？？？如何用这个偏移量来得到数据的标签？

激活函数

激活函数的作用是：将8变成红色。怎么变的呢？比如：我们使用sigmoid函数，sigmoid(8) = 0.99966464987。 sigmoid函数的结果在区间(0, 1)上。如果大于0.5，就可以认为满足条件，即是红色。

3类分类器的情况

我们再看看在一个多类分类器中，激活函数的作用。以下图为例：

Logistic Regression 3 classes

训练

3类${a, b, c}$分类器的训练结果是3个$(w, b)$，三个$f(x)$，三条分割线。每个$f(x)$，可以认为是针对一个分类的model。因此：

\[f_a(x) = w_ax + b_a \\ f_b(x) = w_bx + b_b \\ f_c(x) = w_cx + b_c \]

预测

对于预测的点$x$，会得到三个偏移量$[f_a(x), f_b(x), f_c(x)]$。使用激活函数sigmoid: $sigmoid([f_a(x), f_b(x), f_c(x)])$ 会得到一个向量, 记为：$[S_a, S_b, S_c]$。这时的处理方法是：再次使用激活函数（没想到吧）一般会使用激活函数softmax。激活函数，在这里的作用是：计算每个类别的可能性。最后使用argmax函数得到：最大可能性的类。

注：上面差不多是Logistic Regression算法的一部分。注：softmax也经常被使用于神经网络的输出层。

激活函数的来源

在学习神经网络的过程中，激活函数的灵感来自于生物神经网络，被认为是神经元对输入的激活程度。最简单的输出形式是：一个开关，${0, 1}$。要么$0$，要么$1$。也就是一个单位阶跃函数(Heaviside step function)。

这种思想主要是一种灵感来源，并不是严格的推理。

常用的激活函数有哪些名称公式取值范围微分图 sigmoid - S型 $$ \begin{align} \sigma(x) & = \frac{e^x}{1 + e^x} \\ & = \frac{1}{1 + e^{-x}} \end{align} $$ $(0, 1)$ $$ \sigma'(x) = (1 - \sigma(x))\sigma(x) $$ sigmoid

tanh(hyperbolic tangent) - 双曲正切 $$ \begin{align} tanh(x) & = sinh(x)/cosh(x) \\ & = \frac{e^x - e^{-x}}{e^x + e^{-x}} \\ & = \frac{e^{2x} - 1}{e^{2x} + 1} \\ & = \frac{1 - e^{-2x}}{1 + e^{-2x}} \end{align} $$ $(-1, 1)$ $$ tanh'(x) = 1 - tanh(x)^2 $$ tanh

Rectified linear unit - ReLU - 修正线性单元 $$ relu(x) = \begin{cases} 0 & \text{for}\ x < 0 \\ x & \text{for}\ x \geqslant 0 \end{cases} $$ $[0, \infty)$ $$ relu'(x) = \begin{cases} 0 & \text{for}\ x < 0 \\ 1 & \text{for}\ x \geqslant 0 \end{cases} $$ softmax $$ f(\vec{x}) = \begin{bmatrix} \cdots & \frac{e^{x_i}}{\sum_{k=1}^{k=K}e^{x_k}} & \cdots \end{bmatrix} $$ $(0, 1)$ $$ softmax'(z_t) = \frac{\partial{y_t}}{\partial{z_t}} = \begin{cases} \hat{y_{t_i}}(1 - \hat{y_{t_i}}), & \text{if } i = j \\ -\hat{y_{t_i}} \hat{y_{t_j}}, & \text{if } i \ne j \end{cases} $$ 激活函数的意义名称含义 sigmoid - S型 sigmoid的区间是[0, 1]。因此，可以用于表示Yes/No这样的信息。比如：不要(0)/要(1)。多用于过滤数据。比如：门。 tanh(hyperbolic tangent) - 双曲正切 tanh的区间是[-1, 1]。同样可以表示Yes/No的信息，而且加上了程度。比如：非常不可能(-1)/一般般(0)/非常可能(1)。非常不喜欢(-1)/一般般(0)/非常喜欢(1)。因此，tanh多用于输出数据。输出数据最终会使用softmax来计算可能性。 softmax softmax用于输出层，计算每个分类的可能性。 Rectified linear unit - ReLU - 修正线性单元 ReLU的好处：ReLU对正值较少的数据，处理能力更强。由于，其导数为{0, 1}，可以避免梯度消失问题。激活函数的微分的证明 sigmoid

sigmoid函数

\[\sigma(x) = \frac{1}{1 + e^{-x}} \\ \sigma'(x) = (1 - \sigma(x))\sigma(x) \]

证明

\[\begin{align} \frac{\partial \sigma(x)}{\partial x} & = \frac{e^{-x}}{(1 + e^{-x})^2} \\ & = {\left ( \frac{1 + e^{-x} - 1}{1 + e^{-x}} \right ) }{\left ( \frac{1}{1 + e^{-x}} \right )} \\ & = (1 - \sigma(x))\sigma(x) \end{align} \]

tanh

tanh函数

\[\tanh(x) = \frac{e^{2x} - 1}{e^{2x} + 1} \\ tanh'(x) = 1 - tanh(x)^2 \]

证明

\[\begin{align} \frac{\partial tanh(x)}{\partial x} & = \left (1 - \frac{2}{e^{2x} + 1} \right )' \\ & = 2 \cdot \frac{2e^{2x}}{(e^{2x} + 1)^2} \\ & = \frac{4e^{2x}}{(e^{2x} + 1)^2} \\ & = \frac{(e^{2x} + 1)^2 - (e^{2x} - 1)^2}{(e^{2x} + 1)^2} \\ & = 1 - \left (\frac{e^{2x} - 1}{e^{2x} + 1} \right )^2 \\ & = 1 - tanh(x)^2 \end{align} \]

softmax

激活函数softmax和损失函数会一起使用。激活函数会根据输入的参数（一个矢量，表示每个分类的可能性），计算每个分类的概率(0, 1)。损失函数根据softmax的计算结果$\hat{y}$和期望结果$y$，根据交叉熵方法(cross entropy loss) 可得到损失$L$。

softmax函数

\[\text{softmax:} \\ \hat{y_{t_i}} = softmax(o_{t_i}) = \frac{e^{o_{t_i}}}{\sum_{k}e^{o_{t_k}}} \\ \hat{y_t} = softmax(z_t) = \begin{bmatrix} \cdots & \frac{e^{o_{t_i}}}{\sum_{k}e^{o_{t_k}}} & \cdots \end{bmatrix} \\ \\ softmax'(z_t) = \frac{\partial{y_t}}{\partial{z_t}} = \begin{cases} \hat{y_{t_i}}(1 - \hat{y_{t_i}}), & \text{if } i = j \\ -\hat{y_{t_i}} \hat{y_{t_j}}, & \text{if } i \ne j \end{cases} \]

证明

\[softmax'(z_t) = \frac{\partial \hat{y_t} }{\partial z_t } \\ \\ \text{if } i = j \\ \begin{align} \frac{\partial \hat{y_{t_i}} } {\partial o_{t_i} } & = \left ( \frac{e^{o_{t_i}}}{\sum_{k}e^{o_{t_k}}} \right )' \\ & = \left ( 1 - \frac{S}{\sum_{k}e^{o_{t_k}}} \right )' \text{ // set } S = \sum_{k \ne i}e^{o_{t_k}} \\ & = \left ( 1 - \frac{S}{S + e^{o_{t_i}}} \right )' \\ & = \frac{S \cdot e^{o_{t_i}}}{(S + e^{o_{t_i}})^2} \\ & = \frac{S}{S + e^{o_{t_i}}} \cdot \frac{e^{o_{t_i}}}{S + e^{o_{t_i}}} \\ & = \frac{S}{S + e^{o_{t_i}}} \cdot \frac{e^{o_{t_i}}}{S + e^{o_{t_i}}} \\ & = \left ( 1 - \frac{e^{o_{t_i}}}{S + e^{o_{t_i}}} \right ) \cdot \frac{e^{o_{t_i}}}{S + e^{o_{t_i}}} \\ & = \left ( 1 - \frac{e^{o_{t_i}}}{\sum_{k}e^{o_{t_k}}} \right ) \cdot \frac{e^{o_{t_i}}}{\sum_{k}e^{o_{t_k}}} \\ & = \left ( 1 - \hat{y_{t_i}} \right ) \cdot \hat{y_{t_i}} \\ \text{if } i \ne j \\ \frac{\partial \hat{y_{t_j}} }{\partial o_{t_i} } & = \left ( \frac{ e^{o_{t_j}} } { \sum_{k}e^{o_{t_k}} } \right )' \\ & = \left ( \frac{e^{o_{t_j}}}{S + e^{o_{t_i}}} \right )' \text{ // set } S = \sum_{k \ne i}e^{o_{t_k}} \\ & = - \frac{ e^{o_{t_j}} \cdot e^{o_{t_i}} }{ (S + e^{o_{t_i}})^2 } \\ & = - \frac{ e^{o_{t_j}} }{ S + e^{o_{t_i}} } \cdot \frac{ e^{o_{t_i}} }{ S + e^{o_{t_i}} } \\ & = - \frac{ e^{o_{t_j}} }{ \sum_{k}e^{o_{t_k}} } \cdot \frac{ e^{o_{t_i}} }{ \sum_{k}e^{o_{t_k}} } \\ & = - \hat{y_{t_j}} \cdot \hat{y_{t_i}} \end{align} \]

参照 Activation function 神经网络学习笔记-04-损失函数的定义和微分证明

【本文地址】

公司简介

联系我们

今日新闻

点击排行

实验室常用的仪器、试剂和: 说到实验室常用到的东西，主要就分为仪器、试剂和耗

不用再找了，全球10大实验: 01、赛默飞世尔科技（热电）Thermo Fisher Scientif

三代水柜的量产巅峰T-72坦: 作者：寞寒最近，西边闹腾挺大，本来小寞以为忙完这

通风柜跟实验室通风系统有: 说到通风柜跟实验室通风，不少人都纠结二者到底是不

集消毒杀菌、烘干收纳为一: 厨房是家里细菌较多的地方，潮湿的环境、没有完全密

实验室设备之全钢实验台如: 全钢实验台是实验室家具中较为重要的家具之一，很多

图片新闻

实验室药品柜的特性有哪些: 实验室药品柜是实验室家具的重要组成部分之一，主要

小学科学实验中有哪些教学: 计算机计算器一般打孔器打气筒仪器车显微镜

实验室各种仪器原理动图讲: 1.紫外分光光谱UV分析原理：吸收紫外光能量，引起分

高中化学常见仪器及实验装: 1、可加热仪器：2、计量仪器：（1）仪器A的名称：量

微生物操作主要设备和器具: 今天盘点一下微生物操作主要设备和器具，别嫌我啰嗦

浅谈通风柜使用基本常识: 　众所周知，通风柜功能中最主要的就是排气功能。在

神经网络学习笔记

神经网络学习笔记

今日新闻

点击排行

推荐新闻

图片新闻

专题文章