深度学习+attention 深度学习基础教程

2023-05-26 23:12| 来源: 网络整理| 查看: 265

深度学习

学习推荐： 1、吴恩达的深度学习课程：https://www.deeplearning.ai 2、李宏毅的深度学习课程：直接在b站搜索李宏毅 3、《deep learning》俗称花书https://github.com/exacity/deepinglearningbook-chinese 内容丰富全面，进阶内容 4、周志华的《机器学习》俗称西瓜书。例子生动

关系梳理：人工智能→机器学习→人工神经网络→深度学习（层层包含的关系）

本文框架： 1、人工神经元 2、多层感知机 3、激活函数 4、反向传播算法 5、损失函数 6、权值初始化 7、正则化

一、人工神经元

深度学习+attention 深度学习基础教程_机器学习

如图是人体神经元与人工神经元的示意图。

人工神经网络：大量人工神经元以某种连接方式构成的机器学习模型

二、多层感知机

深度学习+attention 深度学习基础教程_权值_02

深度学习+attention 深度学习基础教程_机器学习_03

如图，加入若干隐藏层后，就变为了多层感知机。

三、激活函数

（1）让多层感知机成为真正的多层，否则等价于一层。（2）引入非线性，使得网络可以逼近任意非线性函数（万能逼近定理）

激活函数需要具备的性质： 1）连续并可导，便于利用数值优化的方法来学习网络参数， 2）激活函数及其导数要尽可能简单，利于提高网络计算效率。 3）激活函数的导函数的值域要在合适区间内，否则会影像训练的效率和稳定性。

激活函数：

深度学习+attention 深度学习基础教程_机器学习_04

四、反向传播

前向传播：输入层数据开始，从前向后，数据逐步传输到输出层。反向传播：损失函数开始，从后向前，梯度逐步传递至第一层。

反向传播作用：用于权重更新，使网络输出更接近标签

损失函数：衡量模型输出与真实标签的差异。

反向传播原理：微积分中的链式求导法则。

深度学习+attention 深度学习基础教程_损失函数_05

梯度下降法：权值沿梯度负方向更新，使函数数值减小梯度：一个向量，方向为方向导数取得最大值的方向学习率：控制更新步长

五、损失函数

损失函数：衡量模型输出与真实的标签之间的差距。两种常见损失函数：1、MSE（均方误差）2、CE（交叉熵）信息熵：描述信息的不确定度。

六、权值初始化

权值初始化：训练前对权值参数赋值，良好的权值初始化有利于模型训练。 1、Xavier初始化 2、Kaiming初始化

七、正则化

正则化：减少方差的策略，通俗理解为减轻过拟合的策略。损失函数：Loss 代价函数：Cost 目标函数：Objective Obj=Cost+Regularization Regularization便是正则项，是一种约束。

【本文地址】

公司简介

联系我们