循环神经网络RNN论文解读

2024-07-11 01:46| 来源: 网络整理| 查看: 265

论文名称：RECURRENT NEURAL NETWORK REGULARIZATION

论文地址：https://arxiv.org/pdf/1409.2329.pdf

1、RNN介绍

RNN（Recurrent Neural Network）是一类用于处理序列数据的神经网络。从基础的神经网络中知道，神经网络包含输入层、隐层、输出层，通过激活函数控制输出，层与层之间通过权值连接。激活函数是事先确定好的，那么神经网络模型通过训练“学“到的东西就蕴含在“权值“中。这是一个标准的RNN结构图，图中每个箭头代表做一次变换，也就是说箭头连接带有权值。左侧是折叠起来的样子，右侧是展开的样子，左侧中h旁边的箭头代表此结构中的“循环“体现在隐层。图中O代表输出，y代表样本给出的确定值，L代表损失函数。

2、RNN特点：

（1）权值共享，图中的W全是相同的，U和V也一样。

（2）前面的输出会影响后面的输出，适合处理序列数据。

（3）损失也是随着序列的推荐而不断积累的。

3、rnn多种变体

（1）输入为序列，单个输出（如：分类）

（2）单输入，输出为序列

（3）多输入M，多输出N，且M=N

（4）多输入M，多输出N，且M不等于N（encoder-decoder模型：从名字就能看出，这个结构的原理是先编码后解码。左侧的RNN用来编码得到c，拿到c后再用右侧的RNN进行解码。得到c有多种方式，最简单的方法就是把Encoder的最后一个隐状态赋值给c，还可以对最后的隐状态做一个变换得到c，也可以对所有的隐状态做变换。）

4、标准RNN前向传播

各个符号的含义：x是输入，h是隐层单元，o为输出，L为损失函数，y为训练集的标签。这些元素右上角带的t代表t时刻的状态，其中需要注意的是，隐藏单元h在t时刻的表现不仅由此刻的输入决定，还受t时刻之前时刻的影响。V、W、U是权值，同一类型的权连接权值相同。

对于t时刻，隐藏层的输出：

，ϕ()为激活函数，一般来说会选择tanh函数，b为偏置

t时刻的输出：

最终模型的预测输出为：

，其中σ为激活函数，通常RNN用于分类，故这里一般用softmax函数

5、RNN反向传播BPTT

BPTT（back-propagation through time）算法是常用的训练RNN的方法，其实本质还是BP算法，只不过RNN处理时间序列数据，所以要基于时间反向传播，故叫随时间反向传播。BPTT的中心思想和BP算法相同，沿着需要优化的参数的负梯度方向不断寻找更优的点直至收敛。综上所述，BPTT算法本质还是BP算法，BP算法本质还是梯度下降法，求各个参数的梯度就是此算法的核心。