神经网络算法:一文搞懂LSTM(长短期记忆网络)

您所在的位置:网站首页 神经网络算法优化模型 神经网络算法:一文搞懂LSTM(长短期记忆网络)

神经网络算法:一文搞懂LSTM(长短期记忆网络)

2024-06-26 20:05:33| 来源: 网络整理| 查看: 265

本文将从LSTM的本质、LSTM的原理、LSTM的应用三个方面,带您一文搞懂长短期记忆网络Long Short Term Memory | LSTM。

图片

一、LSTM的本质

RNN 面临问题:RNN(递归神经网络)在处理长序列时面临的主要问题:短时记忆和梯度消失/梯度爆炸。

图片

梯度更新规则

短时记忆

问题描述:RNN在处理长序列时,由于信息的传递是通过隐藏状态进行的,随着时间的推移,较早时间步的信息可能会在传递到后面的时间步时逐渐消失或被覆盖。

影响:这导致RNN难以捕捉和利用序列中的长期依赖关系,从而限制了其在处理复杂任务时的性能。

梯度消失/梯度爆炸

问题描述:在RNN的反向传播过程中,梯度会随着时间步的推移而逐渐消失(变得非常小)或爆炸(变得非常大)。

影响:梯度消失使得RNN在训练时难以学习到长期依赖关系,因为较早时间步的梯度信息在反向传播到初始层时几乎为零。梯度爆炸则可能导致训练过程不稳定,权重更新过大,甚至导致数值溢出。

LSTM解决问题:大脑和LSTM在处理信息时都选择性地保留重要信息,忽略不相关细节,并据此进行后续处理。这种机制使它们能够高效地处理和输出关键信息,解决了RNN(递归神经网络)在处理长序列时面临的问题。 图片

大脑记忆机制

大脑记忆机制:当浏览评论时,大脑倾向于记住重要的关键词。无关紧要的词汇和内容容易被忽略。回忆时,大脑提取并表达主要观点,忽略细节。

LSTM门控机制:LSTM通过输入门、遗忘门和输出门选择性地保留或忘记信息,使用保留的相关信息来进行预测,类似于大脑提取并表达主要观点。

二、LSTM的原理

RNN 工作原理:第一个词被转换成了机器可读的向量,然后 RNN 逐个处理向量序列。

图片

逐一处理矢量序列

隐藏状态的传递

过程描述:在处理序列数据时,RNN将前一时间步的隐藏状态传递给下一个时间步。

作用:隐藏状态充当了神经网络的“记忆”,它包含了网络之前所见过的数据的相关信息。

重要性:这种传递机制使得RNN能够捕捉序列中的时序依赖关系。

图片

将隐藏状态传递给下一个时间步

隐藏状态的计算

细胞结构:RNN的一个细胞接收当前时间步的输入和前一时间步的隐藏状态。

组合方式:当前输入和先前隐藏状态被组合成一个向量,这个向量融合了当前和先前的信息。

激活函数:组合后的向量经过一个tanh激活函数的处理,输出新的隐藏状态。这个新的隐藏状态既包含了当前输入的信息,也包含了之前所有输入的历史信息。

图片

tanh激活函数区间-1~1)

输出:新的隐藏状态被输出,并被传递给下一个时间步,继续参与序列的处理过程。

图片

RNN的细胞结构和运算

LSTM工作原理:

图片

LSTM的细胞结构和运算

输入门

作用:决定哪些新信息应该被添加到记忆单元中。

组成:输入门由一个sigmoid激活函数和一个tanh激活函数组成。sigmoid函数决定哪些信息是重要的,而tanh函数则生成新的候选信息。

运算:输入门的输出与候选信息相乘,得到的结果将在记忆单元更新时被考虑。

图片

输入门(sigmoid激活函数 + tanh激活函数)

遗忘门

作用:决定哪些旧信息应该从记忆单元中遗忘或移除。

组成:遗忘门仅由一个sigmoid激活函数组成。

图片

sigmoid激活函数(区间0~1)

运算:sigmoid函数的输出直接与记忆单元的当前状态相乘,用于决定哪些信息应该被保留,哪些应该被遗忘。输出值越接近1的信息将被保留,而输出值越接近0的信息将被遗忘。

图片

遗忘门(sigmoid激活函数)

输出门

作用:决定记忆单元中的哪些信息应该被输出到当前时间步的隐藏状态中。

组成:输出门同样由一个sigmoid激活函数和一个tanh激活函数组成。sigmoid函数决定哪些信息应该被输出,而tanh函数则处理记忆单元的状态以准备输出。

运算:sigmoid函数的输出与经过tanh函数处理的记忆单元状态相乘,得到的结果即为当前时间步的隐藏状态。

图片

输出门(sigmoid激活函数 + tanh激活函数) 三、LSTM的应用 机器翻译

图片

应用描述:LSTM在机器翻译中用于将源语言句子自动翻译成目标语言句子。

关键组件:

编码器(Encoder):一个LSTM网络,负责接收源语言句子并将其编码成一个固定长度的上下文向量。

解码器(Decoder):另一个LSTM网络,根据上下文向量生成目标语言的翻译句子。

流程:

源语言输入:将源语言句子分词并转换为词向量序列。

编码:使用编码器LSTM处理源语言词向量序列,输出上下文向量。

初始化解码器:将上下文向量作为解码器LSTM的初始隐藏状态。

解码:解码器LSTM逐步生成目标语言的词序列,直到生成完整的翻译句子。

目标语言输出:将解码器生成的词序列转换为目标语言句子。

优化:通过比较生成的翻译句子与真实目标句子,使用反向传播算法优化LSTM模型的参数,以提高翻译质量。

情感分析:

图片

应用描述:LSTM用于对文本进行情感分析,判断其情感倾向(积极、消极或中立)。

关键组件:

LSTM网络:接收文本序列并提取情感特征。

分类层:根据LSTM提取的特征进行情感分类。

流程:

文本预处理:将文本分词、去除停用词等预处理操作。

文本表示:将预处理后的文本转换为词向量序列。

特征提取:使用LSTM网络处理词向量序列,提取文本中的情感特征。

情感分类:将LSTM提取的特征输入到分类层进行分类,得到情感倾向。

输出:输出文本的情感倾向(积极、消极或中立)。

优化:通过比较预测的情感倾向与真实标签,使用反向传播算法优化LSTM模型的参数,以提高情感分析的准确性。



【本文地址】

公司简介

联系我们

今日新闻


点击排行

实验室常用的仪器、试剂和
说到实验室常用到的东西,主要就分为仪器、试剂和耗
不用再找了,全球10大实验
01、赛默飞世尔科技(热电)Thermo Fisher Scientif
三代水柜的量产巅峰T-72坦
作者:寞寒最近,西边闹腾挺大,本来小寞以为忙完这
通风柜跟实验室通风系统有
说到通风柜跟实验室通风,不少人都纠结二者到底是不
集消毒杀菌、烘干收纳为一
厨房是家里细菌较多的地方,潮湿的环境、没有完全密
实验室设备之全钢实验台如
全钢实验台是实验室家具中较为重要的家具之一,很多

推荐新闻


图片新闻

实验室药品柜的特性有哪些
实验室药品柜是实验室家具的重要组成部分之一,主要
小学科学实验中有哪些教学
计算机 计算器 一般 打孔器 打气筒 仪器车 显微镜
实验室各种仪器原理动图讲
1.紫外分光光谱UV分析原理:吸收紫外光能量,引起分
高中化学常见仪器及实验装
1、可加热仪器:2、计量仪器:(1)仪器A的名称:量
微生物操作主要设备和器具
今天盘点一下微生物操作主要设备和器具,别嫌我啰嗦
浅谈通风柜使用基本常识
 众所周知,通风柜功能中最主要的就是排气功能。在

专题文章

    CopyRight 2018-2019 实验室设备网 版权所有 win10的实时保护怎么永久关闭