深度学习-李沐-第九节-长短期记忆网络(LSTM)

moye Lv6

长短期记忆网络(LSTM)

长短期存储器(long short-term memory,LSTM) 是一种特殊的RNN,主要是为了解决长序列训练过程中的梯度消失和梯度爆炸问题。简单来说,就是相比普通的RNN,LSTM能够在更长的序列中有更好的表现。

门控记忆元

  • 为了控制记忆元,我们需要许多门。
  • 其中一个门用来从单元中输出条目,我们将其称为输出门(output gate)
  • 一个门用来决定何时将数据读入单元,我们将其称为输入门(input gate)
  • 一种机制来重置单元的内容,由遗忘门(forget gate)来管理。将值向0减少

LSTM结构

小结

  • 长短期记忆网络有三种类型的门:输入门、遗忘门和输出门。
  • 长短期记忆网络的隐藏层输出包括“隐状态”和“记忆元”。只有隐状态会传递到输出层,而记忆元完全属于内部信息。
  • 长短期记忆网络可以缓解梯度消失和梯度爆炸。
  • 标题: 深度学习-李沐-第九节-长短期记忆网络(LSTM)
  • 作者: moye
  • 创建于 : 2022-08-16 15:00:46
  • 更新于 : 2025-12-11 14:39:48
  • 链接: https://www.kanes.top/2022/08/16/深度学习-李沐-第九节-长短期记忆网络(LSTM)/
  • 版权声明: 本文章采用 CC BY-NC-SA 4.0 进行许可。
评论
目录
深度学习-李沐-第九节-长短期记忆网络(LSTM)