📜  深度学习|长期短期记忆简介

📅  最后修改于: 2021-04-16 08:23:26             🧑  作者: Mango

长短期记忆是一种递归神经网络。在RNN中,最后一步的输出将作为当前步骤的输入。 LSTM由Hochreiter&Schmidhuber设计。它解决了RNN的长期依赖问题,即RNN无法预测长期存储器中存储的单词,但可以根据最近的信息给出更准确的预测。随着间隙长度的增加,RNN无法提供有效的性能。默认情况下,LSTM可以长时间保留信息。它用于基于时间序列数据进行处理,预测和分类。

LSTM的结构:

LSTM的链结构包含四个神经网络和称为细胞的不同内存块。

信息由单元保留,而存储器操作由完成一共有三个门–

  1. 遗忘门:遗忘门将删除在单元状态中不再有用的信息。将两个输入x_t (在特定时间的输入)和h_t-1 (先前的单元输出)馈送到门,并与权重矩阵相乘,然后加上偏置。结果通过激活函数传递,该函数给出二进制输出。如果对于特定的单元状态,输出为0,则该条信息被遗忘;对于输出1,该信息被保留,以备将来使用。
  2. 输入门:通过输入门将有用信息添加到单元状态。首先,使用S型函数调节信息,并使用输入h_t-1x_t过滤要忘记的值,类似于忘记门。然后,使用tanh函数创建一个向量,该向量给出从-1到+1的输出,其中包含h_t-1和x_t的所有可能值。最后,将向量的值与调节值相乘以获得有用的信息
  3. 输出门:从当前单元状态中提取有用信息以作为输出呈现的任务是由输出门完成的。首先,通过在细胞上应用tanh函数来生成向量。然后,使用S型函数调节信息,并使用输入h_t-1x_t过滤要记住的值。最后,将向量的值和调节值相乘以作为输出发送并输入到下一个单元格。

LSTM的一些著名应用包括:

  1. 语言建模
  2. 机器翻译
  3. 图片字幕
  4. 手写生成
  5. 问答聊天机器人