Por que lstm resolve gradiente de fuga?

Índice:

Por que lstm resolve gradiente de fuga?
Por que lstm resolve gradiente de fuga?

Vídeo: Por que lstm resolve gradiente de fuga?

Vídeo: Por que lstm resolve gradiente de fuga?
Vídeo: Deep Learning 68: Solving Vanishing Gradient Problem in Long Short-Term Memory (LSTM) Architecture 2024, Outubro
Anonim

LSTMs resolvem o problema usando uma estrutura de gradiente aditivo única que inclui acesso direto às ativações do gate de esquecimento, permitindo que a rede encoraje o comportamento desejado do gradiente de erro usando atualização frequente de gates em cada etapa do processo de aprendizagem.

Como o LSTM resolve o gradiente explosivo?

Uma resposta muito curta: LSTM desacopla o estado da célula (tipicamente denotado por c) e camada/saída oculta (tipicamente denotado por h), e apenas faz atualizações aditivas para c, o que torna as memórias em c mais estáveis. Assim, o gradiente flui através de c é mantido e difícil de desaparecer (portanto, o gradiente geral é difícil de desaparecer).

Como o problema do gradiente de fuga pode ser resolvido?

Soluções: A solução mais simples é usar outras funções de ativação, como ReLU, que não causa uma pequena derivada. Redes residuais são outra solução, pois fornecem conexões residuais diretamente para camadas anteriores.

Qual problema o LSTM resolve?

LSTMs. LSTM (abreviação de long short-term memory) resolve principalmente o problema do gradiente de fuga na retropropagação. Os LSTMs usam um mecanismo de bloqueio que controla o processo de memorização. As informações em LSTMs podem ser armazenadas, escritas ou lidas por meio de portas que abrem e fecham.

Por que as LSTMs impedem que seus gradientes desapareçam de uma visão da passagem para trás?

A razão para isso é porque, para impor esse fluxo de erro constante, o cálculo do gradiente foi truncado para não fluir de volta para as portas de entrada ou candidatas.

Recomendado: