LSTMs resolvem o problema usando uma estrutura de gradiente aditivo única que inclui acesso direto às ativações do gate de esquecimento, permitindo que a rede encoraje o comportamento desejado do gradiente de erro usando atualização frequente de gates em cada etapa do processo de aprendizagem.
Como o LSTM resolve o gradiente explosivo?
Uma resposta muito curta: LSTM desacopla o estado da célula (tipicamente denotado por c) e camada/saída oculta (tipicamente denotado por h), e apenas faz atualizações aditivas para c, o que torna as memórias em c mais estáveis. Assim, o gradiente flui através de c é mantido e difícil de desaparecer (portanto, o gradiente geral é difícil de desaparecer).
Como o problema do gradiente de fuga pode ser resolvido?
Soluções: A solução mais simples é usar outras funções de ativação, como ReLU, que não causa uma pequena derivada. Redes residuais são outra solução, pois fornecem conexões residuais diretamente para camadas anteriores.
Qual problema o LSTM resolve?
LSTMs. LSTM (abreviação de long short-term memory) resolve principalmente o problema do gradiente de fuga na retropropagação. Os LSTMs usam um mecanismo de bloqueio que controla o processo de memorização. As informações em LSTMs podem ser armazenadas, escritas ou lidas por meio de portas que abrem e fecham.
Por que as LSTMs impedem que seus gradientes desapareçam de uma visão da passagem para trás?
A razão para isso é porque, para impor esse fluxo de erro constante, o cálculo do gradiente foi truncado para não fluir de volta para as portas de entrada ou candidatas.