Por que descendente de gradiente estocástico?

Por que descendente de gradiente estocástico?
Por que descendente de gradiente estocástico?
Anonim

De acordo com um cientista de dados sênior, uma das vantagens distintas de usar o Stochastic Gradient Descent é que ele faz os cálculos mais rapidamente do que o gradiente descendente e o gradiente descendente em lote … Além disso, em conjuntos de dados massivos, a descida de gradiente estocástica pode convergir mais rapidamente porque executa atualizações com mais frequência.

Para que serve a Descida do Gradiente Estocástico?

Descida de gradiente estocástico é um algoritmo de otimização frequentemente usado em aplicações de aprendizado de máquina para encontrar os parâmetros do modelo que correspondem ao melhor ajuste entre as saídas previstas e reais É uma técnica inexata, mas poderosa. A descida de gradiente estocástica é amplamente utilizada em aplicações de aprendizado de máquina.

Por que precisamos usar a descida de gradiente estocástica em vez da descida de gradiente padrão para treinar uma rede neural convolucional?

Descida do gradiente estocástico atualiza os parâmetros para cada observação que leva a um maior número de atualizações. Portanto, é uma abordagem mais rápida que ajuda na tomada de decisão mais rápida. Atualizações mais rápidas em diferentes direções podem ser observadas nesta animação.

Por que preferimos gradiente descendente?

A principal razão pela qual o gradiente descendente é usado para regressão linear é a complexidade computacional: é computacionalmente mais barato (mais rápido) encontrar a solução usando o gradiente descendente em alguns casos. Aqui, você precisa calcular a matriz X′X e depois invertê-la (veja a nota abaixo). É um cálculo caro.

Por que o SGD é usado?

Descida de gradiente estocástica (muitas vezes abreviado SGD) é um método iterativo para otimizar uma função objetivo com propriedades de suavidade adequadas (por exemplo, diferenciável ou subdiferenciável).

Recomendado: