Alors que si on dérive l'erreur quadratique par rapport à w_i, on a une dérivée de la fonction d'activation (la fonction sigmoide ici) qui apparaît. Pourquoi n'a-t-on pas plutôt (avec sk=f(ak), où f est la fonction sigmoide, et g sa dérivée) :
w_i = w_i + alpha*(yk - sk)*g(ak)*x_i
Voilà j'espère que ma question est claire, merci par avance.
- Edité par victorm951 28 mai 2019 à 16:05:30
Algorithme de descente de gradient
× Après avoir cliqué sur "Répondre" vous serez invité à vous connecter pour que votre message soit publié.
× Attention, ce sujet est très ancien. Le déterrer n'est pas forcément approprié. Nous te conseillons de créer un nouveau sujet pour poser ta question.