Oui c'est bien ça, mais il y a moyen de beaucoup simplifier l'expression en la découpant en plusieurs parties.
Cette forme est aussi beaucoup plus performante au niveau algorithmique puisqu'on calcul l'erreur d'une couche en fonction de l'erreur de la couche suivante (la couche vers la droite) c'est pour ça que ça s'appelle la "rétro-propagation" du gradient.
Bien sur il y a moyen de découper davantage pour optimiser encore plus le temps de calcul :
Et on peut même expliciter la plupart des dérivées, par exemple
Ou alors en remarquant que W n'est connecté qu'au premier nœud de la couche (l-2) donc que
J'espère que je n'ai pas fait d'erreur, si quelqu'un en voit une n'hésitez pas à me corriger.
- Edité par WatashiGaKita 8 février 2022 à 14:07:19
Oui la playliste sur les réseaux de neurones de 3Blue1Brown est excellente
la rétro-propagation des réseaux de neurones
× Après avoir cliqué sur "Répondre" vous serez invité à vous connecter pour que votre message soit publié.
× Attention, ce sujet est très ancien. Le déterrer n'est pas forcément approprié. Nous te conseillons de créer un nouveau sujet pour poser ta question.
Le Tout est souvent plus grand que la somme de ses parties.