Oui c'est bien ça, mais il y a moyen de beaucoup simplifier l'expression en la découpant en plusieurs parties.
Cette forme est aussi beaucoup plus performante au niveau algorithmique puisqu'on calcul l'erreur d'une couche en fonction de l'erreur de la couche suivante (la couche vers la droite) c'est pour ça que ça s'appelle la "rétro-propagation" du gradient.
Bien sur il y a moyen de découper davantage pour optimiser encore plus le temps de calcul :
Et on peut même expliciter la plupart des dérivées, par exemple
Ou alors en remarquant que W n'est connecté qu'au premier nœud de la couche (l-2) donc que
J'espère que je n'ai pas fait d'erreur, si quelqu'un en voit une n'hésitez pas à me corriger.
- Edité par WatashiGaKita 8 février 2022 à 14:07:19
Le Tout est souvent plus grand que la somme de ses parties.