Part 1
Identifiez les principes de base des réseaux de neurones artificiels
Part 2
Découvrez les réseaux de neurones adaptés au traitement de séquences

Part 1
Identifiez les principes de base des réseaux de neurones artificiels
Part 2
Découvrez les réseaux de neurones adaptés au traitement de séquences

Explorez les réseaux de neurones en couches

Dans ce chapitre, nous allons comprendre les limitations d’un neurone formel, et comment les lever en mettant les neurones en réseau. Ensuite nous allons voir comment utiliser un réseau en couches.

Limitation du neurone formel

Nous avons vu comment on peut utiliser un modèle avec un simple neurone et l'appliquer à une tâche de classification.
Cependant, un seul neurone ne permet pas de répondre à des problèmes complexes.

Mettez plusieurs neurones en réseau

Pour résoudre des problèmes complexes, les neurones biologiques communiquent aussi entre eux via les synapses, et forment un réseau. Nous pouvons associer les neurones formels de la même manière, en affectant la sortie d'un neurone à une ou plusieurs entrées d'autres neurones.

Voici une topologie quelconque de réseaux. Chaque nœud rouge représente un neurone.

On utilise le plus souvent des réseaux particuliers organisés en couches :

Un réseau multi-couche — Un réseau multicouche

L'influx d'information va toujours des couches d'entrées aux couches de sorties. Ces réseaux peuvent être appris par descente de gradient. Ils sont adaptés aux données de tailles fixes, comme des images. Ils portent le nom de perceptron multicouche (PMC), Feed-Forward ou Multi Layer Perceptron (MLP) en anglais.

Un réseau réccurent — Un réseau récurrent

Son apprentissage n'est pas aisé. Nous nous concentrerons d'abord sur les réseaux multicouches. Les réseaux récurrents feront l'objet d'une partie propre dans ce SPOC.

Organisation en une couche

Construisons tout d'abord un réseau à une seule couche.

Ici, nous avons mis 2 neurones en parallèle. Les sorties de chaque neurone sont concaténées pour former un vecteur $$$\mathbf{y}$$$ . Les entrées sont toujours un vecteur $$$\mathbf{x}$$$ . Le calcul de la sortie se fait par les équations :

$$$ S_j = \sum_i w_{ji}x_i $$$

$$$y_j = f(S_j)$$$

où $$$W_{ji}$$$ représente la pondération entre l'entrée $$$i$$$ et la sortie $$$j$$$ . On a remplacé le biais $$$b$$$ à l'aide d'une fausse entrée qui reste constante à la valeur 1. Ainsi, $$$W_{j0}$$$ correspond au biais $$$b_j$$$ du neurone $$$j$$$ . $$$W$$$ forme une matrice contenant les paramètres de la couche.

Comment apprendre un réseau à une seule couche ?

On applique une descente de gradient avec comme déplacement :

$$$\begin{align*} \frac{\partial L}{\partial w_{ji}} &= \frac{\partial L}{\partial y_j} \frac{\partial y_j}{\partial S_j} \frac{\partial S_j}{\partial w_{ji}} \\ &= \frac{\partial L}{\partial y_j} f'(S_j)\,x_i \end{align*}$$$

Organisation en plusieurs couches

Tout d'abord, nous reprenons l'organisation précédente ; seulement, nous remplaçons l'entrée $$$\mathbf{x}$$$ par une entrée quelconque $$$I$$$ , et la sortie $$$\mathbf{y}$$$ par une sortie quelconque $$$O$$$ . Dans la figure suivante, $$$(l)$$$ représente le numéro de la couche sur laquelle on se trouve :

Une couche isolée à l'intérieur d'un PMC

Organisation en plusieurs couches

$$$I^{(2)} \leftarrow O^{(1)} $$$

En outre, pour la première couche, on aura l'entrée égale aux caractéristiques $$$\mathbf{x}$$$ . Et pour la dernière couche, la sortie représente l'estimation de la cible : $$$\hat{\mathbf{y}}$$$

$$$I^{(1)} \leftarrow \mathbf{x} \qquad \hat{\mathbf{y}} \leftarrow O^{(2)}$$$

Un réseau à deux couches — Un réseau complet à deux couches

Voici le réseau final :

$$$\begin{align*} S_j^{(l)} &= \sum_i w_{ji}^{(l)} I_i^{(l)} \\ O_j^{(l)} &= f^{(l)}\!\left(S_j^{(l)}\right) \rightarrow I_j^{(l+1)} \end{align*}$$$

où $$$(l)$$$ est le numéro de couche.

Les équations en phase de décision pour une couche restent les mêmes. L'entrée est simplement remplacée par la sortie de la couche précédente. Et la sortie de la couche est reliée à l'entrée de la couche suivante. Formellement, cela s'écrit ainsi :

Rétropropagation du gradient

où $$$(l)$$$ est le numéro de couche.

Rétropropagation du gradient

Regardons ce qui se passe plus en détail sur une couche $$$(l)$$$ . On suppose que l'on connaît le gradient de la perte $$$L$$$ par rapport à la sortie $$$j$$$ de la couche $$$O_j^{(l)}$$$ .

Les gradients de la perte par rapport aux paramètres de la couche sont alors donnés par :
$$$\begin{align*} \frac{\partial L}{\partial w_{ji}^{(l)}} &= \frac{\partial L}{\partial O_j^{(l)}} \frac{\partial O_j^{(l)}}{\partial S_j^{(l)}} \frac{\partial S_j^{(l)}}{\partial w_{ji}^{(l)}} \\ \frac{\partial L}{\partial w_{ji}^{(l)}} &= \frac{\partial L}{\partial O_j^{(l)}} f^{(l)\prime}(S_j^{(l)})\,I_i^{(l)} \end{align*}$$$

On calcule ensuite les gradients de la perte par rapport aux entrées de la couche $$$\frac{\partial L}{\partial I_i^{(l)}}$$$ :

$$$\begin{align*} \frac{\partial L}{\partial I_i^{(l)}} &= \sum_j \frac{\partial L}{\partial O_j^{(l)}} \frac{\partial O_j^{(l)}}{\partial I_i^{(l)}} \\ &= \sum_j \frac{\partial L}{\partial O_j^{(l)}} \frac{\partial O_j^{(l)}}{\partial S_j^{(l)}} \frac{\partial S_j^{(l)}}{\partial I_i^{(l)}} \\ &= \sum_j \frac{\partial L}{\partial O_j^{(l)}} f'(S_j^{(l)}) w_{ji} \end{align*}$$$

On voit que l'on somme plusieurs termes. En effet, il faut prendre en compte tous les chemins entre l'entrée $$$i$$$ et toutes les sorties possibles.

on commence par calculer le gradient des sorties de la dernière couche :

$$$\frac{\partial L}{\partial O_j^{(\text{last})}} \leftarrow \frac{\partial L}{\partial \hat{y}_j}$$$
on itère le calcul des gradients sur les couches, en partant de la fin. Le gradient de l'entrée de la couche (l) étant utilisé comme gradient de la sortie de la couche précédente :

$$$ \frac{\partial L}{\partial O_j^{(l-1)}} \leftarrow \frac{\partial L}{\partial I_i^{(l)}} $$$

Illustration sur un jeu de données non linéairement séparable

on commence par calculer le gradient des sorties de la dernière couche :
$$$ \frac{\partial L}{\partial O_j^{(\text{last})}} \leftarrow \frac{\partial L}{\partial \hat{y}_j} $$$
on itère le calcul des gradients sur les couches, en partant de la fin. Le gradient de l'entrée de la couche (l) étant utilisé comme gradient de la sortie de la couche précédente :

$$$ \frac{\partial L}{\partial O_j^{(l-1)}} \leftarrow \frac{\partial L}{\partial I_i^{(l)}} $$$

Maintenant, on peut résoudre un problème non linéairement séparable :

Fonction de décision du PMC ; la courbe en noir indique la séparation entre les deux groupes

Nous avons construit un réseau contenant 3 neurones sur une première couche, et 2 neurones sur une seconde couche (comme dans l'exemple de la précédente section). Grâce à l'apport du multicouche, on peut maintenant séparer ces exemples en deux groupes :

Voici l'évolution de la fonction de décision au cours de l'apprentissage :

Cliquez ici pour visualiser l'animation de l'apprentissage du PMC sur l'exemple XOR.

Allez plus loin :

Article sur les réseaux de neurones artificiels.

Friedman, J., Hastie, T., & Tibshirani, R. (2001). The elements of statistical learning (Vol. 1, No. 10). New York, NY, USA: Springer series in statistics.

En résumé

Dans ce chapitre, nous avons vu qu'un neurone isolé ne peut pas résoudre de problème non-linéairement séparable. Il faut pour cela regrouper plusieurs neurones entre eux dans un réseau de neurones artificiels. Nous avons différents types de réseaux possibles, et nous nous sommes attardés sur les réseaux de neurones en couches dits perceptrons multicouches. Ce type de réseau s'apprend par un algorithme particulier, la rétropropagation du gradient.

Any feedback to share with us?

Ever considered an OpenClassrooms diploma?

Up to 100% of your training program funded
Flexible start date
Career-focused projects
Individual mentoring

Find the training program and funding option that suits you best

Guide me Compare training types

Table of contents

Identifiez les principes de base des réseaux de neurones artificiels

Découvrez les réseaux de neurones adaptés au traitement de séquences

Table of contents

Identifiez les principes de base des réseaux de neurones artificiels

Découvrez les réseaux de neurones adaptés au traitement de séquences

Explorez les réseaux de neurones en couches

Limitation du neurone formel

Mettez plusieurs neurones en réseau

Organisation en une couche

Comment apprendre un réseau à une seule couche ?

Organisation en plusieurs couches

Organisation en plusieurs couches

Rétropropagation du gradient

Rétropropagation du gradient

Illustration sur un jeu de données non linéairement séparable

Allez plus loin :

En résumé