Initiez-vous à l'apprentissage semi-supervisé

Table des matières

Partie 1
Mettez en place un modèle semi-supervisé

Table des matières

Partie 1
Mettez en place un modèle semi-supervisé

Allez plus loin

Les techniques avancées combinent toutes les briques (pseudo-labelling, propagation, GANs, etc…) pour exploiter au maximum et de façon fine vos données non étiquetées.

Explorez des techniques avancées

Prenons 3 exemples de techniques avancées : FixMatch, FlexMatch et MixMatch pour que vous puissiez les tester dans vos projets.

FixMatch

FixMatch est comme un coach strict et efficace. Voici comment il fonctionne étape par étape :

Étape 1 : Augmentations doubles. Prenez une image non labellisée et appliquez deux types de transformations ; une faible (ex. : petite rotation) et une forte (ex. : déformation + bruit).
Étape 2 : Pseudo-labelling confiant. Utilisez la prédiction sur la version faible pour générer un label provisoire, mais seulement si la confiance dépasse un seuil fixe (ex. : 0.95).
Étape 3 : Cohérence imposée. Forcez le modèle à prédire le même label sur la version forte. Si ça colle, ajoutez-la à l’entraînement ; sinon, ignorez-la pour éviter les erreurs.

Pourquoi c’est génial ? FixMatch est simple à implémenter et peut donner des gains de performances impressionnants, surtout dans les cas où le modèle doit ignorer du bruit sur les inputs. Par exemple, imaginez une radio où une petite perturbation (lumière variable) ne change pas le diagnostic d’une tumeur ; c’est ce que FixMatch gère particulièrement bien !

FlexMatch

FlexMatch est la version flexible (oui, c’est évident, mais il fallait que je le dise, je vous assure) de FixMatch. Il ajuste le seuil de confiance dynamiquement par classe :

Pour les classes faciles (où le modèle est déjà confiant), il maintient un seuil haut.
Pour les classes rares ou complexes (ex. : lésions vasculaires), il le baisse pour inclure plus de pseudo-labels.

Cela accélère l’apprentissage sur les cas difficiles sans diluer la qualité globale.

MixMatch

MixMatch combine pseudo-labellisation, régularisation par cohérence et des augmentations multiples. Voici comment il opère, étape par étape :

Étape 1 : Multiples augmentations. Prenez une image non labellisée et générez plusieurs versions augmentées (ex. : rotations, retournements, ajustements de couleur).
Étape 2 : Création de pseudo-labels moyennés. Calculez les prédictions sur toutes ces versions, faites une moyenne pour obtenir un pseudo-label plus fiable, et ne gardez que ceux avec une confiance élevée (ex. : au-dessus de 0.7).
Étape 3 : Entraînement équilibré. Mélangez ces pseudo-labels avec les données labellisées, en ajustant les poids pour équilibrer les classes rares, puis entraînez le modèle à être cohérent sur toutes les versions augmentées.

Pourquoi faire tout ça ? MixMatch excelle quand vous avez un déséquilibre énorme entre classes (comme des lésions rares dans Kvasir-SEG), car il adoucit l’impact des erreurs de prédictions sur l’apprentissage et les rend plus stables.

Comprenez les enjeux de trois défis majeurs

Allons décortiquer trois défis majeurs, avec des exemples pour que vous puissiez les anticiper dans vos projets.

Défi n°1 - La robustesse aux données aberrantes ou atypiques

Imaginez une image médicale avec du bruit extrême, une annotation erronée, ou une variation inattendue (ex. : un artefact d’appareil). En SSL, ces anomalies peuvent se propager via les pseudo-labels ou la cohérence, faussant tout le modèle. Par exemple, si une image floue d’un polype est mal interprétée, elle pourrait induire des erreurs en cascade sur les non labellisées. La clé pour éviter ces anomalies ? Des techniques comme des seuils adaptatifs ou des détections d’anomalies pour filtrer ces intrus, mais comme vous avez pu le voir, cela reste délicat à gérer, même en ajustant ces seuils. Il faut donc souvent se poser et réfléchir à une solution spécifique pour ces outliers : un entraînement juste pour eux, un nouveau modèle spécialisé sur ces cas, etc…

Défi n°2 - La gestion des biais

Si vos données viennent principalement d’un groupe démographique (ex. : patients d’un certain âge ou d’une région), le modèle risque de favoriser ces cas et de discriminer les autres. En SSL, où les données non labellisées amplifient les patterns existants (encore plus que dans les autres types d’apprentissage), cela peut aggraver les inégalités. Pensez à un modèle qui excelle sur des radios d’adultes mais rate les cas pédiatriques (un vrai problème en médecine !). Vous aurez besoin d’augmentations (synthétiques ou réelles) ciblées pour contrer ces biais.

Défi n°3 - L’évaluation fiable des performances

Avec peu de labels, comment savoir si votre modèle est vraiment bon ? Les métriques classiques comme l’AUC ou le F1-score peuvent tromper si votre jeu de test est biaisé ou trop petit. En SSL, où les prédictions sur les données non labellisées sont auto-générées, il est difficile d’éviter l’overfitting circulaire*. Ici, pas trop d’autres choix que de bien faire attention au design de ce que vous considérez être un cas d’usage ou une validation de votre modèle final.

Projetez-vous sur les évolutions futures du SSL

Nous voilà arrivés à la fin de ce cours sur l’apprentissage semi-supervisé, bravo et merci de l’avoir suivi ! Vous avez maintenant les bases pour dompter ce concept essentiel.

Pour piquer votre curiosité, je vous propose trois tendances actuelles qui peuvent maintenant vous intéresser :

Cherchez, explorez, testez.

En résumé

FixMatch, FlexMatch et MixMatch fusionnent pseudo-labellisation et régularisation par cohérence pour améliorer les résultats de votre stratégie SSL.
Les défis comme la robustesse aux anomalies, la gestion des biais et l’évaluation fiable restent les limites les plus complexes à gérer dans le cadre du SSL.
N’en restez pas là ! Pourquoi ne pas explorer les horizons du SSL avec l’apprentissage auto-supervisé, l'apprentissage Few-Shot” et le méta-apprentissage ?

C'est la fin de ce cours, mais il vous reste un quiz pour tester vos connaissances. Bonne chance !

Avez-vous une suggestion pour nous ?

Et si vous obteniez un diplôme OpenClassrooms ?

Formations jusqu’à 100 % financées
Date de début flexible
Projets professionnalisants
Mentorat individuel

Trouvez la formation et le financement faits pour vous

Être orienté Comparez nos types de formation

Table des matières

Mettez en place un modèle semi-supervisé

Tirez un maximum de ce cours

Découvrez le principe de l’apprentissage semi supervisé

Catégorisez l’inconnu avec la pseudo-labellisation

Modélisez les relations entre différentes entités

Classifiez des données non-labellisées avec un générateur et un discriminateur

Maintenez des prédictions stables avec la régularisation par cohérence

Allez plus loin

Quiz : Mettre en place un modèle semi-supervisé

Table des matières

Mettez en place un modèle semi-supervisé

Tirez un maximum de ce cours

Découvrez le principe de l’apprentissage semi supervisé

Catégorisez l’inconnu avec la pseudo-labellisation

Modélisez les relations entre différentes entités

Classifiez des données non-labellisées avec un générateur et un discriminateur

Maintenez des prédictions stables avec la régularisation par cohérence

Allez plus loin

Quiz : Mettre en place un modèle semi-supervisé

Allez plus loin

Explorez des techniques avancées

FixMatch

FlexMatch

MixMatch

Comprenez les enjeux de trois défis majeurs

Défi n°1 - La robustesse aux données aberrantes ou atypiques

Défi n°2 - La gestion des biais

Défi n°3 - L’évaluation fiable des performances

Projetez-vous sur les évolutions futures du SSL

En résumé