Découvrez le principe de l’apprentissage semi supervisé

Rappelez-vous les principes du supervisé et du non supervisé

Avant d’aborder l’apprentissage semi-supervisé, prenons un moment pour revoir les bases du machine learning.

 

Apprentissage supervisé

Apprentissage non supervisé

Définitions

Dans un apprentissage supervisé, le modèle apprend à partir d’exemples annotés : chaque donnée d’entrée x est associée à un label (étiquette) y. L’objectif est de généraliser ces correspondances à de nouvelles données. 

Dans un apprentissage non supervisé, le modèle explore les données sans label. Il cherche des structures cachées, des regroupements ou des représentations pertinentes ; par exemple en utilisant le partitionnement de données (ou clustering en anglais) ou la réduction de dimensionnalité.

Limites

Cette approche fonctionne très bien lorsque l’on dispose d’un grand volume de données labellisées, mais elle devient rapidement coûteuse dès que l’annotation exige une expertise humaine, comme en imagerie médicale.

Dans un apprentissage non supervisé, les résultats sont plus difficiles à interpréter humainement, et il devient également complexe d’évaluer la qualité des résultats obtenus.

Ces deux approches forment les deux extrêmes d’un spectre : 

  1. D’un côté, la dépendance aux labels (apprentissage supervisé) ; 

  2. De l’autre, la liberté totale mais parfois imprécise (apprentissage non supervisé).

L’apprentissage semi-supervisé (SSL) vient occuper l’espace entre les deux.

Comprenez l’intérêt de l’apprentissage semi-supervisé

Imaginez le service d’imagerie médicale d’un grand hôpital. Chaque semaine, des milliers de nouvelles images sont produites, mais seules quelques centaines seront annotées par des spécialistes. 

Résultat : un océan de données inexploitées.

C’est ici que le SSL prend tout son sens.
Cette approche exploite le meilleur des deux mondes !

Concrètement, le SSL permet :

  • de réduire les coûts d’annotation, en limitant l’effort des experts à un échantillon représentatif ;

  • d’améliorer la généralisation du modèle, en tirant parti de la diversité des données non labellisées ;

  • d’accroître la robustesse et la calibration des prédictions, en apprenant à partir de signaux faibles ou partiels.

Cette approche répond donc à un besoin très concret. C’est particulièrement vrai dans le contexte médical (sujet fil rouge qui nous intéresse dans ce cours) : entraîner des modèles fiables dans un contexte de données incomplètes pour lesquelles les annotations sont coûteuses à produire.

Comprenez les principes fondamentaux du semi-supervisé

L’idée fondamentale du SSL est simple : utiliser les données non labellisées pour mieux structurer l’espace d’apprentissage. Plusieurs stratégies existent, que vous découvrirez et expérimenterez dans les chapitres suivants.

  1. La première, la pseudo-labellisation (ou pseudo labelling en anglais), consiste à utiliser le modèle lui-même pour attribuer des labels temporaires à des données non annotées. Le modèle s’auto-enseigne, en s’appuyant sur ses propres prédictions les plus confiantes. Cela permet de renforcer le signal supervisé tout en gardant la cohérence de la distribution.

  2. Une autre approche repose sur les graphes de similarité. Ici, les données sont représentées comme des nœuds reliés selon leur proximité dans un espace de caractéristiques. Les labels connus sont alors propagés le long de ces connexions, permettant au modèle d’inférer les classes manquantes par continuité.

  3. Enfin, les méthodes de régularisation par cohérence garantissent que les prédictions restent stables même lorsque les données d’entrée subissent de légères perturbations. Une image peut, par exemple : 

    1. être à l'envers ou sur le côté (rotation), 

    2. surexposée ou trop sombre (luminosité), 

    3. floue (bruit)

L’objectif pour le modèle est d’apprendre une représentation robuste, fidèle à la structure intrinsèque du jeu de données.

Ces trois familles de méthodes partagent une intuition commune : si deux exemples se ressemblent, ils devraient conduire à des prédictions similaires. En exploitant ce principe, le SSL construit des modèles capables de généraliser efficacement à partir d’un nombre limité de labels.

En résumé 

  • L’apprentissage semi-supervisé est une réponse pragmatique à la rareté des données labellisées.

  • Il combine la rigueur du supervisé avec la richesse du non supervisé, pour produire des modèles plus efficaces et plus économiques.

Vous avez maintenant une meilleure compréhension des fondements théoriques du SSL et de son intérêt pratique dans les contextes réels, notamment médicaux. Dans le prochain chapitre, vous apprendrez à implémenter pas à pas votre premier modèle semi-supervisé, en commençant par la méthode la plus directe : la pseudo-labellisation.

Et si vous obteniez un diplôme OpenClassrooms ?
  • Formations jusqu’à 100 % financées
  • Date de début flexible
  • Projets professionnalisants
  • Mentorat individuel
Trouvez la formation et le financement faits pour vous