• 6 heures
  • Facile

Ce cours est visible gratuitement en ligne.

course.header.alt.is_certifying

J'ai tout compris !

Mis à jour le 26/10/2023

Appréhendez les modèles d’IA “à usage général”

Ces modèles d’IA, complexes et coûteux à développer, sont parfois appelés “modèles fondationnels” du fait de leur capacité à être réutilisés et adaptés par différents acteurs par la suite pour des cas d’usages dans un domaine précis. Des entreprises ou utilisateurs peuvent ainsi soumettre de nouvelles données d’apprentissage au modèle d’IA préexistant afin d’optimiser sa performance dans un domaine précis, par exemple ses réponses à des questions médicales ou juridiques (une technique dénommée “fine tuning”). Un peu comme un fournisseur qui vend son shampoing en marque blanche à une entreprise de cosmétique, qui y appose ensuite son étiquette pour cibler une clientèle spécifique. 

L'IA étroite est très performante sur une tâche précise, mais incapable d’effectuer d’autres tâches qui nous paraissent pourtant dérisoires. Pendant longtemps, nous n’étions capables que de développer des IA étroites. L’IA qui a battu le meilleur joueur d’échecs au monde date par exemple des années 1990, mais elle était incapable de battre des humains dans d’autres jeux, comme le Go, et encore moins de faire des tâches radicalement différentes comme répondre à des questions ou manipuler des objets.

À l'inverse, l'intelligence artificielle générale (AGI) pourrait accomplir un spectre beaucoup plus large de tâches aussi bien qu’un humain, voire mieux : dialoguer, planifier, programmer des machines, manipuler des objets, etc. Depuis quelques années, les laboratoires à la pointe de l’IA développent des IA de plus en plus générales. Des systèmes d’IA de traitement du langage naturel, comme le chatbot ChatGPT d’OpenAI, peuvent désormais passer des tests standardisés en maths et en médecine, coder des sites web et écrire votre lettre de motivation. Bien que les experts de l'IA ne s'accordent pas sur le fait qu’une IA générale puisse devenir aussi intelligente que les humains dans tous les domaines, la possibilité de systèmes d’IA plus performants que les humains sur de nombreuses tâches doit tous nous faire réfléchir à une société dans laquelle nous ne serions plus les plus intelligents, et anticiper les éventuels bouleversements et dangers.

Découvrez un exemple d’IA à usage général : l’IA générative

Aujourd’hui, certaines IA sont capables d’effectuer un grand nombre de tâches liées à la génération de contenu. Ces IA sont appelées IA génératives, à l’instar de ChatGPT, un chatbot qui permet de communiquer avec la machine.

Les 5 premières propositions de ChatGPT

ChatGPT est l’exemple le plus souvent évoqué d’IA générative, mais il est loin d’être le seul. D’autres IA similaires existent et se développent rapidement.

On en trouve de plusieurs types :

  • Des générateurs de texte : on parle de “modèles de langage”. C’est le cas de ChatGPT, mais aussi de LLaMa de Meta, Ernie de Baidu, Bard de Google, etc. Leur rôle est de générer des phrases qui ont du sens. Ils peuvent compléter un texte mais aussi dialoguer avec un humain ou travailler sur un texte pour le modifier, en suivant des instructions écrites dans la langue de notre choix (français, anglais, espagnol…). Ils peuvent aussi écrire du code dans des langages informatiques.

  • Des générateurs d’images : sur la base d’une simple description écrite, ils créent de nouvelles images. Il est possible de leur demander des images photo réalistes comme des concepts artistiques. C’est le cas de Dall-E (par OpenAI, les créateurs de ChatGPT), mais aussi de Midjourney, Stable Diffusion, etc. 

Voici quelques exemples d’images générées par Midjourney :

Images photo réalistes d'un homme avec des lunettes de soleil et une veste en cuir ; un koala qui joue de la guitare électrique ; une femme rousse avec un pull orange.

Le plus perturbant est que ces personnes n’existent pas, elles sont entièrement inventées par l’IA (pour le koala qui joue de la guitare, je suppose que vous aviez deviné !).

  • Des générateurs de contenus audio : il est possible de générer des voix sur la base de texte (on parle de “text-to-speech”), et même des musiques. Certaines de ces IA sont encore jeunes mais prometteuses, et surtout : elles évoluent vite. Citons entre autres Elevenlabs, Coqui.ai, OpenAI Jukebox

  • Des générateurs de vidéo : Runway, Synthesia.io, D-ID… si ces générateurs de vidéo sont très récents, ils évoluent là encore très vite. Il devient concevable de générer des vidéos sur la base d’une simple instruction texte désormais. Pourquoi pas un film produit à la demande un jour ?

Les IA capables de générer différents types de contenu – texte, image, vidéo, son, etc. – sont appelées des IA génératives multimodales

Certaines de ces IA sont open source, c’est-à-dire que le modèle d’IA est accessible à tous, en particulier à des développeurs qui souhaitent le copier. D’autres sont interopérables par API, un outil qui permet à l’utilisateur d'interagir avec le modèle d’IA sans toutefois y avoir accès directement. Cette abondance facilite l'innovation dans toutes les directions.

Comprenez le fonctionnement de l’IA générative

Concentrons-nous sur la plus célèbre d’entre elles : ChatGPT.

Ça ne vous avance pas beaucoup ? Creusons un peu plus :

  • Generative : cela signifie que c’est une IA générative, dont le rôle est de générer du contenu – du texte, des images, des vidéos, ou tout à la fois si c’est une IA générative multimodale.

  • Pre-trained : c’est une IA qui a été entraînée au préalable. On lui a fait lire des millions et des millions de livres, sites web, pages de l’encyclopédie en ligne Wikipédia. Cet entraînement lui permet d’avoir une connaissance du monde et du lien entre les mots (ou d’autres formes de contenu). Cette connaissance s’arrête à une certaine date (date de son dernier entraînement).

  • Transformer : c’est le nom de l’algorithme qui sert de base à GPT. Il a été inventé par des chercheurs de Google et publié sous un célèbre papier de recherche “Attention is all you need”. Ce papier a été une petite révolution dans le monde de l’IA, car il permet à l’ordinateur de rapidement concentrer son attention sur les informations les plus pertinentes. Il permet aussi de traiter de nombreuses tâches en parallèle, et donc de mieux bénéficier de la puissance de calcul pour son fonctionnement.

En somme, ChatGPT est un outil de discussion, basé sur une IA qui génère du texte, que l’on a entraînée au préalable en lui faisant lire de nombreux livres et sites web, et qui fonctionne selon l’algorithme Transformer conçu à l’origine par des chercheurs de Google. Ouf ! 

OK, mais que fait ChatGPT concrètement ? 

Le principe fondamental de GPT est de deviner le prochain mot qui pourrait convenir au texte. Si vous donnez un texte à GPT, il va faire de son mieux pour continuer le texte, tout en suivant les instructions que vous lui aurez données.

Prenons cet exemple :

“The capital city of Australia is…” (La capitale de l’Australie est…).

le prochain mot suggéré est Canberra. Il est considéré comme étant probable à 98,24%. Sydney apparait aussi comme suggestion possible avec une probabilité de 0,08%

La bonne réponse est Canberra et, comme vous le voyez, c’était le prochain mot le plus probable à 98,24% dans l’exemple précédent. Néanmoins, GPT (et ChatGPT) n’a pas de notion de vérité. Il dit juste que “Canberra” est le mot le plus probable à la suite de ce texte.
Comme vous le voyez, il est un peu tenté de dire que c’est Sydney (ce qui est faux), probablement car beaucoup de monde fait cette erreur dans les textes qu’il a lus lors de son entraînement.

De la même façon, si vous lui posez une question, il va faire de son mieux pour vous proposer une réponse plausible (mais pas nécessairement correcte !).

Réfléchissez aux enjeux de sûreté de l’IA à usage général

ChatGPT fait un peu plus qu’utiliser le modèle GPT. En effet, les équipes d’OpenAI qui le développent ont recours à d’autres stratagèmes pour le rendre cohérent, mais aussi pour éviter qu’il ne donne des informations potentiellement dangereuses (comme répondre à des questions horribles telles que : “Quel est le meilleur moyen de se suicider ?”).

Il s’agit d’une technique pour tenter de spécifier à l’IA les préférences des utilisateurs. Remémorez-vous le chapitre sur la sûreté de l’IA et prenez le temps de réfléchir :

  • Est-ce que cette technique peut résoudre toutes les difficultés pour spécifier nos préférences à l’IA ?

  • Qui indique à l’IA ce que préfèrent les humains et selon quels critères ?

  • Comment indiquer à l’IA tous les comportements indésirables ?

  • Sommes-nous nous-mêmes capables de détecter tous les comportements indésirables de l’IA ?…

Ces évolutions placent de nombreuses questions sur le devant de la scène, qui n’étaient encore hier que de la science-fiction.

Il devient désormais très difficile de distinguer une image ou un texte inventé par une IA comparé à un humain. C’est un changement majeur de paradigme, qui n’est pas sans poser des questions de désinformation, de biais, d’impact sur l’emploi et de concentration du pouvoir, comme nous l’avons vu dans les chapitres précédents. Avec l’IA générative, créer des fausses images ou des faux textes devient un jeu d’enfant. En plus, l’IA invente elle-même des informations qui peuvent paraître plausibles, mais qui sont en réalité entièrement fausses (la capitale de l’Australie est…). Notre esprit critique doit toujours être sur ses gardes !

Ces risques et ces inquiétudes sont partagés par de nombreux scientifiques, mais aussi par les entreprises qui créent ces IA telles que OpenAI. Certains réclament une “pause” dans le développement de l’IA (qui semble improbable), d’autres plus de régulation, etc.

Comprenez l'évolution technologique : des IA étroites qui tendent à devenir de plus en plus générales

Si les IA génératives que nous venons de citer sont intéressantes, c’est parce qu’il s’agit à la base d’IA “étroites” qui commencent à acquérir de nouvelles fonctionnalités qui n’étaient pas prévues à la base

Dans le domaine de la génération de texte, ChatGPT a commencé avec une tâche simple : continuer la rédaction d’un texte (par exemple finir une phrase). Désormais, sans que nous l’ayons codé pour cela spécifiquement, ChatGPT peut :

  • Reformuler un texte dans un autre ton.

  • Résumer un texte.

  • Résoudre des problèmes mathématiques.

  • Corriger des fautes d’orthographe et de grammaire.

  • Traduire un texte dans n’importe quelle langue.

  • Brainstormer des idées.

  • Analyser les sentiments d’un texte.

  • Raisonner sur un problème (demandez-lui les avantages et les risques d’une IA telle que ChatGPT, vous aurez des résultats très intéressants !).

Dans le domaine de l’image (comme Dall-E), nous avons commencé à lui demander de générer de nouvelles images. C’est en soi quelque chose de fascinant à voir et très enthousiasmant ! Néanmoins, de nouvelles fonctionnalités sont apparues à l’usage :

  • Créer des variantes d’une image existante.

  • Agrandir des images pour inventer des zones autour de l’image.

  • Upscaler une image, pour augmenter sa définition à l’infini et avoir ainsi plus de précision (le rêve des séries télévisées policières devient réalité !).

  • Supprimer l’arrière-plan d’une image (même si celle-ci n’a pas été prise avec un fond vert).

  • Remplacer des objets sur une image existante.

  • Coloriser une image en noir et blanc de façon réaliste.

  • Générer des animations à partir d’une simple image statique.

En faisant grossir un modèle d’IA (en lui donnant plus de données à lire, et plus de capacités à analyser les données avec plus de puissance informatique), celui-ci apparait d’un coup très performant dans de nouvelles tâches, qu’il était auparavant incapable d’effectuer, comme en témoignent les graphiques suivants de Google Research :

La pertinence de modèles d'IA (LaMDA, GPT-3, Gopher, Chinchilla et PaLM) est mesurée selon 3 domaines : l'arithmétique, le multi-tâches et le contexte d'un mot. A partir d'une certaine taille, ces modèles montent en flèche en termes de performance.

À partir d’une certaine taille, le modèle d’IA devient tout à coup capable de faire par exemple de l’arithmétique et de comprendre des questions multitâches ou le contexte autour d’un mot.

Actuellement, le développement de ces technologies avance à grande vitesse. Peut-être que les capacités des modèles atteindront un plateau et seront limitées en nouvelles fonctionnalités pendant plusieurs années. Peut-être même que ces IA participeront à accélérer le rythme des progrès techniques. Pour l’instant, ce que nous savons c’est que nous n’avons pas fini d’être surpris par leurs capacités.

Quel que soit le rythme de ces avancées, le développement de systèmes d’IA à usage général déployés à large échelle, capables de réaliser un nombre de tâches de plus en plus grand, pose des questions fondamentales qui engagent la société toute entière. Vous comprenez désormais leur fonctionnement, prenez le temps d’y réfléchir !

En résumé

  • Les modèles d'IA à usage général, aussi appelés modèles "fondationnels", sont capables de réaliser un très grand nombre de tâches différentes, contrairement à l'IA étroite qui est spécialisée dans une tâche précise. Une IA générale pourrait accomplir de nombreuses tâches aussi bien qu’un humain, et même mieux.

  • L’IA générative est une IA capable d’effectuer de nombreuses tâches liées à la génération de contenu comme du texte, des images, des vidéos, du son, etc.

  • ChatGPT est un exemple d'IA générative connue. Il s'agit d'une IA qui génère du texte, pré-entraînée en lui faisant lire de nombreux livres et sites web. Cet outil de discussion se base sur l'idée de prédire le prochain mot qui conviendrait dans un texte, mais il ne possède pas la vérité absolue.

C'est bientôt la fin de ce cours, nous vous proposons un dernier quiz pour tester vos connaissances. Allez, c'est parti !

Exemple de certificat de réussite
Exemple de certificat de réussite