• 2 heures
  • Facile

Ce cours est visible gratuitement en ligne.

course.header.alt.is_certifying

J'ai tout compris !

Mis à jour le 13/08/2024

Analysez des images avec ChatGPT

Vous pensiez que ChatGPT travaillait uniquement avec du texte ?

Eh non ! En principe, l'IA générative peut fonctionner avec de très nombreux formats :

  • Texte ;

  • Image ;

  • Son ;

  • Vidéo.

On peut même utiliser du texte pour générer une image, ou utiliser une image pour générer une vidéo, ou utiliser une vidéo pour générer du texte. 🤪

Quelques mois après son lancement, ChatGPT a justement rajouté l'image dans ses modes de fonctionnement. Nous pouvons lui faire "lire" des images... et vous allez voir c'est bluffant ! 😳

Les éléments présentés dans ce chapitre sont accessibles avec la version gratuite, mais seront limités. Vous avez en effet un accès réduit à des fonctionnalités réservées aux utilisateurs de la version payante. Si vous êtes abonné, pensez à activer la dernière version.

zsds
Activez la version ChatGPT-4o

Décrivez une image en détail

Il y a plusieurs façons d'utiliser la fonctionnalité de "lecture d'images" de ChatGPT.

Commençons par la plus évidente : nous lui envoyons une image et lui demandons de nous la décrire en détail. 🤓

Vous pouvez pour cela utiliser l'appareil photo de votre smartphone avec l'application ChatGPT :

Vous pouvez envoyer une image depuis l'appareil photo ou votre photothèque
Vous pouvez envoyer une image depuis l'appareil photo ou votre photothèque sur l'appli mobile ChatGPT

Vous pouvez aussi utiliser l'interface web et cliquer sur l'icône "pièce jointe" à gauche de la zone de texte :

Vous pouvez aussi envoyer une image depuis votre ordinateur sur l'interface web de ChatGPT
Vous pouvez aussi envoyer une image depuis votre ordinateur sur l'interface web de ChatGPT

Sélectionnez une photo (de préférence non privée car n'oubliez pas que tout ce qui est envoyé à ChatGPT sert à l'entraîner !) et demandez-lui de la décrire.

J'envoie une photo à ChatGPT... et il me dit tout ce qu'il voit !
J'envoie une photo à ChatGPT... et il me dit tout ce qu'il voit !

Comme vous le voyez, j'ai envoyé la photo suivie du texte "Décris cette photo en détail" pour qu'il sache quoi faire avec la photo. Sa description est plutôt... bluffante non ?! 😲

🧔🏻‍♂️ : [Image] Décris cette photo en détail

🤖 : La photo présente une pièce spacieuse avec un sol en pierre et trois grandes arches ouvertes sur une vue de la mer bleue calme et du ciel. Il y a trois statues de style classique sur des socles : deux debout aux extrémités et une allongée au centre. Deux colonnes avec des chapiteaux sculptés flanquent la statue centrale. La lumière naturelle illumine la scène, créant une atmosphère paisible et sereine. L'architecture évoque une élégance antique et la vue sur la mer suggère un emplacement côtier.

Cela fonctionne avec à peu près tout, essayez !

Ce genre de fonctionnalité peut être très utile pour les personnes non voyantes. Vous pouvez ainsi l'utiliser pour décrire les images que vous publiez sur internet sous forme de texte alternatif, si vous développez en HTML :<img src="xxx" alt="Description détaillée par ChatGPT" />

Raisonnez à partir d'une image

Voilà qui était déjà impressionnant, mais on peut aller plus loin. On va demander à ChatGPT de travailler, de raisonner à partir d'une image.

Vous pouvez par exemple :

  • 📗 prendre en photo la couverture d'une livre et lui en demander un résumé ;

  • 🌿 prendre en photo une plante et demander ce que c'est, et comment l'entretenir ;

  • 📐 prendre en photo un problème de géométrie... et lui demander de l'aide pour le résoudre 🫢 (oui oui).

Quel gain de temps ! Essayons avec un livre :

ChatGPT résume ce que fait un livre à partir de sa couverture !
ChatGPT résume ce que fait un livre à partir de sa couverture !

En somme, ne vous contentez pas de demander à ChatGPT ce qu'il "voit" sur l'image, mais faites-le travailler à partir de l'image que vous envoyez. Dans de nombreux cas, il comprend ce qu'il voit et a même une connaissance assez approfondie du sujet !

Faites-vous assister à partir d'une image

Vous pouvez voir ChatGPT comme un super assistant qui peut vous aider à résoudre des problèmes. Cela marche bien pour moi par exemple pour des questions de... bricolage. 😆

Un exemple donné par OpenAI : utilisez-le pour demander de l'aide sur votre vélo !

ChatGPT vous aide à abaisser la selle de votre vélo
ChatGPT : "Aide-moi à abaisser la selle de mon vélo"

Essayez avec des questions du quotidien que vous pourriez vous poser. Quelques idées pour stimuler votre imagination :

  • Pour la mode : "Suggère des tenues adaptées à la saison en utilisant cette photo de mon armoire pour m'aider à choisir quoi porter aujourd'hui."

  • Pour les repas : "Propose une illustration de recettes saines et simples à partir de cette photo de mon réfrigérateur pour planifier mes repas de la semaine."

  • Pour le jardinage : "Montre comment je pourrais aménager mon jardin avec des plantes adaptées à mon climat en utilisant cette photo de mon espace extérieur."

Et ce n'est qu'un aperçu des possibilités ! À vous d'avoir le réflexe de lui demander de l'aide.

Traduisez un panneau de signalisation

Autre réflexe à prendre : la traduction sur le terrain. Vous pouvez prendre en photo un panneau ou un menu dans un pays étranger et vous le faire traduire par ChatGPT. Souvenez-vous : il parle toutes les langues ! 🤩

Par exemple je lui envoie ce panneau :

Un panneau en Thaïlande
Un panneau en Thaïlande

Et je lui demande de l'aide sur sa signification :

🧔🏻‍♂️ : [Image]Traduis-moi ce panneau en français

🤖 : Le panneau sur la photo est en thaï, et il dit "ห้ามเข้า" ce qui se traduit par "Interdit d'entrer" en français. La phrase en dessous est trop floue pour être lue avec précision, mais elle semble être une explication ou un complément à l'instruction principale.

Voilà qui est déjà très utile, pour moi qui ne parle pas un mot de Thaï. 🫣

Comme vous le voyez, ChatGPT n'est pour autant pas parfait : il n'arrive pas à lire le texte en-dessous, pourtant très lisible je trouve.

Transformez une image dans un autre format

Vous voulez aller ENCORE plus loin ? On va aller encore plus loin ! 😃

Pourquoi ne pas lui envoyer une maquette de site web et lui demander de le coder pour nous ? Même un brouillon à main levée pourrait en théorie fonctionner pour lui faire créer l'architecture du site que l'on veut.

Prenons une maquette (crédits Shazzad Hossain sur Dribbble) :

Une maquette de site web
Une maquette de site web

Et demandons maintenant à ChatGPT de reproduire cela en code :

🧔🏻‍♂️ : [Image] Crée un code HTML permettant de reproduire le design suivant

🤖 : Voici une structure que vous pouvez utiliser comme point de départ :

<!DOCTYPE html>
<html lang="en">
<head>
<meta charset="UTF-8">
<meta name="viewport" content="width=device-width, initial-scale=1.0">
<title>MARCHY Business</title>
<style>
    /* Add your CSS styles here */
    body {
        font-family: Arial, sans-serif;
        margin: 0;
        padding: 0;
        box-sizing: border-box;
    }

Selon les cas, il est possible que ChatGPT ne vous donne pas le code tout de suite. Le code ne sera peut-être pas toujours parfait ou complet. D'expérience, c'est parfois bien, mais il faut aussi parfois le lui faire retravailler.

À vous de lui demander plus de détails pas à pas, en lui indiquant ce que vous voulez qu'il complète ou refasse.

En résumé

  • ChatGPT n'est pas limité au traitement du texte ; il peut aussi analyser des images grâce à ses capacités multimodales.

  • Vous pouvez lui faire décrire des images, ce qui est particulièrement utile pour des descriptions détaillées ou pour assister les personnes non voyantes.

  • ChatGPT peut raisonner à partir d'une image, offrant des suggestions pratiques pour le quotidien, des résumés de livres à partir de couvertures, ou même de l'aide pour résoudre des problèmes de géométrie.

  • L'IA peut servir d'outil de traduction en direct, interpréter des panneaux ou des menus dans des langues étrangères.

  • ChatGPT peut transformer des images en code, par exemple, en convertissant une maquette de site web en HTML, bien qu'il puisse nécessiter des ajustements et des précisions pour parfaire le résultat.

Impressionnant non ? Après l'analyse d'image, voyons comment ChatGPT est capable d'analyser des données sur des fichiers, avec GPT-4o.

Exemple de certificat de réussite
Exemple de certificat de réussite