Part 1
Préparez votre base de données vectorielle
Part 2
Spécialisez le LLM à votre cas d'usage

Part 1
Préparez votre base de données vectorielle
Part 2
Spécialisez le LLM à votre cas d'usage

Choisissez le LLM adapté

Après avoir établi une base de données vectorielle solide, il est temps de passer à l’étape suivante : adapter le LLM aux besoins spécifiques de votre mairie. L’objectif est de transformer un outil généraliste en un véritable assistant municipal, capable de comprendre et répondre aux demandes des citoyens grâce à des données locales enrichies.

Pourquoi personnaliser le LLM ?

Imaginez un assistant virtuel qui connaît parfaitement les spécificités de votre commune : les réglementations locales, les horaires des services, et même l’historique des demandes citoyennes. En intégrant ces informations via des techniques telles que le Retrieval-Augmented Generation (RAG), le modèle pourra :

Accéder en temps réel à des données pertinentes pour fournir des réponses contextualisées,
Améliorer la qualité des interactions en personnalisant ses réponses selon le contexte,
Gagner la confiance des agents grâce à la précision et la pertinence des informations délivrées.

Le RAG permet de spécialiser un modèle de langage en l'enrichissant avec des données externes spécifiques au domaine d'application. En intégrant des informations pertinentes issues de bases de données ou de documents internes, le modèle peut fournir des réponses plus précises et adaptées aux besoins particuliers de la mairie.

Découvrez les 3 critères clés pour sélectionner un LLM

Le choix du modèle à spécialiser pour une mairie repose sur plusieurs critères clés :

1. Sécurité et conformité

Protection des données citoyennes : S'appuyer sur la fiabilité d’un tiers de confiance pour garantir la sécurité et la confidentialité des informations sensibles.
Respect du RGPD : Veiller à ce que l'ensemble des solutions de type RAG que nous mettons en œuvre respecte strictement les exigences légales en matière de protection des données.

2. Performance et adaptabilité

Réactivité optimale : Exploiter les ressources pour obtenir une latence minimale et assurer des réponses rapides.
Capacité d'analyse : Garantir que la solution peut gérer efficacement des dossiers municipaux souvent complexes et volumineux.

3. Coût et optimisation des ressources

Équilibre ressources/performance : Analyser la consommation en calcul et en tokens pour optimiser les coûts dans un environnement serverless.

Comment s’y retrouver dans tous les modèles existants ?

Les modèles de langage vont transformer la façon dont les administrations interagissent avec leurs citoyens. Mais comment choisir le bon modèle pour votre mairie ?

Les modèles de langage de 2024 se divisent principalement en deux grandes catégories :

1. Les géants propriétaires

Ces acteurs majeurs, souvent au cœur de la recherche et du développement, proposent des solutions intégrées et performantes.

Par exemple, OpenAI se distingue avec son GPT-4, reconnu pour sa polyvalence – capable de traiter du texte, des images, et de fournir des réponses précises en codage et résolution de problèmes – et avec sa version optimisée GPT-4o, qui intègre également des capacités audio/vidéo et offre un contexte étendu allant jusqu’à 200K tokens.
Du côté de Google, le parcours débute avec BERT, pionnier dans la compréhension bidirectionnelle du langage, avant d’évoluer vers des modèles encore plus ambitieux comme Gemini 1.5 Pro, capable de traiter jusqu’à 2 millions de tokens et de surpasser GPT-4 en matière de raisonnement.

2. Les champions de l'open source

Ces acteurs favorisent l’accessibilité et l’innovation collaborative en proposant des modèles adaptables et modulables :

Meta AI, par exemple, offre LLaMA 2 dans plusieurs configurations (de 7 à 70 milliards de paramètres) pour répondre à divers besoins, ainsi que LLaMA 3, une version optimisée pour fonctionner même sur un PC standard.
Mistral AI, acteur français, innove avec Mistral 8x7B, qui utilise une architecture MoE afin d’optimiser coûts et performances, et avec Mixtral 8x22B, qui se démarque par sa capacité à gérer des traitements multilingues avancés.
Enfin, Hugging Face joue un rôle clé en tant que plateforme regroupant plus de 12 000 modèles, facilitant ainsi l’accès et le déploiement des solutions de traitement du langage.

3. Tendances à suivre en 2024

Démocratisation de l'IA : Les avancées dans le domaine des modèles open source contribuent à rendre l'intelligence artificielle accessible à un public beaucoup plus large. Des initiatives comme celles portées par Mistral AI permettent de démocratiser l'usage de l'IA en offrant des modèles performants à un coût réduit. Ce phénomène encourage non seulement les administrations publiques à expérimenter ces technologies, mais ouvre également la voie à l’innovation dans des structures de moindre envergure, en rendant la recherche et le déploiement de solutions d’IA plus abordables et collaboratifs.
Multimodalité : La capacité d’intégrer plusieurs types de données – texte, image, vidéo, et parfois audio – marque une étape importante dans l’évolution des LLM. Cette multimodalité permet une compréhension plus naturelle et contextuelle des interactions. En intégrant différentes sources d’information, ces modèles offrent une interprétation plus fine des demandes et une meilleure réactivité aux besoins complexes des utilisateurs. Par exemple, une administration municipale peut exploiter ces outils pour traiter simultanément des rapports textuels, des photographies ou des vidéos issues d’événements locaux, améliorant ainsi la qualité des réponses fournies aux citoyens.
Efficience économique : Les innovations techniques, telles que l’architecture MoE (Mixture of Experts), permettent de réduire significativement les coûts d’entraînement et d’exploitation des modèles de langage. Ce mécanisme consiste à activer uniquement des sous-ensembles spécialisés du modèle selon la tâche à accomplir, optimisant ainsi l’utilisation des ressources informatiques. Une illustration frappante de cette efficience est celle de DeepSeek v3, qui a été entraîné pour seulement 5,6 millions de dollars – une fraction du coût requis pour les premiers grands modèles. Ce gain en efficience rend l’IA de haut niveau plus accessible et viable pour des applications à grande échelle dans des environnements aux contraintes budgétaires strictes.

Comment comparer les modèles ?

En tenant compte de ces critères et en explorant les options disponibles, une mairie peut sélectionner le LLM le plus adapté à ses besoins spécifiques, tout en assurant la confidentialité, la performance et la maîtrise des coûts.

Le Open LLM Leaderboard est une plateforme qui propose un classement des LLM open source, facilitant ainsi la sélection du modèle le plus approprié. Les résultats des modèles sont enregistrés et affichés sur un espace dédié, permettant de visualiser les performances de modèles tels que LLaMA, Mistral, et bien d'autres. Le llm_leaderboard_fr, porté par plusieurs institutions françaises (CNIA, Inria, LNE, GENCI, Ministère de l’Éducation nationale) s'est associé à Hugging Face pour créer un leaderboard dédié aux modèles open source en français avec comme objectifs :

Offrir une évaluation standardisée pour comparer les modèles et stimuler l’innovation.
Promouvoir la langue française dans l’IA en encourageant l’entraînement sur des corpus francophones.
Soutenir la recherche et le développement en IA en France et dans les pays francophones.

Jeux de données utilisés :

GPQA (évaluation des connaissances de niveau doctorat, traduit par Inria).
IFEval (capacité des modèles à suivre des instructions, adapté culturellement).
Sujets du Baccalauréat (benchmark inédit issu des épreuves officielles, fourni par le Ministère de l’Éducation nationale).

Pourquoi est-ce utile ?

Dans le développement de modèles, il est crucial de disposer d’un cadre standardisé pour comparer les performances. Le leaderboard permet de :

Comparer objectivement différents modèles sur des benchmarks comme MMLU (Massive Multitask Language Understanding)qui teste la compréhension multitâche sur 57 domaines (sciences humaines, sciences sociales, STEM, etc.).
Évaluer les points forts/faibles des modèles selon des critères définis.
Suivre l’évolution des modèles dans la communauté de l’IA.

Comment utiliser ce leaderboard ?

Accédez au leaderboard : Hugging Face Open LLM Leaderboard
Choisissez un modèle : Explorez les modèles évalués, comme LLaMA, Falcon ou Mistral.
Analysez les performances :

Les scores affichés incluent des résultats pour différents benchmarks (MMLU, HELM, etc.).
Comparez les performances de votre modèle avec celles affichées sur le leaderboard.

Reproduisez les évaluations : Vous pouvez utiliser l’outil EleutherAI LM Evaluation Harness pour tester vos propres modèles en local.

Distinguez les SLM des LLM

Dans le cadre de la sélection du modèle de langage le plus adapté aux besoins d'une mairie, il est pertinent de comprendre les distinctions entre les Large Language Models (LLM) et les Small Language Models (SLM). Cette compréhension permettra d'évaluer les avantages et les inconvénients de chaque approche, en tenant compte des critères précédemment mentionnés tels que la confidentialité, la performance et les ressources techniques. Ainsi, nous pourrons déterminer quelle solution répond le mieux aux exigences spécifiques de la mairie.

Large Language Models (LLM)

Les LLM, tels que GPT-4, sont des modèles de grande envergure entraînés sur des ensembles de données massifs couvrant une multitude de domaines. Cette approche leur confère une polyvalence remarquable, leur permettant de générer du texte, de traduire des langues et de répondre à diverses requêtes. Cependant, cette polyvalence a un coût : l'entraînement de ces modèles nécessite une puissance de calcul considérable, impliquant des milliers de GPU et une consommation énergétique substantielle. De plus, leur taille imposante peut entraîner des temps de réponse plus longs et des coûts opérationnels élevés.

Small Language Models (SLM)

À l'inverse, les SLM sont conçus pour des tâches spécifiques. En se concentrant sur des domaines particuliers, ces modèles sont plus compacts et nécessitent moins de ressources pour leur entraînement et leur déploiement. Par exemple, un SLM dédié à la recherche médicale sera entraîné uniquement sur des articles scientifiques et des données cliniques, offrant des réponses précises et pertinentes pour les professionnels de santé. Cette spécialisation permet non seulement de réduire la consommation énergétique, mais aussi d'améliorer la pertinence des réponses dans un contexte donné.

Voici une comparaison succincte entre LLM et SLM :

Aspect	LLM	SLM
Taille du modèle	Très grande, avec des milliards de paramètres	Plus petite, avec un nombre réduit de paramètres
Entraînement	Sur de vastes ensembles de données couvrant de nombreux domaines	Sur des ensembles de données spécifiques à un domaine ou une tâche
Polyvalence	Capable de gérer une variété de tâches et de contextes	Optimisé pour des tâches ou des domaines spécifiques
Consommation	Nécessite une puissance de calcul et une consommation énergétique élevées	Moins gourmand en ressources, plus éco-responsable
Coût	Coûts élevés en termes de matériel, d'énergie et de maintenance	Plus économique à entraîner et à déployer

Comment choisir entre un LLM et un SLM ?

Objectifs : Si votre projet nécessite une compréhension générale et la capacité de traiter diverses tâches, un LLM peut être approprié. En revanche, pour des tâches spécialisées, un SLM sera plus efficace.
Ressources : Les LLM demandent des ressources matérielles et énergétiques importantes. Si vous disposez de ressources limitées, les SLM offrent une alternative plus économique.
Temps de déploiement : Les SLM, étant plus légers, peuvent être déployés plus rapidement et nécessitent moins de temps pour l'entraînement.
Considérations écologiques : Si la réduction de l'empreinte carbone est une priorité, les SLM sont une option écologique en raison de leur consommation énergétique réduite.

Après avoir exploré les distinctions entre les Large Language Models (LLM) et les Small Language Models (SLM), il est crucial de comprendre les différentes options d'hébergement disponibles pour ces modèles. Le choix de l'hébergement influence non seulement les performances et la scalabilité, mais également la sécurité et la conformité aux réglementations en vigueur.

Examinons donc les types d'hébergement adaptés à ces modèles de langage.

Choisissez le type d’hébergement

Lors de la décision d'héberger un modèle d'IA en interne (On-Premise) ou d'utiliser une solution cloud, il est essentiel de comprendre les implications en termes d'infrastructure et de coûts associés.

Infrastructure nécessaire pour l'hébergement sur site

L'hébergement interne d'un modèle d'IA nécessite une infrastructure matérielle robuste, notamment des serveurs équipés de GPU performants pour gérer les charges de calcul intensives. Par exemple, des GPU tels que les NVIDIA L4 ou H100 sont couramment utilisés pour ces tâches.

En plus du matériel, il est crucial de disposer d'une équipe technique compétente pour installer, configurer et maintenir cette infrastructure. Cela inclut la gestion des mises à jour, la surveillance des performances et la garantie de la sécurité des données.

Différences entre le paiement au token et le coût d'une machine dédiée

Lorsqu'il s'agit de financer l'utilisation de modèles d'IA, deux approches principales se distinguent :

Paiement au token (modèle SaaS) : Dans ce modèle, les utilisateurs paient en fonction du nombre de tokens (unités de texte) traités par le modèle. Les coûts peuvent varier en fonction des fournisseurs et des modèles utilisés.
Paiement pour une machine dédiée : Cette approche implique la location ou l'achat de serveurs dédiés pour héberger le modèle d'IA. Les coûts sont généralement facturés à l'heure d'utilisation de la machine, offrant une tarification prévisible qui ne fluctue pas avec la demande. Cette option est idéale pour le réglage fin ou l'hébergement de modèles nécessitant une disponibilité constante.

Considérations supplémentaires :

Coûts initiaux : L'hébergement sur site nécessite un investissement initial substantiel en matériel et en ressources humaines, tandis que le modèle SaaS offre une entrée en matière plus économique avec des coûts opérationnels basés sur l'utilisation.
Scalabilité : Les solutions cloud offrent une scalabilité flexible, permettant d'ajuster les ressources en fonction des besoins. À l'inverse, l'infrastructure sur site peut nécessiter des investissements supplémentaires pour évoluer.
Sécurité des données : L'hébergement interne offre un contrôle total sur les données, ce qui est crucial pour les organisations traitant des informations sensibles. Cependant, il est essentiel de mettre en place des mesures de sécurité robustes pour protéger ces données.

Le choix entre l’hébergement sur site et le cloud doit se faire en tenant compte non seulement des aspects techniques et financiers, mais aussi des exigences de sécurité et de scalabilité propres à chaque contexte. En partant sur l’approche « commençons petit », Trifouillis-sur-Loire peut opter pour une solution cloud flexible et évolutive, tout en gardant à l’esprit la possibilité d’une montée en charge future si les besoins augmentent.

Découvrez la plateforme Mistral

La Plateforme de Mistral AI propose une solution idéale pour Trifouillis-sur-Loire souhaitant expérimenter l'intelligence artificielle sans nécessiter d'infrastructure dédiée. Elle offre des options de personnalisation et de déploiement flexibles, adaptées à divers besoins. De plus, pour les phases de test, l'utilisation est gratuite, permettant ainsi une expérimentation sans coûts initiaux.

La Plateforme est une solution proposée par Mistral AI, visant à fournir aux développeurs et aux entreprises des modèles de langage de grande taille (LLM) ouverts et optimisés pour la création d'applications rapides et intelligentes.

Quelles sont les principales fonctionnalités de La Plateforme ?

Accès aux modèles de Mistral AI : La Plateforme offre des points de terminaison pour interagir avec les modèles de Mistral AI, tels que Mistral Large 2 et Codestral. Ces modèles peuvent être personnalisés pour des applications spécifiques en utilisant des techniques telles que le "few-shot prompting" ou le "fine-tuning".
Agent Builder : Un outil permettant aux utilisateurs de créer et de configurer facilement des agents d'intelligence artificielle adaptés à leurs besoins spécifiques.
Agent API : Pour les développeurs souhaitant intégrer la création d'agents dans leurs flux de travail existants, l'Agent API fournit une solution programmatique facilitant cette intégration.
Déploiement flexible : La Plateforme permet le déploiement des modèles de Mistral AI sur le cloud ou sur site, offrant ainsi une flexibilité adaptée aux besoins et aux infrastructures des utilisateurs.

À vous de jouer

Contexte

Vous êtes chargé de sélectionner un modèle d'intelligence artificielle adapté aux besoins de la Mairie de Trifouillis-sur-Loire. Pour ce faire, vous allez explorer la plateforme Mistral AI afin de choisir le modèle le plus pertinent.

Consignes

1. Création d'un compte sur Mistral AI :

Accédez au site officiel de Mistral AI : https://mistral.ai/
Cliquez sur "S'inscrire" ou "Créer un compte".
Remplissez le formulaire avec vos informations personnelles.
Validez votre inscription via le lien de confirmation reçu par e-mail.

2. Exploration des fonctionnalités de la plateforme :

Connectez-vous à votre compte.
Parcourez le tableau de bord pour vous familiariser avec l'interface.
Consultez la section "Documentation" ou "Guides" pour comprendre les ressources disponibles.
Explorez les sections "Modèles", "Personnalisation" et "Outils d'évaluation des performances".

3. Sélection d'un modèle adapté :

Dans la section "Modèles", recherchez ceux pertinents pour les tâches identifiées.
Examinez les descriptions, cas d'utilisation et performances de chaque modèle.
Choisissez le modèle le plus aligné avec les besoins de la Mairie.

En résumé

Évaluez les besoins techniques et éthiques pour sélectionner un LLM adapté à votre contexte.
Distinguez les SLM des LLM et choisissez le modèle en fonction des ressources disponibles.
Choisissez un type d’hébergement (ressources dédiées ou coût au token) aligné sur les contraintes de sécurité et de budget.
En intégrant des modèles de confiance comme Mistral AI, vous implémentez une première brique socle.

Maintenant que nous avons un modèle disponible, promptons-le !

Any feedback to share with us?

Ever considered an OpenClassrooms diploma?

Up to 100% of your training program funded
Flexible start date
Career-focused projects
Individual mentoring

Find the training program and funding option that suits you best

Guide me Compare training types

Table of contents

Préparez votre base de données vectorielle

Spécialisez le LLM à votre cas d'usage