Maitrisez les bases de l'IA generative.
Vous entendez beaucoup parler de l'intelligence artificielle mais vous avez du mal à comprendre ce que c'est exactement.
Ce qui vous importe en tant marketeur digital, c'est d'en comprendre le fonctionnement sans rentrer dans des détails trop techniques. L'objectif est de vous permettre de réfléchir à la manière dont vous pourriez vous saisir de l'IA generative pour faire progresser votre entreprise afin d'améliorer sa productivité et sa capacité à répondre aux besoins de vos clients.
C'est ce que cet article s'attache à faire de manière pédagogique.
Voici les différents chapitres qui détaillent les concepts liés à l'intelligence artificielle, en faisant un gros plan sur l'IA générative, celle qui sera le plus facile de mettre en œuvre rapidement :
- Qu'est-ce que l'intelligence artificielle ?
- Le machine learning et ses modèles supervisés et non supervisés.
- Le Deep learning ou apprentissage profond.
- Maîtriser l'intelligence artificielle générative.
Nous terminerons cet article en faisant connaissance avec les modèles fondateurs de l'intelligence artificielle qui sont les outils d'IA generative que nous utilisons en ce moment.
Auteur : Thierry P. Gaillard
Maitrisez les bases de l'IA generative en vidéo.
Regardez la vidéo sur les bases de l'IA générative.
Qu'est-ce que l'intelligence artificielle ?
L'intelligence artificielle est une discipline scientifique. Cette branche des sciences informatiques traite de la création de systèmes capables de raisonner, d'apprendre et d'agir de manière autonome.
L'IA regroupe la théorie et le développement de machines capables d'effectuer des tâches nécessitant normalement l'intelligence humaine.
Le machine learning, le deep learning, l'intelligence artificielle discriminative et L'intelligence artificielle générative sont des sous-ensembles de l'intelligence artificielle.
Le machine learning et ses modèles supervisés et non supervisés.
Le machine learning (apprentissage automatique) est un sous-domaine de l'IA. Il s'agit d'un programme ou d'un système qui forme un modèle à partir de données d'entrée. Ce modèle formé peut faire des prédictions utiles à partir de données nouvelles ou jamais vues auparavant, tirées des mêmes données que celles utilisées pour former le modèle.
Le machine learning donne aux ordinateurs la capacité d'apprendre sans programmation explicite.
Les modèles non supervisés et les modèles supervisés constituent deux des catégories les plus courantes de modèles d'apprentissage automatique.
La principale différence entre les deux est que, dans le cas des modèles supervisés, nous disposons d'étiquettes (labels). Les données étiquetées sont des données accompagnées d'une étiquette, comme un nom, un type ou un nombre.
En revanche, les données des modèles non supervisés sont non étiquetées, c'est-à-dire que ce sont des données sans étiquette. Les problèmes non supervisés sont liés à la découverte, à l'examen des données brutes et à la recherche de groupes naturels.
Le Deep learning ou apprentissage profond.
Le deep learning est un sous-ensemble du machine learning qui utilise des réseaux neuronaux artificiels, ce qui leur permet de traiter des modèles plus complexes que l'apprentissage automatique traditionnel.
Les réseaux neuronaux.
Les réseaux neuronaux artificiels s'inspirent du cerveau humain. Ils sont constitués de nombreux nœuds ou neurones interconnectés qui peuvent apprendre à effectuer des tâches en traitant des données et en faisant des prédictions.
Les modèles d'apprentissage profond comportent généralement de nombreuses couches de neurones, ce qui leur permet d'apprendre des modèles plus complexes que le machine learning traditionnel. Les réseaux neuronaux peuvent utiliser des données étiquetées et non étiquetées. C'est ce qu'on appelle l'apprentissage semi-supervisé.
L'apprentissage semi-supervisé.
Dans l'apprentissage semi-supervisé, un réseau neuronal est formé à partir d'une petite quantité de données étiquetées et d'une grande quantité de données non étiquetées.
Les données étiquetées aident le réseau neuronal à apprendre les concepts de base de la tâche, tandis que les données non étiquetées l'aident à se généraliser à de nouveaux exemples.
Les modèles d'apprentissage profond peuvent être divisés en deux types d'IA : générative et discriminative.
L'intelligence artificielle discriminative.
Elle est utilisée pour classer ou prédire les étiquettes des points de données. Les modèles discriminants sont généralement formés sur un ensemble de données de points étiquetés.
Ils apprennent la relation entre les caractéristiques des points de données et les étiquettes. Une fois qu'un modèle discriminant est entraîné, il peut être utilisé pour prédire l'étiquette de nouveaux points de données. L'IA discriminative produit des nombres, des classes et des probabilités.
L'intelligence artificielle générative.
Elle génère de nouvelles instances de données sur la base d'une distribution de probabilité apprise des données existantes. Les modèles génératifs génèrent donc un nouveau contenu. L'IA générative produit du texte en langage naturel, de l'audio, du code, de l'audio et des images.
Mathématiquement, cela s'écrit : y= f (x)
où,
- y représente le résultat du modèle,
- f représente la fonction utilisée dans le calcul,
- x représente l'entrée ou les entrées utilisées pour la formule.
La sortie du modèle s'effectue donc en fonction des entrées. Si le y est un chiffre ou un nombre comme lorsque l'on cherche à connaitre le montant des ventes prévues, alors c'est de l'IA discriminative. Si le y est une phrase, alors, c'est de l'IA générative.
Maîtriser l'intelligence artificielle générative.
L'intelligence artificielle générative est un type d'intelligence artificielle qui crée de nouveaux contenus sur la base de ce qu'elle a appris des contenus existants.
Le processus d'apprentissage à partir du contenu existant est appelé formation et aboutit à la création d'un modèle statistique.
Lorsqu'elle reçoit un prompt, l'IA générative utilise ce modèle statistique pour prédire la réponse attendue, ce qui génère un nouveau contenu.
Il y a deux grandes familles d'IA générative :
- Les modèles linguistiques génératifs : ils apprennent à partir de données d'apprentissage. Puis, à partir d'un texte, ils prédisent ce qui va suivre.
- Les modèles d'image génératifs : ils produisent de nouvelles images à l'aide de techniques telles que la diffusion. Ensuite, à partir d'un message ou d'images connexes, ils transforment un bruit aléatoire en images ou génèrent des images à partir de prompts.
Les modèles d'IA générative ne sont ni des bases de données d'informations, ni des systèmes de récupération d'informations déterministes. Parce qu'ils sont des moteurs de prédiction, ils peuvent créer différentes sorties en réponse à la même sollicitation.
Par exemple, lorsque vous demandez à un modèle d'IA générative de produire une image de chat, il ne parcourt pas ses données d'entraînement et ne retourne pas une photo de chat. Au lieu de cela, il générera une nouvelle image de chat à chaque fois.
Fonctionnement de l'intelligence artificielle générative.
L'intelligence artificielle générative est un sous-ensemble de l'apprentissage profond, ce qui signifie qu'elle utilise des réseaux artificiels, peut traiter des données étiquetées et non étiquetées en utilisant des méthodes supervisées, non supervisées et semi-supervisées.
La puissance de l’intelligence artificielle générative vient de l’utilisation des Transformers. Les Transformers ont été la révolution de l’IA en 2018 concernant le traitement du langage naturel. Ils nécessitent un grand nombre de données, des milliards de paramètres et un apprentissage non supervisé.
Un Transformer se compose d'un encodeur qui encode la séquence d’entrée et la transmet au décodeur qui apprend comment décoder la représentation pour une tâche pertinente.
Pourquoi l'IA générative hallucine ?
Les « hallucinations » proviennent de mots ou de phrases qui sont générés par le modèle et qui sont souvent dépourvus de sens ou grammaticalement incorrects.
Les hallucinations peuvent être causées par un certain nombre de facteurs, notamment :
- Le modèle n'est pas entraîné sur suffisamment de données.
- Le modèle est entraîné sur des données bruyantes ou corrompues.
- Le modèle n'est pas suffisamment contextualisé.
- Le modèle n'est pas soumis à des contraintes suffisantes.
Une hallucination est une réponse d'un LLM qui peut être cohérente et présentée avec assurance, mais qui n'est pas basée sur des faits. Parmi d'autres raisons, les hallucinations peuvent se produire si cette réponse n'est pas ancrée dans ses données d'entraînement ou des informations du monde réel. Les hallucinations peuvent être réduites, mais il est très difficile de les éliminer.
Les modèles génératifs ne récupèrent pas d'informations, mais prédisent quels mots viendront ensuite en fonction des entrées de l'utilisateur. Pour cette raison, il n'y a aucune garantie que la prédiction du LLM contiendra des informations factuelles, ni que leurs sorties à une sollicitation donnée resteront stables dans le temps.
Les hallucinations peuvent être réduites dans un LLM, mais les inexactitudes ne peuvent pas être évitées à 100 % puisque les réponses sont créées via un mécanisme de prédiction. Lors du peaufinage, les modèles peuvent être optimisés pour reconnaître les motifs corrects dans leurs données d'entraînement, ce qui réduira le nombre d'erreurs factuelles. Une autre technique pour réduire les hallucinations consiste à connecter les LLM à d'autres systèmes afin de fournir des informations vérifiées dans la réponse.
Tour d'horizon du prompt
Un prompt (invite de commande) est une instruction, sous forme de court morceau de texte, qui est donnée au large modèle de langage en tant qu'entrée. Il peut être utilisé pour contrôler la sortie du modèle de différentes manières. Le « prompt design » est le processus de création d'un prompt qui générera le résultat souhaité.
La qualité de l’intelligence artificielle générative dépend grandement des données d'apprentissage qui lui ont été fournies. Elle analyse les modèles et les structures des données d'entrée, ce qui lui permet d'apprendre. Avec l'accès à un prompt basé sur un navigateur, vous pouvez générer votre propre contenu.
Concevoir le prompt idéal peut s'avérer complexe. De subtiles modifications dans la manière dont vous formulez une question ou agencez les mots peuvent entraîner des variations surprenantes dans les réponses fournies par le modèle. De plus, un prompt ne permet pas vraiment d'intégrer une grande quantité d'exemples pour guider le modèle. Même si vous parvenez à créer un prompt qui semble bien fonctionner pour votre projet spécifique, vous pourriez constater que les réponses du modèle manquent de constance en matière de qualité.
La meilleure manière de corriger ce problème est d'utiliser une approche innovante de l'ajustement. Cela consiste à former un petit sous-ensemble de paramètres du modèle existant. Par exemple, vous pourriez ajouter des couches supplémentaires au prompt pour le rendre plus précis. Certains outils comme Generative AI Studio de Google permettent de le faire sans toucher à une seule ligne de code.
Les différents modèles types.
- Les modèles « Text-to-text » prennent une entrée en langage naturel et produisent un texte en sortie. Ces modèles sont formés pour apprendre la correspondance entre une paire de textes (ex : traduire une langue dans une autre). Application possible : génération de textes, classification, résumés, traduction, recherches, extraction, clustering, réécriture.
- Les modèles « text-to-image » sont relativement récents et sont formés sur un grand ensemble d'images, chacune étant accompagnée d'une courte description textuelle. Application possible : création d’images.
- Les modèles « text-to-video » visent à générer une représentation vidéo à partir d'un texte. Le texte d'entrée peut aller d'une simple phrase à un script complet, et la sortie est une vidéo qui correspond au texte d'entrée. Application possible : création de vidéos, modification de vidéos.
- Les modèles « text-to-3D » génèrent des objets tridimensionnels qui correspondent à la description textuelle de l'utilisateur. Application possible : jeux vidéo.
- Les modèles « text-to-task » sont formés pour effectuer une tâche ou une action spécifique sur la base d'une entrée textuelle. Cette tâche peut être un large éventail d'actions telles que répondre à une question, effectuer une recherche, faire une prédiction ou entreprendre une action quelconque. Par exemple, un modèle « text-to-task » peut être entraîné à naviguer dans une interface Web ou à apporter des modifications à un document par le biais d'une interface graphique. Application possible : utilisateur de logiciels, assistant virtuel, automatisation de tâches.
Les modèles fondateurs.
Dans le domaine fascinant de l'intelligence artificielle générative, imaginez un modèle fondateur (foundation model) comme une grande bibliothèque numérique qui a ingéré une immense quantité d'informations diverses sans étiquettes précises. Ce modèle est un véritable couteau suisse, capable de créer une variété de formats : texte, code, images, musique, et bien d'autres.
Ces modèles s'éduquent grâce à ce qu'on appelle un apprentissage auto-supervisé. Pas besoin de leur montrer explicitement quoi faire ; ils découvrent d'eux-mêmes les motifs et les liaisons dans ces données anonymes pour comprendre comment les choses fonctionnent.
Voici quelques exemples de modèles fondateurs :
- GPT-3 d'OpenAI.
- BERT de Google.
- Megatron-Turing 530B de NVIDIA.
- LLaMA 2 en licence libre.
Après cette phase d'apprentissage, ces modèles fondateurs deviennent de véritables experts polyvalents. Vous pouvez les solliciter pour générer du texte, traduire des langues, analyser des sentiments, concocter des contenus créatifs variés, ou même répondre à vos interrogations de façon éclairée. C'est un peu comme avoir un assistant personnel extrêmement compétent dans de nombreux domaines !
Sources
- Google Cloud Tech - Introduction to Generative AI.
- Ask a Techspert - What is generative AI ?
- Generative AI FAQs.
- Google Cloud - Introduction to Generative AI.
- Google Cloud - Introduction to Generative AI Learning Path.
- Google Cloud Skills Boost.