Agents IA : limites et opportunités pour votre marketing digital.
Principaux enseignements.
Une étude réalisée par Salesforce AI Research révèle un écart de performance significatif entre les agents IA : si ces derniers réussissent 58 % des tâches simples, ils n'obtiennent que 35 % de réussite pour les missions complexes nécessitant un dialogue afin d'apporter des correctifs à la demande initiale.
Ils excellent dans l'exécution de processus prédéfinis (plus de 83 % de succès), mais la confidentialité reste une faiblesse majeure.
Les modèles dotés de « raisonnement » surpassent les autres, la gamme Gemini offrant le meilleur rapport coût-efficacité.
Enfin, la capacité d'un agent à demander des clarifications est un indicateur clé de sa performance dans les scénarios complexes, soulignant l'importance de l'interaction pour leur autonomie.
Auteur : Thierry P. Gaillard
Présentation de l’étude.
L'évaluation de la performance des agents d'IA dans un contexte professionnel est un défi majeur. Alors que leur potentiel pour transformer les entreprises est reconnu, l'étalonnage efficace de leurs capacités est freiné par le manque de données commerciales publiques et réalistes.
Les méthodes d'évaluation actuelles manquent souvent de fidélité dans la simulation de leurs environnements, de leurs données et des interactions entre l'agent et l'utilisateur, tout en offrant une couverture limitée des divers scénarios d'affaires.
Pour combler ces lacunes, une nouvelle référence a été introduite : CRMArena-Pro. Ce benchmark, réalisé par les chercheurs de Salesforce AI Research, a été spécifiquement conçu pour permettre une évaluation holistique et réaliste des agents LLM dans une variété de contextes professionnels. Il propose un cadre d'analyse complet qui inclut :
- Dix-neuf tâches validées par des experts.
- Une couverture de domaines variés : la vente, le service client et les processus de « configuration, prix et devis ».
- Une application aux scénarios d'entreprise à entreprise (B2B) et d'entreprise à client (B2C).
Qu’est ce qu’un agent IA (ou Agent LLM) ?
C'est le système opérationnel qui utilise un ou plusieurs LLM pour accomplir une tâche complexe via une séquence d'actions dans un environnement spécifique. L'agent est une architecture qui englobe le LLM et lui donne la capacité d'agir.
Dans le contexte de l'étude, l'agent prend connaissance de la requête de l'utilisateur, utilise le LLM pour « raisonner », puis décide d'une action. Cette action peut être :
- Exécuter une requête sur une base de données (via SOQL ou SOSL) pour obtenir une observation.
- Répondre à l'utilisateur, soit pour demander des clarifications, soit pour fournir la réponse finale et conclure la tâche.
On appelle LLM (Large Language Model), le modèle fondamental, le « cerveau ». Par exemple Gpt 4o, Gemini 2.5 Pro ou Llama 3.1 405b. Dans les expériences de l'étude, chaque agent est motorisé par un seul de ces modèles à la fois.
On appelle LLM (Large Language Model), le modèle fondamental, le « cerveau ». Par exemple Gpt 4o, Gemini 2.5 Pro ou Llama 3.1 405b. Dans les expériences de l'étude, chaque agent est motorisé par un seul de ces modèles à la fois.
La distinction est donc la suivante : le LLM est le composant de raisonnement, tandis que l'agent IA est l'entité complète qui exécute une séquence d'actions logiques de manière autonome pour atteindre un objectif.
Quel est le mode de fonctionnement le plus efficace d’un agent IA ?
Les agents IA les plus performants réussissent environ 58 % des tâches lorsqu'elles sont réalisées en une seule étape (single-turn). Mais si elles doivent discuter pour obtenir des informations et accomplir la tâche (multi-tour), leur performance chute à environ 35 %. Cela souligne les importants défis liés au raisonnement multi-tours lorsqu'il s'agit de leur faire réaliser différentes tâches de manière autonome.
Pour quelles compétences les agents IA testés ont-il été les meilleurs ?
Parmi les différentes compétences testées, les agents IA se sont plutôt bien débrouillés pour suivre des listes d'étapes prédéfinies afin d'accomplir une tâche (ce qu'on appelle l'exécution de flux de travail). Les meilleures IA, comme Gemini 2.5 Pro, réussissent même plus de 83 % de ces tâches simples.
En revanche, ils sont beaucoup moins performants pour les compétences suivantes :
- La conformité aux politiques de l’entreprise : capacité de l'agent LLM à vérifier si des configurations, des solutions proposées ou des actions spécifiques respectent les politiques de l'entreprise, les règles commerciales ou les accords contractuels établis.
- La récupération d'informations et le raisonnement textuel : capacité à localiser, comprendre, synthétiser et raisonner sur des informations provenant de sources textuelles non structurées ou semi-structurées, telles que des articles de base de connaissances, des e-mails ou des notes de cas.
- L'interrogation de bases de données et le calcul numérique : formuler des requêtes précises pour extraire des informations spécifiques des enregistrements structurés d'une base de données CRM, puis effectuer des calculs numériques ou des agrégations sur ces données.
La confidentialité des données est-elle respectée ?
Les agents IA ont très peu conscience de la notion de confidentialité des informations. Même lorsqu'on leur donne des instructions claires pour qu'ils soient prudents avec les informations secrètes, ils s'améliorent, mais cela se fait au détriment des performances de l'IA pour accomplir la tâche principale.
De plus, lorsque les instructions de confidentialité doivent être appliquées en plusieurs étapes, leur efficacité diminue. Les agents IA utilisant des LLM open source (dont le fonctionnement est public, comme Llama ou Gemma) ont beaucoup plus de mal à devenir confidentiels que les IA « propriétaires » (développées par des entreprises).
Quels types d’IA sont les plus performants ?
Les modèles dotés de capacités de raisonnement (Gemini 2.5 Pro et GPT o1) surpassent les modèles sans raisonnement ou les versions plus légères (Gemini 2.5 Flash et GPT 4o), avec des écarts de performance allant de 12,2 % à 20,8 % en termes de taux de réussite des tâches en mode single-turn. Cette tendance est constante dans les scénarios B2B et B2C, ainsi que dans les modes single-turn et multi-turn.
Y-a-t’il des différences de performance entre les tâches B2B et B2C ?
On observe de légères différences de performance entre les tâches destinées aux entreprises (B2B) et celles destinées aux clients (B2C). Par exemple, un agent IA utilisant Gemini 2.5 Pro est légèrement plus performant avec les clients (58,3 %) qu'avec les entreprises (57,6 %) pour les tâches simples.
En revanche, un agent IA utilisant GPT 4o mini fait l'inverse (21,3 % en B2B contre 18,6 % en B2C). Le fait qu'il y ait beaucoup plus de données dans l'environnement B2C pourrait gêner les IA qui ne peuvent pas gérer beaucoup d'informations à la fois.
Quelles sont les répercussions de la communication avec les agents IA ?
Passer d'une seule question à une conversation avec plusieurs échanges constitue un défi de taille pour les agents IA. Les tests ont révélé une baisse significative de leurs performances. Par exemple, l'agent IA dopé à Gemini 2.5 Pro a échoué dans 9 cas sur 20, car il n'a pas réussi à obtenir toutes les informations nécessaires au cours de la conversation. Cela montre qu'il est difficile pour les IA de clarifier les choses lorsqu'il manque des détails au départ.
Quel LLM offre le meilleur rapport qualité/prix pour créer votre agent IA ?
Pour déterminer les IA offrant le meilleur rapport qualité-prix, l’étude a comparé leurs performances et leurs coûts. Elle montre que Gemini 2.5 Flash et Gemini 2.5 Pro offrent le meilleur rapport qualité-prix. Même si GPT o1 est très performant, il coûte beaucoup plus cher.
Quelles sont les caractéristiques d'un agent LLM performant ?
Une corrélation a été observée entre la propension d'un modèle à demander des clarifications et ses performances lors d'interactions multi-tours. Les modèles les plus performants ont tendance à demander davantage de clarifications aux utilisateurs. Cela suggère que la capacité à recueillir efficacement des informations est un atout précieux pour les agents LLM dans ce type de scénario.
Quelles leçons un entrepreneur doit-il retenir ?
Voici quelques conseils directement tirés des capacités actuelles des agents IA et des résultats d'évaluation pour les entrepreneurs.
Former les collaborateurs à l’utilisation de l’IA Générative.
Former vos collaborateurs à l'IA générative est vital pour votre entreprise. Dans six mois, sans formation, votre équipe sera moins productive que celle de vos concurrents qui utilisent l'IA pour automatiser et optimiser leurs processus.
Dans douze mois, ils risquent de devenir obsolètes et de ne plus être en mesure de comprendre ou d'interagir avec les nouveaux outils du marché. Dans deux ans, votre entreprise pourrait accuser un retard technologique important, ce qui menacerait sa compétitivité et sa capacité d'innovation.
Investir dans la formation à l'IA générative maintenant justifie une augmentation de l'efficacité, une meilleure résolution de problèmes complexes et garantit que votre équipe peut pleinement exploiter ces outils pour rester pertinente et performante face aux demandes du marché.
Commencer par des tâches simples et bien définies.
Privilégier l'automatisation des tâches qui suivent des étapes claires et des règles fixes, comme l'organisation des demandes de service client ou l'attribution des prospects de vente. Les IA sont déjà très efficaces pour ce type de travail.
Ne pas s’attendre à une autonomie trop importante pour les tâches complexes.
Les agents IA sont actuellement moins performants pour les activités qui nécessitent de nombreuses discussions, une compréhension fine et un raisonnement complexe. Il faudra donc prévoir une supervision humaine ou un entraînement plus spécifique pour ces situations.
Faire preuve de prudence en matière de confidentialité.
Si l'IA doit manipuler des informations sensibles (données clients, stratégies internes), il est impératif de lui donner des instructions très claires et répétées concernant le respect de la confidentialité.
Même avec cela, une vigilance reste nécessaire, car la confidentialité peut parfois affecter la capacité de l'IA à accomplir sa tâche principale. Soyez conscient que les IA open source sont moins performantes sur cet aspect.
Choisir des IA avec des capacités de « raisonnement ».
Les modèles dotés de fonctions de « raisonnement » (par exemple Gemini 2.5 Pro ou GPT 04 mini) sont plus efficaces pour les tâches professionnelles complexes. Même si elles sont plus chères, investir dans ces versions peut s'avérer plus rentable à long terme en matière de performance.
Considérer l'équilibre coût-performance.
Pour une utilisation quotidienne, les IA Gemini 2.5 Flash et Gemini 2.5 Pro offrent un excellent compromis entre performances et coût. Évaluez vos besoins réels avant d'opter pour les modèles les plus performants, mais aussi les plus chers.
Favoriser les IA capables de poser des questions.
Dans les situations qui nécessitent plusieurs échanges pour recueillir des informations, privilégiez les IA programmées pour demander des clarifications. Cette capacité à poser des questions est en effet un indicateur de meilleures performances dans les conversations complexes.
Références pour creuser le sujet.
Arxiv : CRMArena-Pro: Holistic Assessment of LLM Agents Across Diverse Business Scenarios and Interactions