R&D en systèmes agentiques

Découvrez sur quoi travaillent les chercheurs de Foaster !

R&D en systèmes agentiques

Découvrez sur quoi travaillent les chercheurs de Foaster !

R&D en systèmes agentiques

Découvrez sur quoi travaillent les chercheurs de Foaster !

Research at Foaster.ai

Chez Foaster.ai, nous développons des agents IA chaque semaine, en repoussant sans cesse leurs limites.

Notre conviction est simple : les agents IA deviennent des coéquipiers digitaux. À mesure qu’ils gagnent en responsabilité et en autonomie sur des tâches critiques, comprendre leurs schémas de comportement, leurs décisions et leur dynamique sociale devient essentiel.

Intelligence des modèles : viser le meilleur fit agent-modèle

Nous menons une recherche appliquée pour cartographier le comportement réel des modèles, afin d’associer le bon modèle au bon agent (vente, support, back-office, monitoring…).

Plutôt que de juger les LLMs seulement sur le code ou les maths, nous testons leurs comportements sociaux, stratégiques et de long terme en contextes multi-agents — ce qui rend les agents fiables dans le monde réel.

Pourquoi c’est décisif

Choisir un modèle n’est plus une question de marque ou de fiche technique. C’est une question de fit : persuasion vs. résistance, style de coopération, modes d’échec, compromis latence/coût, robustesse sous pression.

Notre recherche vous apporte de l’évidence, pas de la supposition.

Notre méthode, en bref

Simulations multi-agents hiérarchiques avec outils, rôles et information incomplète — bien plus proches des workflows réels que des prompts statiques.

Métriques conditionnées par le rôle pour analyser les modèles sous différents angles.
Signaux de comportement au-delà du taux de victoire.
Protocoles reproductibles et cadrage agent-with-tools pour le réalisme.

Focus : le benchmark Loup-Garou

Pourquoi Loup-Garou

Un jeu 100 % langage, adversarial et socialement exigeant : rôles cachés, incertitude, récits qui évoluent.

Il révèle si un modèle sait planifier sur plusieurs jours, coordonner, persuader, bluffer ou résister à la pression — exactement les compétences qui rendent les agents entreprise robustes.

Ce que nous faisons tourner

Des round-robins entre modèles, équilibrés par rôle, avec leaderboards Elo et ventilation par rôle (wolves = manipulation, villagers = résistance).

Nous capturons aussi raisonnements publics vs. privés pour étudier l’intention vs. le récit — comment un modèle gagne (ou échoue) en réalité.

Ce que vous obtenez

Un leaderboard des modèles et des model cards détaillant forces, faiblesses et modes d’échec.

Des recommandations agent-modèle concrètes (ex. quel modèle placer derrière votre agent d’outreach vs. votre agent de veille).

Des guardrails & prompts adaptés aux tendances de chaque modèle, plus des conseils budget/latence pour la prod.

Et ensuite

Nous passons à des jeux plus longs et plus complexes, à davantage de familles de modèles et à des métriques de comportement élargies.

L’objectif est simple, volontairement compétitif : qui peut battre le leader actuel ?

Vous voulez faire évaluer votre modèle ou cofinancer des runs plus larges ? Contactez-nous.

Ne choisissez pas votre modèle à l’aveugle.

Nous benchmarkons son comportement en tant qu’agent, puis branchons le meilleur fit dans votre stack.

Des questions ?

Nous sommes là pour vous aider - envoyez-nous un email !

Nous écrire

Nos autres services

Prêt à embaucher des agents IA ?

C'est parti

Prêt à embaucher des agents IA ?

C'est parti

Prêt à embaucher des agents IA ?

C'est parti