French

Research at Foaster.ai

Chez Foaster.ai, nous développons des agents IA chaque semaine, en repoussant sans cesse leurs limites.
Notre conviction est simple : les agents IA deviennent des coéquipiers digitaux. À mesure qu’ils gagnent en responsabilité et en autonomie sur des tâches critiques, comprendre leurs schémas de comportement, leurs décisions et leur dynamique sociale devient essentiel.

Introduction

Nous menons une recherche appliquée pour cartographier le comportement réel des modèles, afin d’associer le bon modèle au bon agent (vente, support, back-office, monitoring…).
Plutôt que de juger les LLMs seulement sur le code ou les maths, nous testons leurs comportements sociaux, stratégiques et de long terme en contextes multi-agents, ce qui rend les agents fiables dans le monde réel.

Pourquoi c’est décisif
Choisir un modèle n’est plus une question de marque ou de fiche technique. C’est une question de fit : persuasion vs. résistance, style de coopération, modes d’échec, compromis latence/coût, robustesse sous pression.
Notre recherche vous apporte de l’évidence, pas de la supposition.

Notre méthode, en bref

  • Simulations multi-agents hiérarchiques avec outils, rôles et information incomplète — bien plus proches des workflows réels que des prompts statiques.

  • Métriques conditionnées par le rôle pour analyser les modèles sous différents angles.

  • Analyse du comportement au-delà du taux de victoire.

  • Protocoles reproductibles et cadrage agent-with-tools pour le réalisme.



Focus : le benchmark Loup-Garou


Pourquoi Loup-Garou
Un jeu 100 % langage, adversarial et socialement exigeant : rôles cachés, incertitude, récits qui évoluent.
Il révèle si un modèle sait planifier sur plusieurs jours, coordonner, persuader ou agir sous pression, des compétences qui rendent les agents robustes.

Ce que nous faisons tourner
Des round-robins entre modèles, équilibrés par rôle, avec leaderboards Elo et ventilation par rôle (wolves = manipulation, villagers = résistance).
Nous capturons aussi raisonnements publics vs. privés pour étudier l’intention vs. le récit, comment un modèle gagne (ou échoue) en réalité.

Ce que vous obtenez

  • Un leaderboard des modèles et des model cards détaillant forces, faiblesses et modes d’échec.

  • Des recommandations agent-modèle concrètes (ex. quel modèle placer derrière votre agent d’outreach vs. votre agent de veille).

  • Des guardrails & prompts adaptés aux tendances de chaque modèle, plus des conseils budget/latence pour la prod.


Et ensuite

Nous passons à des jeux plus longs et plus complexes, à davantage de familles de modèles et à des métriques de comportement élargies.
L’objectif est simple, volontairement compétitif : qui peut battre le leader actuel ?
Vous voulez faire évaluer votre modèle ou cofinancer des runs plus larges ? Contactez-nous.

Ne choisissez pas votre modèle à l’aveugle.
Nous benchmarkons son comportement en tant qu’agent, puis branchons le meilleur fit dans votre stack.