Research at Foaster.ai
Chez Foaster.ai, nous développons des agents IA chaque semaine, en repoussant sans cesse leurs limites.
Notre conviction est simple : les agents IA deviennent des coéquipiers digitaux. À mesure qu’ils gagnent en responsabilité et en autonomie sur des tâches critiques, comprendre leurs schémas de comportement, leurs décisions et leur dynamique sociale devient essentiel.
Intelligence des modèles : viser le meilleur fit agent-modèle
Nous menons une recherche appliquée pour cartographier le comportement réel des modèles, afin d’associer le bon modèle au bon agent (vente, support, back-office, monitoring…).
Plutôt que de juger les LLMs seulement sur le code ou les maths, nous testons leurs comportements sociaux, stratégiques et de long terme en contextes multi-agents — ce qui rend les agents fiables dans le monde réel.
Pourquoi c’est décisif
Choisir un modèle n’est plus une question de marque ou de fiche technique. C’est une question de fit : persuasion vs. résistance, style de coopération, modes d’échec, compromis latence/coût, robustesse sous pression.
Notre recherche vous apporte de l’évidence, pas de la supposition.
Notre méthode, en bref
Simulations multi-agents hiérarchiques avec outils, rôles et information incomplète — bien plus proches des workflows réels que des prompts statiques.
Métriques conditionnées par le rôle pour analyser les modèles sous différents angles.
Signaux de comportement au-delà du taux de victoire.
Protocoles reproductibles et cadrage agent-with-tools pour le réalisme.
Focus : le benchmark Loup-Garou
Pourquoi Loup-Garou
Un jeu 100 % langage, adversarial et socialement exigeant : rôles cachés, incertitude, récits qui évoluent.
Il révèle si un modèle sait planifier sur plusieurs jours, coordonner, persuader, bluffer ou résister à la pression — exactement les compétences qui rendent les agents entreprise robustes.
Ce que nous faisons tourner
Des round-robins entre modèles, équilibrés par rôle, avec leaderboards Elo et ventilation par rôle (wolves = manipulation, villagers = résistance).
Nous capturons aussi raisonnements publics vs. privés pour étudier l’intention vs. le récit — comment un modèle gagne (ou échoue) en réalité.
Ce que vous obtenez
Un leaderboard des modèles et des model cards détaillant forces, faiblesses et modes d’échec.
Des recommandations agent-modèle concrètes (ex. quel modèle placer derrière votre agent d’outreach vs. votre agent de veille).
Des guardrails & prompts adaptés aux tendances de chaque modèle, plus des conseils budget/latence pour la prod.
Et ensuite
Nous passons à des jeux plus longs et plus complexes, à davantage de familles de modèles et à des métriques de comportement élargies.
L’objectif est simple, volontairement compétitif : qui peut battre le leader actuel ?
Vous voulez faire évaluer votre modèle ou cofinancer des runs plus larges ? Contactez-nous.
Ne choisissez pas votre modèle à l’aveugle.
Nous benchmarkons son comportement en tant qu’agent, puis branchons le meilleur fit dans votre stack.