Charlie Labs, une entreprise développant un agent de codage autonome, annonce avoir réduit de près de 90 % le coût d'inférence de l'une de ses briques logicielles essentielles : l'identification du dépôt cible à partir d'une requête utilisateur (repo inference).

L'optimisation, déployée le 27 avril 2026, a consisté à substituer le modèle gpt-5.4 par son pendant plus compact, gpt-5.4-nano. L'opération a porté sur une étape d'orchestration bien définie : choisir, parmi un inventaire connu, le dépôt GitHub pertinent pour exécuter une tâche. Cette décision, souvent basée sur un ticket Linear, un fil Slack ou une notification webhook, ne nécessite pas la puissance d'un modèle généraliste de grande taille.

Un gain mesuré sur le coût et la latence

Selon l'analyse publiée par l'entreprise, le coût par appel est passé de 0,0429 dollar à 0,00414 dollar, soit une baisse de 90,4 %. Le coût total sur une fenêtre de 22 heures est passé de 639,17 dollars à 65,06 dollars, malgré une augmentation de 5 % du volume d'appels (passé de 14 891 à 15 709). Sur une base annualisée, en supposant un trafic et une répartition similaires, l'économie potentielle est estimée à environ 229 000 dollars par an.

La latence directe des appels au modèle de langage a également bénéficié de l'optimisation : le temps médian (p50) a diminué de 10,1 %, et le temps moyen de 7,1 %. En revanche, le temps au 95e percentile est resté stable, et le 99e percentile a affiché une légère dégradation en raison de valeurs aberrantes. Charlie Labs précise que cette amélioration ne concerne pas la latence de bout en bout de l'étape de routage, mais seulement celle de l'appel direct au modèle d'inférence.

Un prompt resserré et une validation rigoureuse

Pour garantir la fiabilité du modèle réduit, l'équipe a également retravaillé le prompt. Le nouveau prompt clarifie la hiérarchie des indices à prendre en compte : extraire d'abord la cible actionnable de la demande humaine, puis utiliser les mentions directes de dépôt ou le contexte de dépôt mappé, avant de recourir aux indices de routage de l'inventaire, aux noms de paquets, aux noms de services et aux chemins de haut niveau. Il précise également que les noms de fournisseurs peuvent être des sources de données et non des cibles d'implémentation. Par exemple, une demande de résumé de ce qui s'est passé dans Linear ne doit pas automatiquement router vers le dépôt de l'intégration Linear.

Avant le déploiement, Charlie Labs a mis en place un banc d'essai dédié à l'inférence des dépôts. La version finale du prompt a passé avec succès les neuf cas de test préparés, à deux reprises consécutives, atteignant ainsi l'objectif de 100 % de précision sur ces scénarios.

Une leçon pour l'orchestration des agents

L'entreprise tire de cette expérience une règle pratique : pour les étapes d'orchestration bornées et validables, il convient d'utiliser le modèle le plus petit capable de résoudre de manière fiable le problème. Charlie Labs identifie plusieurs étapes de ce type dans les systèmes d'agents : classifier, router, sélectionner, résumer, décider s'il faut aller chercher plus de contexte. Certaines nécessitent des modèles plus puissants, mais beaucoup non.

L'optimisation de l'inférence des dépôts illustre ce principe. Le modèle est devenu plus petit tandis que la frontière autour de lui est devenue plus nette. C'était l'essentiel, conclut Charlie Labs. Cette approche, qui combine un modèle plus léger et un prompt mieux structuré, est appelée à être reproduite sur d'autres étapes similaires.