Pièges statistiques : confondre agrégats et paramètres fausse les enchères marketing

Traiter des moyennes observées comme des paramètres certains est une erreur répandue en analyse de données, y compris dans le domaine du marketing digital. Dans un billet publié le 27 mai 2026, l'analyste Alexander Petrov illustre ce biais à partir d'un exemple simple : le lancer d'une pièce. Observer huit faces sur vingt lancers donne une fréquence de 0,4, mais cette statistique n'est pas la probabilité inconnue que la pièce tombe sur face. Pourtant, des raisonnements analogues sont couramment appliqués au calcul des enchères pour les campagnes d'acquisition d'utilisateurs.

Une formule apparemment raisonnable, mais trompeuse

L'article détaille une situation typique : un annonceur cherche à optimiser son retour sur dépenses publicitaires (ROAS) et fixe une enchère à partir de données agrégées. Dans un exemple simplifié où l'objectif de ROAS est de 100 % (seuil de rentabilité), la formule d'enchère se réduit au produit du revenu moyen par utilisateur (ARPU) et du taux d'installation pour mille impressions (IPM). En prenant les chiffres observés — 500 de revenu, 100 installations, 10 000 impressions — on calcule un ARPU de 5,0 et un IPM de 10,0, ce qui donne une enchère de 50.

Deux écueils majeurs

Petrov souligne deux problèmes fondamentaux dans cette approche. Le premier est la confusion entre paramètre et statistique : l'ARPU et l'IPM observés ne sont que des estimations bruitées, non les valeurs réelles. Elles comportent une erreur d'échantillonnage, particulièrement élevée sur de petites cohortes. Le second problème est mathématique : l'espérance d'un produit n'est pas égale au produit des espérances si les variables ne sont pas indépendantes. Or ARPU et IPM sont souvent corrélés — les utilisateurs de qualité élevée ayant à la fois un meilleur taux de conversion et une valeur vie (LTV) plus élevée. Ignorer cette corrélation conduit à des enchères systématiquement biaisées.

Une modélisation bayésienne proposée en alternative

Pour éviter ces pièges, l'auteur préconise de traiter ARPU et IPM comme des variables aléatoires inconnues et de les modéliser explicitement avec des distributions a priori et des modèles d'observation. Il propose un cadre bayésien simple : une loi Gamma faiblement informative pour l'ARPU, une loi Beta pour l'IPM à l'échelle de mille, et des modèles normaux pour les observations. L'enchère est alors définie comme l'espérance postérieure du produit des deux paramètres, ce qui intègre naturellement l'incertitude, la taille de l'échantillon et la corrélation éventuelle entre les variables (via une approche multivariée ou une copule si nécessaire).

Un avertissement général pour l'analyse de données

Au-delà du marketing, le message de Petrov est général : « Ne confondez jamais la carte avec le territoire. Les métriques agrégées sont la carte — des observations bruitées d'une réalité sous-jacente. Les prendre pour la vérité absolue conduit à des décisions trop confiantes et souvent biaisées. » Il invite les analystes à se demander, à chaque calcul sur des données de cohorte, s'ils estiment un paramètre ou s'ils se contentent de faire de l'arithmétique sur les données.

Pièges statistiques : pourquoi confondre agrégats et paramètres fausse les décisions marketing

À lire ensuite

Nucléaire iranien : l'optimisme américain ravivé à l'approche d'une décision finale

Enquête élargie sur une fraude présumée de 14 milliards d’euros portant sur des actions Hermès

Médicaments anti-obésité : le Wegovy et le Mounjaro remboursés à partir de la mi-juin sous conditions, patient...

Peter Thiel installe sa famille en Argentine, séduit par les réformes libertaires de Milei