L'étendue d'un échantillon, définie comme la différence entre la valeur maximale et la valeur minimale, est une statistique simple mais utile. Lorsque les données suivent une loi normale, il est possible de calculer l'espérance mathématique de cette étendue en fonction de la taille de l'échantillon. Un article récent présente les outils mathématiques et numériques nécessaires à ce calcul.

Formule générale et intégration

L'espérance de l'étendue pour un échantillon de n observations indépendantes suivant une loi normale centrée réduite (moyenne 0, écart-type 1) est donnée par l'intégrale :

d_n = 2 n ∫_{-∞}^{∞} Φ(x)^{n-1} x φ(x) dx

où φ représente la fonction de densité de la loi normale standard et Φ sa fonction de répartition. Cette intégrale peut être évaluée analytiquement pour n ≤ 5, mais au-delà, le recours à l'intégration numérique est nécessaire.

L'article fournit un exemple de code en Python utilisant la bibliothèque SciPy pour effectuer ce calcul :

from scipy.stats import norm
from scipy.integrate import quad
import numpy as np

def d(n):
    integrand = lambda x: x * norm.pdf(x) * norm.cdf(x) ** (n - 1)
    res, info = quad(integrand, -np.inf, np.inf)
    return 2 * n * res

Ce code permet d'obtenir l'étendue attendue pour n'importe quelle taille d'échantillon.

Approximation asymptotique

Pour de grandes valeurs de n, une approximation asymptotique simplifie le calcul :

d_n ≈ 2 Φ^{-1} ((n - 0,375) / (n + 0,25))

Cette approximation peut même se révéler plus précise que l'intégration numérique lorsque n est très grand, en raison des erreurs d'intégration sur les queues de distribution.

Valeurs numériques pour différentes tailles d'échantillon

Le tableau suivant donne les étendues attendues (en unités d'écart-type) pour plusieurs valeurs de n :

n d_n
2 1,128
3 1,693
5 2,326
10 3,078
12 3,258
23 3,858
50 4,498
100 5,015

Ainsi, pour un échantillon de 12 observations, l'étendue attendue est d'environ 3,258 écarts-types. Ce résultat a été illustré dans le cadre d'un jury de 12 personnes, où l'on s'intéresse à la dispersion probable des quotients intellectuels.

Implications pratiques

Ces calculs trouvent des applications dans le contrôle qualité, les études statistiques et même la médecine légale. Connaître l'étendue attendue permet de fixer des seuils de normalité ou de détecter des valeurs aberrantes. L'intégration numérique, bien que simple à mettre en œuvre avec des outils modernes, peut nécessiter une attention particulière à la précision lorsque n est élevé.

L'article mentionne également qu'un utilisateur a testé la même intégrale avec le logiciel Mathematica, obtenant le résultat 3,2584552797438259806 pour n=12, après avoir utilisé une méthode d'adaptation globale avec une précision de travail de 30 chiffres.

En conclusion, le calcul de l'étendue attendue d'échantillons normaux repose sur des formules bien établies, accessibles via des calculs numériques simples. Les valeurs tabulées fournissent des repères utiles pour les statisticiens et les data scientists.