La correction de Student pour petits échantillons

L’histoire de la statistique doit beaucoup à William Sealy Gosset, un mathématicien qui travaillait pour la brasserie Guinness. Soucieux d’améliorer la qualité de la bière, il constata que les méthodes statistiques classiques, basées sur une hypothèse de loi normale, donnaient des intervalles de confiance trop étroits lorsqu’on ne disposait que de peu de données. Pour contourner cette limitation, il inventa la distribution t de Student, publiée sous le pseudonyme de «Student» afin de préserver le secret industriel de son employeur.

Un récent billet technique remet en lumière cette découverte et propose une table de correction simplifiée pour obtenir un intervalle de confiance à 90 %. Selon cette approche, il faut multiplier l’estimation naïve de l’écart-type par un facteur correctif qui dépend du nombre d’échantillons. Par exemple, avec deux échantillons, le facteur est de 4 ; avec trois, de 2 ; avec quatre, de 1,5 ; avec cinq, de 1,3 ; de six à huit, de 1,2 ; de neuf à vingt, de 1,1. Au-delà de vingt échantillons, la correction devient négligeable. Ainsi, pour sept mesures donnant une moyenne de 32 minutes et un écart-type estimé de 8 minutes, l’intervalle à 90 % ne se calcule pas par 32 ± 8 × 1,645, mais par 32 ± 8 × 1,2 × 1,645.

Une astuce pratique pour deux valeurs

Le billet va plus loin en proposant une règle empirique pour estimer rapidement un écart-type lorsque l’on ne dispose que de deux observations. La formule classique donne un écart-type égal à (valeur haute − valeur basse) / √2, ce qui sous-estime massivement la dispersion réelle. En appliquant la correction de Student (facteur t de 1,846 pour un degré de liberté), on obtient une approximation bien meilleure : il suffit de multiplier l’écart entre les deux valeurs par 1,3.

Application concrète

L’auteur illustre cette méthode par un exemple concret. Si une personne demande si «49 litres est un bon résultat» et qu’on lui répond que la comparaison se fait par rapport à «43 litres», puis à «47 litres», on pourrait croire que 49 est nettement supérieur. Mais en appliquant la règle précédente, l’écart entre 43 et 47 est de 4 litres. Multiplié par 1,3, on obtient un écart-type estimé d’environ 5 litres. La moyenne des deux valeurs est 45 litres, et 49 litres se situe à moins d’un écart-type de cette moyenne, ce qui en fait un résultat tout à fait normal et non exceptionnel.

Portée et limites

Cette technique ne remplace pas une analyse statistique rigoureuse lorsque les données sont nombreuses, mais elle offre un outil mental utile dans les situations où l’on ne dispose que de très peu d’observations. Elle rappelle que l’incertitude sur l’estimation de l’écart-type est d’autant plus grande que l’échantillon est petit, et que la distribution t de Student permet de corriger ce biais de manière simple.