Qu'est-ce que la loi de Benford ?

La loi de Benford, également connue sous le nom de loi du premier chiffre, est une observation statistique fascinante. Elle établit que dans de nombreux ensembles de données numériques issues du monde réel, la fréquence d'apparition des premiers chiffres n'est pas uniforme. Contrairement à l'intuition qui voudrait que chaque chiffre de 1 à 9 ait environ 11,1 % de chances d'apparaître en première position, la loi de Benford prédit une distribution très inégale : le chiffre 1 apparaît comme premier chiffre dans près de 30,1 % des cas, tandis que le chiffre 9 n'apparaît que dans environ 4,6 % des cas. Cette régularité a été formalisée mathématiquement par le physicien Frank Benford en 1938, bien que le phénomène ait été remarqué dès 1881 par l'astronome et mathématicien Simon Newcomb.

Définition mathématique

La probabilité que le premier chiffre d'un nombre soit égal à d (où d est un entier de 1 à 9) est donnée par la formule : P(d) = log₁₀(1 + 1/d). Ainsi, pour d=1, P(1) = log₁₀(2) ≈ 0,301, soit 30,1 % ; pour d=2, P(2) = log₁₀(1,5) ≈ 0,176, soit 17,6 % ; et ainsi de suite jusqu'à d=9, P(9) = log₁₀(10/9) ≈ 0,046, soit 4,6 %. La loi se généralise également aux chiffres suivants (deuxième, troisième, etc.) et s'applique dans différentes bases numériques, pas seulement en base 10.

Exemples concrets de conformité

La loi de Benford s'observe dans une grande variété de domaines : longueurs des rivières, populations des villes, cours des actions, constantes physiques, factures d'électricité, ou encore nombres figurant dans les articles de Wikipédia. En revanche, certains ensembles de données ne la respectent pas, comme les numéros de téléphone, les codes postaux, ou les ensembles de nombres distribués uniformément (par exemple, les numéros de loterie).

Explications du phénomène

Plusieurs théories tentent d'expliquer pourquoi cette loi se vérifie. L'explication principale repose sur le caractère multiplicatif des fluctuations : lorsque les données couvrent plusieurs ordres de grandeur (par exemple, de 1 à 100 000), les intervalles entre les puissances de 10 sont plus grands pour les petits premiers chiffres. Une autre approche, dite invariance d'échelle, montre que si un ensemble de données obéit à la loi de Benford dans une unité de mesure, il y obéira aussi après multiplication par une constante (changement d'unité). Enfin, l'explication entropique de Krieger et Kafri suggère que la loi maximise l'entropie sous contrainte de symétrie multiplicative.

Applications majeures : détection de fraudes

Fraude comptable et fiscale : L'application la plus célèbre de la loi de Benford est la détection de fraudes dans les déclarations comptables et fiscales. Les fraudeurs qui inventent des chiffres tendent à les répartir uniformément, ce qui s'écarte significativement de la distribution prédite par Benford. Les auditeurs et les autorités fiscales utilisent ce test comme un signal d'alarme préliminaire.

Fraude électorale : L'analyse des résultats électoraux à l'aide de la loi de Benford a été utilisée pour détecter d'éventuelles anomalies. Des écarts significatifs par rapport à la distribution attendue peuvent indiquer une manipulation des chiffres, bien que cette méthode fasse l'objet de débats parmi les statisticiens quant à sa fiabilité.

Fraude scientifique : Dans la recherche académique, la loi est employée pour repérer des données fabriquées ou manipulées dans des publications scientifiques. Certaines revues et agences de financement l'utilisent comme outil de contrôle.

Données génomiques et macroéconomiques : La loi de Benford a également été vérifiée sur des données de génomes (fréquences des gènes) et sur des agrégats macroéconomiques (PIB, taux de change), où elle sert à valider l'authenticité des séries.

Utilisation dans les procès criminels

La loi de Benford a été présentée comme preuve dans plusieurs procès criminels aux États-Unis, notamment dans des affaires de fraude financière. Cependant, son usage est critiqué par certains experts qui soulignent que la non-conformité à la loi n'est pas une preuve de fraude en soi, car de nombreux ensembles de données légitimes ne suivent pas cette distribution.

Limites et critères d'applicabilité

Tous les ensembles de données ne sont pas censés suivre la loi de Benford. Les critères pour qu'une distribution s'y conforme incluent : les données doivent couvrir plusieurs ordres de grandeur, être issues de processus multiplicatifs (et non additifs), et ne pas avoir de limites supérieures ou inférieures artificielles. Les ensembles qui ne respectent pas ces conditions (comme les tailles d'écran d'ordinateur, généralement autour de 10 à 17 pouces) ne suivent pas la loi.

Tests statistiques

Plusieurs tests statistiques permettent de vérifier l'adhésion d'un ensemble de données à la loi de Benford, notamment le test du chi-deux et le test de Kolmogorov-Smirnov. Ces tests comparent la distribution observée des premiers chiffres à la distribution théorique de Benford et fournissent un indicateur de l'écart.

La loi de Benford reste un outil précieux et largement utilisé, alliant élégance mathématique et applications pratiques dans la lutte contre la fraude.