Une loi étonnante: la Loi de Benford ou la loi de nombres anormaux ! 1


La loi de Benford, également appelée loi des nombres anormaux, énonce que dans une liste de données statistiques, le 1er chiffre non nul le plus fréquent est 1, pour près du tiers des observations. Puis le 2 est lui-même plus fréquent que 3… et la probabilité d’avoir un 9 comme premier chiffre significatif n’est que de 4,6 %.
De façon générale, la loi donne la valeur théorique f de la fréquence d’apparition du premier chiffre d’un nombre d d’un résultat de mesure exprimé dans une base b donnée au moyen d’une unité : f = log_{b} left(1 + frac 1 dright )
Voici une représentation graphique faite avec Excel (formule expliquée plus bas):

Un peu d’histoire

Cette distribution a été observée une première fois en 1881 par l’astronome américain Simon Newcomb après qu’il se fut aperçu de l’usure (et donc de l’utilisation) préférentielle des premières pages sur les dernières pages d’un ouvrage référençant les tables logarithmiques (utilisées à l’époque pour effectuer des calculs). Lorsqu’il réalisa que les premières pages (tables) étaient plus usées que les autres, il en a déduit que ses collègues de l’Université réalisaient des calculs avec des nombres commençant par des chiffres bas de façon beaucoup plus fréquente.
 
Cette découverte passe complètement inaperçu pendant cinquante-sept ans. C’est Frank Benford (ingénieur chez General Electric), aux alentours de 1938, qui remarqua à son tour cette usure inégale des pages de certains ouvrages, et il constate qu’il arrive aux mêmes résultats après avoir répertorié des dizaines de milliers de données de notre vie quotidienne:
  • longueurs de fleuves
  • nombre d’habitants et indices de population
  • numéro dans l’adresse des personnes
  • taux de mortalité
  • listes de prix
  • liste de factures
  • cours de la bourse
  • les statistiques de la Ligue américaine de base-ball
  • Les scores de tournois de tennis
  • les nombre apparaissant dans des articles d’une revue
  • nombres premiers
  • constantes physiques et mathématiques

Pour les fraudes fiscales

La loi de Benford est aussi utilisée dans différents pays pour détecter les fraudes fiscales.
  • Dans l’ensemble des données retournées par une déclaration fiscale, si les fréquences d’apparition et ratios des nombres et montants déclarés suivent une loi de Benford, la déclaration est probablement honnête.
  • Mais si les montants sont choisis et remplis au hasard, une analyse statistique montrera une distribution différente à celle de Benford, il y aurait donc risque de fraude.
  • Les premiers chiffres significatifs 5 et 6 prédominent nettement dans les données falsifiées : 40 % pour les 5 et plus de 20 % pour les 6.
Dans une étude publiée en 2011, quatre économistes allemands, Bernhard Rauch, Max Göttsche, Gernot Brähler et Stefan Engel ont testé la loi de Benford sur les données comptables produites par les Etats membre de l’Union européenne. Ils montrent que la Grèce est le pays européen qui s’éloigne le plus des prédictions de la loi de Benford. La Belgique est le second pays qui dévie le plus par rapport à cette loi (voir article ici).
 

Et dans EXCEL…

Tout d’abord voici comment calculer cette loi dans EXCEL. La formule est assez simple puisqu’il s’agit de reprendre celle écrite par Franck Benford:
 

Afin de mettre en avant les pourcentages, nous pouvons utiliser un tableau croisé dynamique.
L’exemple choisi pour illustrer concerne le journal d’une comptabilité. 

Pour information, j’ai réalisé le test sur une société chinoise que j’ai suivie ainsi que sur une PME française et les résultats sont assez impressionnants. L’exemple ci-dessous concerne la PME française.

Tableau Croisé Dynamique

Voici tout d’abord le résultat que nous pouvons avoir (12479 écritures recensées). 
Sur la colonne la plus à droite, j’ai appliqué la formule de la Loi de Benford de façon à comparer. Nous pouvons tout à fait voir les similitudes au niveau des fréquences. Bluffant, non ?


Afin de réaliser ce TCD (Tableau Croisé Dynamique), la première étape est dans le tableau de données, d’ajouter une colonne qui permet de récupérer le premier caractère, en utilisant la formule =GAUCHE(Montant;1).
Ensuite, il faut insérer un TCD de la manière suivante:

Etiquette de ligne: Mettre la nouvelle colonne
Somme Valeurs: mettre tout d’abord le nombre de Montant HT, puis remettre une deuxième fois cette colonne en modifiant les données dans les paramètres des champs de valeurs, en mettant sur l’onglet « Afficher les valeurs » le % du total général.

 

Conclusion

Nous venons donc de voir comment fonctionne la Loi de Benford et des cas d’utilisation, notamment avec Excel. Il ne s’agit que d’un petit aperçu, c’est pour cela que je vous propose quelques liens, pour les plus curieux d’entre vous:
Enfin, nous pouvons imaginer que cette Loi pourrait avoir des cas d’utilisations dans des modèles financiers par exemple, ou pour toute autre analyse de données d’entreprise.


Commentaire sur “Une loi étonnante: la Loi de Benford ou la loi de nombres anormaux !

Les commentaires sont fermés.